pythonスクレイピングで今日の記事だけを取得したい

前提・実現したいこと

pythonで
https://www.eigonews.net/blog/
このサイトをスクレイピングしようとしています。
今日の記事だけをスクレイピングしたいのですがどのようにすれば良いのかが分かりません。
for文で回すのかなと思い試してみると、同じ日付がずっと吐き出されます。

該当のソースコード

python
1import requests
2import re
3from bs4 import BeautifulSoup
4import datetime
5
6today = datetime.datetime.today().strftime("%Y-%m-%d")
7	URL = 'https://www.eigonews.net/blog/'
8	headers = {"User-Agent": "hoge"}
9
10	resp = requests.get(URL, timeout=1, headers=headers)
11	r_text = resp.text
12
13	soup = BeautifulSoup(r_text, 'html.parser')
14	a = soup.select('.media-body a')
15	span = soup.select('#main > div > article:nth-child(1) > div > div.media-body > div > span.published.entry-meta_items')
16
17	for t in a:
18		for s in span:
19			if s.get_text() == '2019-06-03':
20				print(s.get_text())
21				msg ='{} ({})'.format(t.getText(), t.get('href'))
22				print(msg)

因みに今日(6月4日)の記事が無かったので6月3日で試しています。

補足情報（FW/ツールのバージョンなど）

python3,windows10

行動規範の内容に同意します

回答1件

ベストアンサー

以下のようにすれば、今日の日付の記事を取得できます。
サイトの構造はお使いのブラウザの開発者ツール (Chrome ならF12) で確認してください。
ブラウザの「Copy selector」でコピーされる CSS セレクタは冗長になるので、ご自身で HTML のコードを把握した上で抽出に必要なクラス名、ID名を確認したほうがよいでしょう。

python
1import datetime as dt
2
3import requests
4from bs4 import BeautifulSoup
5
6url = "https://www.eigonews.net/blog/"
7headers = {"User-Agent": "hoge"}
8
9res = requests.get(url, headers=headers)
10soup = BeautifulSoup(res.content, "html.parser")
11
12# today = dt.datetime.today().strftime("%Y-%m-%d")
13today = "2019-06-03"  # 06/04 の記事はなかったので、テスト用に前日の日付を設定
14
15for article in soup.find_all(class_="media-body"):
16    published = article.find(class_="published").string  # 記事の日付
17    if published != today:
18        continue  # 今日の日付でない場合はスキップ
19
20    # 記事のリンクとタイトルを取得
21    header = article.find(class_="media-heading")
22
23    link = header.a["href"]
24    title = header.string
25    print(link, title)

output
1
2https://www.eigonews.net/trump-concludes-state-visit-to-japan/
3トランプ氏が国賓としての訪日を終了【Trump concludes state visit to Japan】

不明な点があればコメントしてください。

投稿2019/06/04 13:14

tiitoi

総合スコア21956

Quad

2019/06/04 13:28

これで出来ました。ありがとうございます。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！