以下のサイトhttps://imitsu.jp/matome/hp-design/
にある「記事一覧」の全ての記事について、記事タイトルとURLリンクを取得してリスト化したいです。
別サイトの件で本日すでに質問しご解答いただき教えていただいたコードをhttps://teratail.com/questions/301056 応用してやってみようとしましたが、HTMLのDOM構造が分からず、うまくできませんでした。
from
1import urllib.request as req 2 3url = "https://imitsu.jp/matome/hp-design/" 4res = req.urlopen(url) 5soup = BeautifulSoup(res, "html.parser") 6 7for article in soup.select("a.item"): 8 title = article.h3.get_text(strip=True) 9 url = article["href"] 10 print(title, url)
助けていただけないでしょうか
利用環境は、Google Colaboratory です
もし可能でしたら、この「記事一覧」は28ページまでありますので、それらを全て自動取得できるようにしたいです、、
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。