前提・実現したいこと
pythonでコミックの発売日・値段・タイトルをスクレイピングしてそれをTSVファイルにするシステムを作っています。
リストにコミックのURLを入れる機能を実装中にうまくいきませんでした。
リストの中にコミックのURLが入っていませんでした。
リストの中にURLを入れる方法を教えていただけないでしょうか?
発生している問題・エラーメッセージ
該当のソースコード
import requests from bs4 import BeautifulSoup from selenium import webdriver res = requests.get('https://www.shueisha.co.jp/') html_doc = res.text soup = BeautifulSoup(html_doc, 'html.parser') div_book_list = soup.find('div', class_='wrap-issue-content') import requests from bs4 import BeautifulSoup from selenium import webdriver res = requests.get('https://www.shueisha.co.jp/') html_doc = res.text soup = BeautifulSoup(html_doc, 'html.parser') div_book_list = soup.find('div', class_='wrap-issue-content') import requests from bs4 import BeautifulSoup from selenium import webdriver res = requests.get('https://www.shueisha.co.jp/') html_doc = res.text soup = BeautifulSoup(html_doc, 'html.parser') div_book_list = soup.find('div', class_='wrap-issue-content') book_urls = [] a_tags = div_book_list.find_all('a') for a_tag in a_tags: if a_tag['href'] not in book_urls: book_urls.append(a_tag['href']) def get_book_info(book_url): res = requests.get(book_url) html_doc = res.text soup = BeautifulSoup(html_doc, 'html.parser') div_book_detail = soup.find('h1', class_='bktitle') book_title = div_book_detail.find('b') book_datas = soup.find('li', class_='current-kamidigi') book_data = book_datas.find_all('p') return [ book_title.get_text(), [b.get_text() for b in book_data], ] get_book_info('http://books.shueisha.co.jp/items/contents.html?isbn=978-4-08-882894-7') import time book_info_list = [] for book_url in book_urls: print('スクレイピング中: ', book_url) book_info_list.append(get_book_info(book_url)) time.sleep(1) print('完了')
試したこと
「python スクレイピング URL」などと調べてみましたが疑問に対するものはありませんでした。
補足情報(FW/ツールのバージョンなど)
ここにより詳細な情報を記載してください。
https://books.shueisha.co.jp/comics/index.html に表示されているコミックの情報ですか?
回答2件
あなたの回答
tips
プレビュー