実現したいこと
Bookwakerの商品ページから漫画のタイトルや値段などを取得してDBに格納し、
値引き時の購入漏れを防ぐプログラムを構築したいと考えています。
発生している問題・分からないこと
下記プログラムをPythonにて実行しているのですが、タグ情報までは取得できますが、
漫画のタイトルや値段を取得する方法がわかりません。
どのように記述すると取得可能でしょうか?
また、2行同じHTMLコードが表示されるのも回避したいです。
該当のソースコード
import requests from bs4 import BeautifulSoup # スクレイピングするウェブページのURL url = 'https://bookwalker.jp/category/2/?order=release' # ウェブページにGETリクエストを送る response = requests.get(url) # ウェブページの内容を解析する soup = BeautifulSoup(response.content, 'html.parser') # データを含む要素を見つける # ここではリストアイテムの番号をスクレイピングすることを想定しています list_items = soup.find_all(class_='m-book-item__title') # データを抽出して表示する for item in list_items: print(item)
試したこと・調べたこと
- teratailやGoogle等で検索した
- ソースコードを自分なりに変更した
- 知人に聞いた
- その他
上記の詳細・結果
正規表現で置換しようとしましたが、エラーで変更できなかったです。
補足
特になし
あなたの回答
tips
プレビュー