やりたいこと
見出しの通りになります。
小説家になろうという、同人小説を投稿できるサイトに挙げられた小説のタイトルをスクレイピングして、データセットとして取得したいと考えております。
当初、Requestの機能とBeautifulSoupを使ってスクレイピングしようと考えたのですが、ステータスがすべて403になってしまい実現しませんでした。
私自身、スクレイピングに関して全くと言っていいほどの素人でして、お力をお借りしたいと考えている所存です。
やり方や使用すべきアプリケーションなど、ご教授いただけると幸いです。
試したプログラム
from
1import requests 2from bs4 import BeautifulSoup 3 4responses = [] 5 6for i in range(1,100): 7 responses.append(requests.get(fr"https://yomou.syosetu.com/search.php?&order_former=search&order=hyoka¬nizi=1&p={i}")) 8print(responses)
実行結果
[<Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response []>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>]
回答1件
あなたの回答
tips
プレビュー