小説家になろうに投稿された小説名を抽出して、データセットにしたい

やりたいこと

見出しの通りになります。
小説家になろうという、同人小説を投稿できるサイトに挙げられた小説のタイトルをスクレイピングして、データセットとして取得したいと考えております。
当初、Requestの機能とBeautifulSoupを使ってスクレイピングしようと考えたのですが、ステータスがすべて403になってしまい実現しませんでした。
私自身、スクレイピングに関して全くと言っていいほどの素人でして、お力をお借りしたいと考えている所存です。
やり方や使用すべきアプリケーションなど、ご教授いただけると幸いです。

試したプログラム

from
1import requests
2from bs4 import BeautifulSoup
3
4responses = []
5
6for i in range(1,100):
7    responses.append(requests.get(fr"https://yomou.syosetu.com/search.php?&order_former=search&order=hyoka&notnizi=1&p={i}"))
8print(responses)

実行結果

[<Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response []>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>, <Response [403]>]

AbeTakashi

2022/03/17 10:32

理由は分かりませんが、短時間でウエイトを入れずにそんなにリクエストを投げたら403を返されても文句は言えません。サイトの利用規約にもサーバに負荷をかける行為は禁止となっていると思います。まずはループせずに1回ずつアクセスして検証してみたらどうですか？　そもそもスクレイピングする際は利用規約を一度確認して、問題ないとしても絶対に相手に迷惑にならないようにするべきです。

AbeTakashi

2022/03/17 10:38

ついでに言うなら「小説家になろう」はAPIを用意してるみたいです。 https://dev.syosetu.com/man/api/ お望みのデータが取れるかどうかは分かりかねますが、APIを提供している以上はスクレイピングは禁止されてないにしてもやってほしくないと思います。なのでまずはAPIを試してみるべきかと思います。

Yuta0213

2022/03/17 10:41

試しにforのrangeを(1,2)にしてみたのですが、403ステータスになってしまいます...

Yuta0213

2022/03/17 10:42

ありがとうございます。APIのほうを利用してみたいと思います。

AbeTakashi

2022/03/17 10:44

melianさんが回答してますが、ユーザエージェントを入れると（偽装すると）200が返ってくるみたいですよ。ただ、やはりこういう対策をしてるということはスクレイピングはやってほしくなさそうですし、まずはAPIを試してみるべきかと思います。100回投げるリクエストも1度で済む可能性があります。

行動規範の内容に同意します

回答1件

ベストアンサー

User-Agent をセットして HTTP GET を実行します。

python
1import requests
2from bs4 import BeautifulSoup
3
4headers = {
5  'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:61.0) Gecko/20100101 Firefox/61.0'
6}
7
8responses = []
9for i in range(1,100):
10    responses.append(requests.get(fr"https://yomou.syosetu.com/search.php?&order_former=search&order=hyoka&notnizi=1&p={i}", headers=headers))
11
12print(responses)
13
14#
15[<Response [200]>, <Response [200]>, <Response [200]>, ...