回答率: 85.35%

質問するログイン新規登録

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

新規登録して質問してみよう

ただいま回答率: 85.35%

トップ Pythonに関する質問

Q&A

0回答

805閲覧

条件付きScrapingについて

総合スコア1

0グッド

0クリップ

投稿2020/12/07 15:29

0

0

前提・実現したいこと

一定のドメイン配下で、要素が取れるまで繰り返しスクレイピングを実施
イメージ：
https://sample.com/page=1
https://sample.com/page=2
.
.
https://sample.com/page=n >>> アクセス可能だが取り出したい要素がない

nを特段、指定せずに終了させ、CSV出力を実現したい

該当のソースコード

python
1records = []
2
3def get_info(n):
4    load_url = 'https://sample.jp/page={}'.format(n)
5    html = requests.get(load_url)
6    soup = BeautifulSoup(html.text, "html.parser")
7    page_info = soup.find_all("a", {"class": "article_info"})
8    return page_info
9
10def scraper(info):
11    title = info.getText()
12    url = info.get("href")
13    return {'Title': title, 'URL': url}
14
15n = 0
16while get_info(n) != []:
17    for info in page_info:
18        temp = scraper(info)
19        records.append(temp)
20    n = n + 1
21
22import datetime
23article_info = pd.DataFrame(records)
24article_info.to_csv('./article_data.csv'.format(now), index=False)

試したこと

Whileの条件部分が問題とわかっていますが、記述の仕方がわかりません。
ご教授、お願いいたします

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップ Pythonに関する質問

条件付きScrapingについて

関連した質問

同じタグがついた質問を見る

運営からのお知らせ

【ジャック広告の配信について】現在、非ログイン状態のユーザー様に対して一部の地域限定でジャック広告を配信しております。詳細につきましてはteratailブログをご確認ください。 https://blog.teratail.com/entry/jack-ad-202412

過去のお知らせを見る