pythonでURLをリストに格納して、特定の文字列を含む行を抽出したい

前提・実現したいこと

pyhonでリストに入れたURLの特定の文字列だけを抽出したい。

発生している問題・エラーメッセージ

pythonを初めて３ヶ月めです。youtubeやネットで見たものをなんとなく理解することができるのですが、ちょっと要件が変わるとどうしていいかわからなくなります。

指定したURL一つだけの特定の文字列を取得するところまではいけたのですが
下記のコードの

url="https://ena-kagu.com/product.php?id=215"

をリストにし、複数URLをいれてスクレイピングできるようにしたいです。
ただ単に、↓のようにしてもできないようで手が止まってしまっています。。

url=　[

"https://ena-kagu.com/product.php?id=215"
"https://ena-kagu.com/product.php?id=216"
"https://ena-kagu.com/product.php?id=217"

      ]

該当のソースコード

python
1import re
2import requests
3from bs4 import BeautifulSoup
4
5
6headers = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64; rv:61.0) Gecko/20100101 Firefox/61.0"}
7url="https://ena-kagu.com/product.php?id=215"
8response = requests.get(url=url, headers=headers)
9html = response.content
10soup = BeautifulSoup(html, "lxml")
11
12
13#ここで「商品管理番号」内のテキストを全取得
14all_text=soup.find(class_="pro-description").text
15
16
17#ここで取得したテキストを1行ずつ分割してリストに収納
18all_text_list=all_text.split("\n")
19
20
21
22for text in all_text_list:
23    if "商品管理番号" in text:
24        print(text)

補足情報（FW/ツールのバージョンなど）

jupyter labを使用しています。

行動規範の内容に同意します

回答1件

ベストアンサー

変数urlに目的のurlが入っているときに処理ができるようになっているのですがら、そこをforループにして、リストの内容をurlに入れながら処理すればいいでしょう。

python
1import re
2import requests
3from bs4 import BeautifulSoup
4
5
6headers = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64; rv:61.0) Gecko/20100101 Firefox/61.0"}
7
8urls = ["https://ena-kagu.com/product.php?id=215",
9        "https://ena-kagu.com/product.php?id=216",
10        "https://ena-kagu.com/product.php?id=217"]
11
12for url in urls:
13    response = requests.get(url=url, headers=headers)
14    html = response.content
15    soup = BeautifulSoup(html, "lxml")
16
17    #ここで「商品管理番号」内のテキストを全取得
18    all_text=soup.find(class_="pro-description").text
19
20    #ここで取得したテキストを1行ずつ分割してリストに収納
21    all_text_list=all_text.split("\n")
22
23    for text in all_text_list:
24        if "商品管理番号" in text:
25            print(text)
26

ただし、これだと、取得したものを表示するだけで後で利用できるようにはなっていないので、後で使いたいのであれば、工夫が必要ですね。

投稿2021/09/16 14:43

TakaiY

総合スコア13790

hafuuuuu

2021/09/16 15:25

早速のご返答ありがとうございます！ご教示いただいたものを試してみたところ、「商品管理番号11213」だけ出力され下記のエラーがでました。 ---------------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-13-1eeac1e4e1cc> in <module> 5 6 #ここで「商品管理番号」内のテキストを全取得 ----> 7 all_text=soup.find(class_="pro-description").text 8 9 #ここで取得したテキストを1行ずつ分割してリストに収納 AttributeError: 'NoneType' object has no attribute 'text' ---------------------------------------------------------------------------------- all_text=soup.find(class_="pro-description").text　の下で print(all_text)で確認したところURLの一つ目である「https://ena-kagu.com/product.php?id=215」の情報しか出力されなかったので繰り返しの処理がうまくできないのでしょうか？お手数おかけしますが、こちらもお教えいただけますと幸いです。

TakaiY

2021/09/17 01:30

ループがうまくいっていないなら、1つめも出ないでしょ。 all_text=soup.find(class_="pro-description").text この処理で 'NoneType' object has no attribute 'text' このエラーが照ているということは、 soup.find(class_="pro-description") この部分の結果がNoneだったということ返り値にpro-descriptionという項目がなかったのでしょう。

hafuuuuu

2021/09/17 03:16

すみません、私のミスでURLのリストで一番最初の「https://ena-kagu.com/product.php?id=215」以外リンクが切れていました。他のURLでためしたところうまくいきました！ありがとうございました。

行動規範の内容に同意します