質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

2回答

1541閲覧

Python3 スクレイピングの際、抽出できない部分への対応について

tanatomo

総合スコア19

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2020/08/28 04:30

編集2020/08/28 05:12

こんにちは
スクレイピング初心者です。

スクレイピングを行った際、
タグを指定しても抽出されません。
表示されるにはどのようにしたら良いか教えて欲しいです。

▮対象となるURLのタグ名の前後の部分は、以下のようになっています。

<td class="alfa__item"> ①必要な内容はここに記載 ②何かあれば連絡を下さい </td>

※「alfa」「①」「②」の部分はそのまま書かない方が良いと思われるため置き換え

▮コード
import requests
from bs4 import BeautifulSoup

load_url = "対象となるHPのURL"
html = requests.get(load_url)
soup = BeautifulSoup(html.content, "html.parser")
print(soup.prettify())

print(soup.find("td").text)

▮結果
①②は表示されず、その続きのデータが表示されました


①②の項目は見たところ選択式となっているようにも思えます。
その場合スクレイピングはできないのでしょうか。

ご教示頂けますとありがたいです。
よろしくお願いします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

otn

2020/08/28 04:41 編集

できます。 コードを載せましょう。 あと、実行結果。
tanatomo

2020/08/28 05:29

ありがとうございます! 載せても大丈夫と思われる範囲で、 更新しました。
guest

回答2

0

ありがとうございました。最終的にallですべての「td」を表示したあと、”欲しいのは何番目のtdなのか”を数えて以下のコードを作成、求める文言を拾うことができました。

print(soup.find_all("td",class_="alfa__item")[6].text)

あとは、他の類似ページにも同じコードを適用できれば一歩前進。
類似ページを順番に辿って、該当の箇所の文言を拾い集めることができれば完璧です。

ご対応ありがとうございました。
おかげさまで理解が深まりました。

投稿2020/08/28 08:21

tanatomo

総合スコア19

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

ベストアンサー

html

1<td class="alfa__item"> 2①必要な内容はここに記載 3②何かあれば連絡を下さい 4</td>

は、print(soup.prettify())の表示結果に含まれていますか?
含まれているなら、soup.find("td").textだと複数tdがあるなかの1つめのtdを取得するので、欲しいものは2つめ以降にあるのでしょう。
soup.find_allで全て取得して、それぞれの要素のtextを見ましょう。

①②の項目は見たところ選択式となっているようにも思えます。

の「選択式」とは、具体的にどういうことでしょう?

投稿2020/08/28 05:40

otn

総合スコア85901

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

tanatomo

2020/08/28 07:03

ありがとうございます。 確認してみたところ、最初に表示されたものは仰るように「1つ目のtd」でした。 抽出したい「td」は、十数個目の「td」として抽出されました。 現状認識できたところで、 欲しい行だけ抽出しようと試みましたが、 複数の「td」が<td class="alfa__item">となっているためか、 やはり最初の「td」しか表示されません。 〈続きのコード〉 td= soup.find(class_="alfa__item") print(td.text) 欲しい「td」を手に入れることはできるのでしょうか。 ※「選択式」というのは該当箇所が、例えばアンケートで①大変良かった②良かった③ふつう④悪かったの中から一つを選ばせるような項目のように見えたためです。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問