質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

Q&A

0回答

1822閲覧

pythonによる同じタグの位置を指定してのスクレイピングについて

mochiro

総合スコア1

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

0グッド

0クリップ

投稿2020/07/25 02:45

編集2020/07/25 08:53

知恵を貸してください。

やりたいこと

タイトルについて、同じ階層に同じタグが存在している場合のスクレイピング方法に悩んでいます。
具体的に、下記参照のhtmlにおいて、1つ目のtbodyタグを無視し2つ目のtbodyタグ内のtrタグをfind_allによって全てリスト型で取得したいです。

html構造

<div class = 'contents'> <tbody> #ここを無視 <tr> : : <tbody> #ここのtbody内のtrタグをfind_allによってリスト型で取得したい <tr> : : </div>

試したコード

html = requests.get(link) soup = BeautifulSoup(html.content, 'html.parser') elme = soup.find('div', class_='contents') tbodies = elme.find_all('tbody') pprint.pprint(tbodies)  #tbodiesの確認 del tbodies[0] pprint.pprint(tbodies)  #0インデックスのリスト削除後のtbodiesの確認

上記のようにclass_='contents'を指定し、一度find_allでtbody情報をすべて取得し、その後 del リスト名[0]で1つ目のtbody情報を消してみました。

結果

[<tbody><tr>~~</tr><tr>~~</tr>・・・・</tr></tbody>,<tbody><tr>~~</tr><tr>~~</tr>・・・・</tr></tbody>] [<tbody><tr>~~</tr><tr>~~</tr>・・・・</tr></tbody>]

結果は2つ目のtbody内の情報は取得できるものの1まとまりのstr型?となってしまい、trタグごとのリスト型として取得できておりません。

なお、まとめて取得した後delやpopで位置を指定す不必要なtrタグを消すことも1つの手段だと思われるのですが、スクレイピング対象ページが複数あり、ページ毎に1つ目のtbody内のtrタグ数が異なっているので、1回毎に消す作業は効率的でないので避けたいところです。

よろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

can110

2020/07/25 02:53

HTMLタグをつけるとより多くの人の目に留まりやすいかと思います。 また、現在のコードと、そのままコードで読み取れる(要素を省略していない)単純なサンプルHTMLを提示すると回答得られやすくなります。
mochiro

2020/07/25 03:14

アドバイスありがとうございます。タグは追加しましたが、サンプルHTMLはほぼ質問本文のものと変わらないのでこれ以上の提示ができそうにありません・・・。
m.ts10806

2020/07/25 03:19

「やってみたこと」は文章よりコードの方が良いかと。
can110

2020/07/25 03:30

「コードで読み取れるサンプルデータ(HTML)」「実行できる完全なコード」を提示すると 回答者が試すときに楽なので回答得られやすいです。
mochiro

2020/07/25 04:58

お手数おかけします。再度試したコードを追記してみました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問