pythonによる同じタグの位置を指定してのスクレイピングについて

知恵を貸してください。

やりたいこと

タイトルについて、同じ階層に同じタグが存在している場合のスクレイピング方法に悩んでいます。
具体的に、下記参照のhtmlにおいて、1つ目のtbodyタグを無視し2つ目のtbodyタグ内のtrタグをfind_allによって全てリスト型で取得したいです。

html構造

<div class = 'contents'>
 <tbody>     #ここを無視
  <tr>
    :
    :
 <tbody>     #ここのtbody内のtrタグをfind_allによってリスト型で取得したい
  <tr> 
    :
    :
</div>

試したコード

html = requests.get(link)
soup = BeautifulSoup(html.content, 'html.parser')
elme = soup.find('div', class_='contents')
tbodies = elme.find_all('tbody')
pprint.pprint(tbodies)　　#tbodiesの確認
del tbodies[0]
pprint.pprint(tbodies)　　#0インデックスのリスト削除後のtbodiesの確認

上記のようにclass_='contents'を指定し、一度find_allでtbody情報をすべて取得し、その後 del リスト名[0]で1つ目のtbody情報を消してみました。

結果

[<tbody><tr>~~</tr><tr>~~</tr>・・・・</tr></tbody>,<tbody><tr>~~</tr><tr>~~</tr>・・・・</tr></tbody>]
[<tbody><tr>~~</tr><tr>~~</tr>・・・・</tr></tbody>]

結果は2つ目のtbody内の情報は取得できるものの１まとまりのstr型?となってしまい、trタグごとのリスト型として取得できておりません。

なお、まとめて取得した後delやpopで位置を指定す不必要なtrタグを消すことも１つの手段だと思われるのですが、スクレイピング対象ページが複数あり、ページ毎に１つ目のtbody内のtrタグ数が異なっているので、1回毎に消す作業は効率的でないので避けたいところです。

よろしくお願いいたします。

8524ba23

2020/07/25 02:53

HTMLタグをつけるとより多くの人の目に留まりやすいかと思います。また、現在のコードと、そのままコードで読み取れる（要素を省略していない）単純なサンプルHTMLを提示すると回答得られやすくなります。

mochiro

2020/07/25 03:14

アドバイスありがとうございます。タグは追加しましたが、サンプルHTMLはほぼ質問本文のものと変わらないのでこれ以上の提示ができそうにありません・・・。

m.ts10806

2020/07/25 03:19

「やってみたこと」は文章よりコードの方が良いかと。

8524ba23

2020/07/25 03:30

「コードで読み取れるサンプルデータ（HTML）」「実行できる完全なコード」を提示すると回答者が試すときに楽なので回答得られやすいです。

mochiro

2020/07/25 04:58

お手数おかけします。再度試したコードを追記してみました。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

pythonによる同じタグの位置を指定してのスクレイピングについて

やりたいこと

html構造

試したコード

結果

関連した質問