質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

370閲覧

スクレイピングしてきた複数のリストの要素数を揃えるには?

castlemist

総合スコア10

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2023/05/31 03:11

編集2023/05/31 03:57

実現したいこと

  • 以下のHTMLから商品名・価格・コメント数を取得し、それぞれのリストを出力する
  • それぞれのリストの要素数を同じにする

html

1<div> 2 <ul> 3 <li class="name">りんご</li> 4 <li class="price">100</li> 5 </ul> 6 <ul> 7 <li class="name">バナナ</li> 8 <li class="comment">1</li> 9 <li class="price">200</li> 10 </ul> 11 <ul> 12 <li class="name">ぶどう</li> 13 <li class="price">300</li> 14 </ul> 15</div>

最終的に以下のように出力したい

python3

1['りんご', 'バナナ', 'ぶどう'] [100, 200, 300] [0, 1, 0] 2りんごの価格は100円です。コメントは0件です。 3バナナの価格は200円です。コメントは1件です。 4ぶどうの価格は300円です。コメントは0件です。

前提

PythonとBeautifulSoupを用いてスクレイピングしたデータをリストにしたいと思っています。
リストはzip関数の引数として利用したいので、リストの要素数をそろえたいのですが、上手くコードが書けません。
解決策がわかる方がおられましたら、どうかご教示よろしくお願いいたします。

発生している問題

  • リストそれぞれのリストの要素数が異なるため、zip関数が回せていない
  • 商品のコメント数が0だった場合、コメント数を囲っているliタグがそもそも存在していないため、リストの要素数がそろわない

該当のソースコード

Python3

1from bs4 import BeautifulSoup 2 3html = ''' 4<div> 5 <ul> 6 <li class="name">りんご</li> 7 <li class="price">100</li> 8 </ul> 9 <ul> 10 <li class="name">バナナ</li> 11 <li class="comment">1</li> 12 <li class="price">200</li> 13 </ul> 14 <ul> 15 <li class="name">ぶどう</li> 16 <li class="price">300</li> 17 </ul> 18</div> 19''' 20soup = BeautifulSoup(html, 'html.parser') 21 22items = soup.select('ul > .name') 23names = [i.text for i in items] 24 25items = soup.select('ul > .price') 26prices = [int(i.text) for i in items] 27 28items = soup.select('ul > .comment') 29comments = [int(i.text) for i in items] 30 31print(names, prices, comments) 32 33for i, j, k in zip(names, prices, comments): 34 print(f'{i}の価格は{j}円です。コメントは{k}件です。')

試したこと

リストcommentsに対し、len関数を使用した条件分岐を設定し、条件が一致した場合appendメソッドでリストの要素数を調節した。
しかし、リストcomments[1, 0, 0]となってしまうので、理想の[0, 1, 0]にはならなかった。

Python3

1# 30~32行目挿入 2for i in range(len(names)): 3 if len(comments) != len(names): 4 comments.append(0)

補足情報(FW/ツールのバージョンなど)

Python 3.10.6
beautifulsoup 4.12.2
Windows11
VS Code

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

python

1goods = [{li['class'][0]: li.text for li in ul.select('li[class]')} 2 for ul in soup.select('ul')] 3for g in goods: 4 if all(k in g for k in ('name', 'price')): 5 print(f'{g["name"]}の価格は{g["price"]}円です。コメントは{g.get("comment", 0)}件です。') 6 7# りんごの価格は100円です。コメントは0件です。 8# バナナの価格は200円です。コメントは1件です。 9# ぶどうの価格は300円です。コメントは0件です。

投稿2023/05/31 04:57

編集2023/05/31 05:16
melian

総合スコア19803

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問