質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

1回答

5456閲覧

beautifulsoupの出力はどのようになっているのでしょうか?

bunks

総合スコア30

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

1クリップ

投稿2017/12/17 16:06

soup = BeautifulSoup(response.data.decode('utf-8'), "html5lib") p = soup.findAll('p', class_='') #p = p.replace(' ', '') #new_p = '' #for x in p: # new_p += p[x]

以上のようなコードでコメントアウトしている部分でエラーが出ます。
list indices must be integers or slices, not Tag

beautifulsoupの出力はどのような形になっているのでしょうか?
また、python3でインスタンスのクラスを調べる方法お教えていただきたいです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

findAllは文字列ではなくbs4.element.ResultSet型のオブジェクトを返します。
これはリストのようにfor文によって各要素にアクセスできます。
この各要素も文字列ではなくbs4.element.Tag型です。
このタグ型オブジェクトから実際の文字列を取り出すには.textを使うとよいです。
ちなみに、このタグ型オブジェクトからは、その要素名や親子要素を取得することもできます。

また、python3でインスタンスのクラスを調べる方法お教えていただきたいです。

type(変数)で型名が分かります。

参考:
タグの属性(アトリビュート)
beautifulsoup4 htmlをパース、スクレイピングする その1

Python

1from bs4 import BeautifulSoup 2soup = BeautifulSoup('<html><body><p> a </p>b<p><b>c</b>d</p></body></html>', "html5lib") 3ps = soup.findAll('p', class_='') 4print(type(ps)) 5for p in ps: 6 print(type(p)) 7 print(p.text)

投稿2017/12/18 00:50

can110

総合スコア38266

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

bunks

2017/12/18 02:23

詳しいご説明ありがとうございます! 疑問点が全て解消しました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問