Pythonスクレイピング：子要素のタグ名取得について

pythonでスクレイピングした結果をスプレッドシートに連携しています。
子要素のタグ名をセルに表示させたい場合、どのようにしたらよろしいでしょうか。

Python
1import gspread
2import requests
3from bs4 import BeautifulSoup
4from oauth2client.service_account import ServiceAccountCredentials
5import time
6
7url = "https://sample?pid=12345"
8r = requests.get(url)
9soup = BeautifulSoup(r.text, 'lxml')
10
11elements = soup.select(".oya")
12
13for index, e in enumerate(elements):
14    num_a = index+1
15    wks.update_acell('A'+str(num_a), e.get_text())

ちなみにurl = "https://sample?pid=12345"のサイトのHTMLは以下のような構成です。

HTML
1<body>
2  <p class = "oya">
3     <i class = "ko_01">サンプル</i>
4  </p>
5  <p class = "oya">
6     <i class = "ko_02">サンプル</i>
7  </p>
8  <p class = "oya">
9     <i class = "ko_03">サンプル</i>
10  </p>
11</body>

この場合の抽出結果が以下の通りです。(A列)

サンプル
サンプル
サンプル

希望としては、これを以下の通りに表示させることです

#抽出結果
<i class = "ko_01">サンプル</i>
<i class = "ko_02">サンプル</i>
<i class = "ko_03">サンプル</i>

また可能であればclass名だけ抽出したいです

#抽出結果
ko_01
ko_02
ko_03

e.get_text()が影響しているように思えるのですが、それ以外でタグの中身を表示する方法が見つけられず、、
どなたかご教示いただけますと幸いです。よろしくお願いいたします。

行動規範の内容に同意します

回答1件

ベストアンサー

python
1import requests
2from bs4 import BeautifulSoup
3
4text =""" 
5<html>
6<body>
7  <p class = "oya">
8     <i class = "ko_01">サンプル</i>
9  </p>
10  <p class = "oya">
11     <i class = "ko_02">サンプル</i>
12  </p>
13  <p class = "oya">
14     <i class = "ko_03">サンプル</i>
15  </p>
16</body>
17</html>
18"""
19soup = BeautifulSoup(text, 'lxml')
20
21elements = soup.select(".oya")
22
23for e in elements:
24    print(e.i)
25    print(e.i["class"][0])

実行結果

text
1<i class="ko_01">サンプル</i>
2ko_01
3<i class="ko_02">サンプル</i>
4ko_02
5<i class="ko_03">サンプル</i>
6ko_03

投稿2020/08/06 18:52

Penpen7

総合スコア698

gomasan

2020/08/07 01:30

ありがとうございます！！ URLではなくHTMLを使うと出来るんですね...とても助かりました。ありがとうございます。

Penpen7

2020/08/07 07:38 編集

いえ、回答は print(e.i) で<i class="ko_01">サンプル</i>の部分が、 print(e.i["class"][0]) でko_01というクラスの値が取れますよの意味です。 HTMLを手打ちしていますが、これは確認用のためであって関係ありません。

gomasan

2020/08/07 13:12

かしこまりました。HTMLにはせずにurlを使ってprintしたところ出来ました。補足ありがとうございます！

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.33%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

Pythonスクレイピング：子要素のタグ名取得について

関連した質問