5つ星で評価できるサイト（レストランのような）をスクレイピングし、スプレッドシートに連携しようとしています。
評価「4.0」などの数字では無く、画像を使用しているためclass名が分かれています。
class名が分かれている場合のリスト表記について苦戦しております。

行いたいこととしては、
「もし『』の子要素である『 』」が
『』の場合、A列には「4.0」と表示する。
もし『』の場合、「3.0」と表示する。」

HTMLの構造として、

HTML
1<body>
2  <main>
3    <li class="review">
4      <p class="hyoka">
5　　　　　::before
6        <i class="star_4_0">評価</i>
7      </p>
8    </li>
9    <li class="review">
10      <p class="hyoka">
11　　　　　::before
12        <i class="star_3_0">評価</i>
13      </p>
14    </li>
15    <li class="review">
16      <p class="hyoka">
17　　　　　::before
18        <i class="star_4_0">評価</i>
19      </p>
20    </li>
21  </main>
22</html>

ページの見た目としては、

評価★★★★☆
評価★★★☆☆
評価★★★★☆

となり、開発者モードで評価を評価にしてみると、

評価★★☆☆☆

と変わります。

一応こちらで書いているコードは、

Python
1elements = soup.select('p.hyoka')
2
3//スプレッドシートへの連携は省略
4scope = 省略
5credentials 省略
6...
7//
8
9for index, e in enumerate(elements):
10    num = index+1
11    wks.update_acell('A'+str(num), e.get_text())

iタグを直接elemntsで指定し同じA列に入れればいいのでは、と思いましたが、4.0や5.0が上から順番に並んでい区ため重なるセルが出てきました。。よく考えればこのやり方はダメだなと思っています。

どなたか少しでも情報いただけますと幸いです。
よろしくお願いいたします。

追記事項

HTMLを記載しましたが、requestsを使ってURLを取得しています。（記載しておらずすみません）
上記HTMLのURLを「https://xxx.com/xxx/xxx/12345」とします。

全体の流れとしては以下です

Python
1import gspread
2import requests
3from bs4 import BeautifulSoup
4from oauth2client.service_account import ServiceAccountCredentials
5import time
6
7url = "https://xxx.com/xxx/xxx/12345"
8r = requests.get(url)
9soup = BeautifulSoup(r.text, 'lxml')
10
11elements = soup.select('p.hyoka')
12
13scope = ['省略','省略']
14
15credentials = 省略
16gc = gspread.authorize(credentials)
17wks = gc.open('gspreadサンプル').sheet1
18
19for index, e in enumerate(elements):
20    num = index+1
21    wks.update_acell('A'+str(num), e.get_text())

このURLの中が先ほど書いたHTMLです。（実在するサイトですが、class名のみ変えています）
これで行うと項目Aには「評価」という文字のみが入ってきます。

meg_

2020/08/06 07:38

質問者さんのコードでは『』の子要素である『 』が取得できていないと思われるのですが。ループ処理の中でiタグを取得する必要があるかと思います。

gomasan

2020/08/06 08:02

ご確認いただきありがとうございます。一応こちらで「評価」という文言だけ抽出ができていまして、、ループ処理の中でiタグを抽出する・・・こちらとても良いご意見ありがとうございます。また質問内容を追記させていただきました。

行動規範の内容に同意します

回答1件

ベストアンサー

質問の主旨がわかっていないのですが、書かれているHTMLだけからすると、classの先頭の6文字目以降を取り出して加工するだけでいいのでは、と思ってしまいます。

python
1from bs4 import BeautifulSoup
2soup = BeautifulSoup('<i class="star_4_0">評価</i>', 'lxml')
3i = soup.find('i')
4
5star = float(i['class'][0][5:].replace('_', '.')) # => 4.0

(追記)
子結合子で探索して、↑で抽出してはどうでしょうか。

python
1from bs4 import BeautifulSoup
2
3# 質問とはちょっと違います
4html = """
5  <main>
6    <li class="review">
7      <p class="hyoka">
8        <i class="star_4_0">評価</i>
9      </p>
10    </li>
11    <li class="review">
12      <p class="hyoka">
13        <i class="star_3_0">評価</i>
14      </p>
15    </li>
16    <li class="review">
17      <p class="hyoka">
18        <i class="star_2_0">評価</i>
19      </p>
20    </li>
21  </main>"""
22
23soup = BeautifulSoup(html, 'lxml')
24
25for index, e in enumerate(soup.select('p.hyoka > i'), start=1):
26    print(float(e['class'][0][5:].replace('_', '.')))

結果

plain
14.0
23.0
32.0

投稿2020/08/06 07:31

編集2020/08/06 08:35

quickquip

総合スコア11373

gomasan

2020/08/06 08:14

ご確認ありがとうございます。全体のコードについて追記いたしました。情報不足で申し訳ございません。。 > classの先頭の6文字目以降を取り出して加工するだけでいいのでは、と思ってしまいます。 →5段階評価ですので、「」〜「」までございます。これを一つずつ定義するという形でしょうか、、？

quickquip

2020/08/06 08:17

回答のコードは読みましたか? この中に分からないところがありますか?

gomasan

2020/08/06 08:20

はい、拝見しました。ただこちらは評価４の場合の記載かと認識しまして、私が求めている形と少し違うのではと思い、コメントさせていただきました。

quickquip

2020/08/06 08:24

> こちらは評価４の場合の記載かと認識しましてそれは誤解です。 soup = BeautifulSoup('評価', 'lxml') の行を soup = BeautifulSoup('評価', 'lxml') に変えてみて試してみたらいいかと思います。 # まだ質問者さんが「分かっていないポイント」がつかめてないので……

gomasan

2020/08/06 08:44

理解しておらずすみません。 >soup = BeautifulSoup('評価', 'lxml') >に変えてみて試してみたらいいかと思います。こちらですがrequestsでURLを取得しているため、 url = "https://xxx.com/xxx/xxx/12345" r = requests.get(url) soup = BeautifulSoup(r.text, 'lxml') としています。要素は変数elementsで記載しており、現状は elements = soup.select('p.hyoka') となっています。ここを elements = soup.select('i.star_4_0') に変換でしょうか。また i = soup.find('i') star = float(i['class'][0][5:].replace('_', '.')) の部分をどこに入れるか迷い、ループ処理を行っているfor文に以下のように入れました。 for index, e in enumerate(elements): num = index+1 wks.update_acell('D'+str(num), e.get_text()) i = soup.find('i') star = float(i['class'][0][5:].replace('_', '.')) と記載をすると ValueError: could not convert string to float: となります。ここでこんなに繰り返し質問をして良いのか、大変恐縮ですがよろしくお願いいたします。

quickquip

2020/08/06 08:56

i['class'] がなにかわかりますか? i['class'][0] がなにかわかりますか? i['class'][0][5:] がなにかわかりますか? i['class'][0][5:].replace('_', '.') がなにかわかりますか? float(i['class'][0][5:].replace('_', '.')) がなにかわかりますか?

gomasan

2020/08/06 08:57

追加いただいた内容で理解出来ました！またスプレッドシートにも上手に表記できました、、何度もアドバイスいただきありがとうございます。

quickquip

2020/08/06 08:57

行き違った……

gomasan

2020/08/06 08:57

いただいたコードの意味は理解できました。

gomasan

2020/08/06 08:58

すみません、すぐに確認してできたので、ベストアンサーに選ばせていただきました...!