回答編集履歴

update

2022/01/08 12:54

投稿

melian

スコア21727

answer CHANGED Viewed

@@ -8,18 +8,26 @@
 import re
 plt.rcParams['font.family'] = 'MS Gothic'
+pd.set_option('display.unicode.east_asian_width', True)
 url_list = [
-  'https://www.jalan.net/kankou/spt_25203cc3360049331/kuchikomi/?screenId=OUW2201'
+  'https://www.jalan.net/kankou/spt_25203cc3360049331/kuchikomi/?screenId=OUW2201',
 ]
-valuer, rating = [], []
+valuer, rating, ws, comment = [], [], [], []
 for row in url_list:
   html = urllib.request.urlopen(row)
   soup = BeautifulSoup(html)
+  # 性別・年齢
   valuer.extend(soup.find_all('div', class_='item-user'))
+  # レーティング
   rating.extend(soup.select('div[class="item-info"] > div > span[class="reviewPoint"]'))
+  # 行った時期(年月のみ)、滞在時間
+  ws.extend(soup.select('ul[class="item-reviewDetail"]'))
+  # コメント
+  comment.extend(soup.select('div[class="item-info"] > div[class="item-reviewText"]'))
+# 性別・年齢
 gender, age = [], []
 for v in valuer:
   m = re.search(r'([男女]性)\s*[/／]\s*(.+?)\s*代', v.get_text().strip())
@@ -27,34 +35,49 @@
     gender.append(m[1])
     age.append(m[2] + "'s")
+# レーティング
 rating = [float(d.get_text()) for d in rating]
+# 行った時期(年月のみ)、滞在時間
+went, stay = [], []
+for i in ws:
+  t = i.get_text()
+  went.append(
+    re.search(r'行った時期：\s*(\d+年\d+月)', t)[1]
-data = pd.DataFrame({'性別': gender, '年齢': age, 'レーティング': rating})
+    if '行った時期：' in t else '')
+  stay.append(
+    re.search(r'滞在時間：(.+?)\s*\n', t)[1]
+    if '滞在時間：' in t else '')
-print(data['性別'].value_counts())
+# コメント
-print(data['年齢'].value_counts())
-print(data['レーティング'].value_counts())
+comment = [c.get_text().strip() for c in comment]
+# create a Pandas dataframe
+data = pd.DataFrame({
+  '性別': gender, '年齢': age, 'レーティング': rating,
+  '行った時期': went, '滞在時間': stay, 'コメント': comment
+})
+print(data.to_markdown(index=False))
+#print(data['性別'].value_counts())
+#print(data['年齢'].value_counts())
+#print(data['レーティング'].value_counts())
 #sns.countplot('性別', data=data)
 #sns.countplot('年齢', data=data, order=data['年齢'].sort_values().unique())
 #sns.countplot('レーティング', data=data)
+```
-#
-女性    46
-男性    44
-Name: 性別, dtype: int64
+| 性別   | 年齢   | rating | 行った時期   | 滞在時間   | コメント                                     |
+|:------:|:------:|---:|:-------------|:----------:|:---------------------------------------------|
-60's    25
+| 女性   | 60's   |              4 | 2020年11月   | 1〜2時間   | お土産屋さんがいっぱいあって目移りしてし ... |
+| 女性   | 40's   |              4 | 2021年12月   |            | 下町散歩はとても楽しかったです。ガラス館 ... |
+| 女性   | 20's   |              4 | 2021年9月    |            | 今回は恋人と訪れました。名前の通り黒壁！ ... |
+| 女性   | 50's   |              3 | 2021年11月   | 1〜2時間   | ガラス館を中心にスイーツを食べ歩きして来 ... |
+| 女性   | 40's   |              4 | 2020年11月   | 1〜2時間   | のんびり歩くには丁度よい町で、美味しいお ... |
-50's    24
+| 女性   | 50's   |              4 | 2021年8月    | 1時間未満  | 改装されていましたが、以前とあまり変わっ ... |
+| 男性   | 60's   |              3 | 2021年8月    |            | あいにくの雨模様でしたが人手が多く人気が ... |
+| 女性   | 50's   |              4 | 2021年8月    | 1〜2時間   | 人は結構いました。半年前にも訪問してその ... |
+| 女性   | 50's   |              4 | 2021年7月    |            | 昔ながらの建物が残っている。とても　貴重 ... |
-40's    21
+| 女性   | 40's   |              3 | 2021年8月    | 1時間未満  | 暑いので店内に入れるお店でランチを済ませ ... |
-30's     9
-20's     6
-70's     4
-80's     1
-Name: 年齢, dtype: int64
-5    61
-4    25
-3     4
-Name: レーティング, dtype: int64
-```

Update

2022/01/08 12:54

投稿

melian

スコア21727

answer CHANGED Viewed

@@ -1,7 +1,3 @@
-> コードはhttps://www.acceluniverse.com/blog/developers/2020/01/post-36.htmlから拝借しました。
-その記事に書かれている `url_list` で試してみましたが、抽出する `HTML` 要素の `class` 名が異なっている様です。
 ```python
 from bs4 import BeautifulSoup
 import urllib
@@ -14,26 +10,24 @@
 plt.rcParams['font.family'] = 'MS Gothic'
 url_list = [
-  'https://www.jalan.net/yad309590/kuchikomi/?screenId=UWW3701&idx=0&smlCd=060203&dateUndecided=1&yadNo=309590&distCd=01',
+  'https://www.jalan.net/kankou/spt_25203cc3360049331/kuchikomi/?screenId=OUW2201'
-  'https://www.jalan.net/yad309590/kuchikomi/2.HTML?screenId=UWW3701&idx=30&smlCd=060203&dateUndecided=1&yadNo=309590&distCd=01',
-  'https://www.jalan.net/yad309590/kuchikomi/3.HTML?screenId=UWW3701&idx=60&smlCd=060203&dateUndecided=1&yadNo=309590&distCd=01'
 ]
 valuer, rating = [], []
 for row in url_list:
   html = urllib.request.urlopen(row)
   soup = BeautifulSoup(html)
-  valuer.extend(soup.find_all('span', class_='c-label'))
+  valuer.extend(soup.find_all('div', class_='item-user'))
-  rating.extend(soup.find_all('div', class_='jlnpc-kuchikomiCassette__totalRate'))
+  rating.extend(soup.select('div[class="item-info"] > div > span[class="reviewPoint"]'))
 gender, age = [], []
 for v in valuer:
-  m = re.match(r'([男女]性)\s*/\s*(.+)\s*代', v.get_text().strip())
+  m = re.search(r'([男女]性)\s*[/／]\s*(.+?)\s*代', v.get_text().strip())
   if m:
     gender.append(m[1])
     age.append(m[2] + "'s")
-rating = [int(d.get_text()) for d in rating]
+rating = [float(d.get_text()) for d in rating]
 data = pd.DataFrame({'性別': gender, '年齢': age, 'レーティング': rating})
@@ -63,8 +57,4 @@
 4    25
 3     4
 Name: レーティング, dtype: int64
-```
+```
-![性別](a1bbc07dc38dd12932748b8756de36c5.png)
-![年齢](fdd064a8acb714e6fb454bf51b72ff5a.png)
-![レーティング](a70b532b42e15e59e29b81052368cf9c.png)