回答編集履歴
1
追記
answer
CHANGED
@@ -9,13 +9,8 @@
|
|
9
9
|
- tokyo_ramen_address.df.to_csv("tokyo_ramen_address.csv")
|
10
10
|
+ tokyo_ramen_address.df.to_csv("tokyo_ramen_address.csv", encoding='utf_8_sig')
|
11
11
|
```
|
12
|
-
またアドバイスとしては、確認用のprintはscrape_item関数内で行うよりも
|
13
|
-
make_df関数内で確認を行った方が[抽出出来ているか]と[正しい値であるか]を
|
14
|
-
同時に確認する事ができて効率が良いでしょう。(雑な説明ですみません)
|
15
12
|
|
16
13
|
|
17
|
-
|
18
|
-
|
19
14
|
```python
|
20
15
|
import requests
|
21
16
|
from bs4 import BeautifulSoup
|
@@ -151,4 +146,18 @@
|
|
151
146
|
if __name__ == '__main__':
|
152
147
|
tokyo_ramen_address = Tabelog(base_url="https://tabelog.com/tokyo/rstLst/ramen/",test_mode=False)
|
153
148
|
tokyo_ramen_address.df.to_csv("tokyo_ramen_address.csv", encoding='utf_8_sig')
|
154
|
-
```
|
149
|
+
```
|
150
|
+
|
151
|
+
|
152
|
+
### 追記
|
153
|
+
作成者が違う様で、質問者様に言っても仕方がない事では有ると思いますが
|
154
|
+
確認用のprintはscrape_item関数内で行うよりも
|
155
|
+
make_df関数内で確認を行った方が[抽出出来ているか]と[正しい値であるか]を
|
156
|
+
同時に確認する事ができて効率が良いでしょう。(雑な説明ですみません)
|
157
|
+
|
158
|
+
また`if store_head_list[0].text not in {'ラーメン', 'つけ麺'}:`の点についてですが
|
159
|
+
店舗情報のヘッダー枠のジャンルという項目の1個目が[ラーメン]ではない場合に
|
160
|
+
実際にラーメン屋であった場合でも除外されてしまっております。
|
161
|
+
この場合の処理をもう少し柔軟に対応してあげられると更に精度が高まると思います。
|
162
|
+
例:ジャンル: ラーメン▼担々麺▼ → 処理対象
|
163
|
+
ジャンル: 担々麺▼ラーメン▼ → 除外対象
|