回答率: 85.36%

質問するログイン新規登録

『🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中！

＼teratail特別グッズやAmazonギフトカード最大2,000円分が当たる！／

詳細はこちら

トップスクレイピングに関する質問

Q&A

1回答

1262閲覧

Pandasでスクレイピングする時に特定のデータだけエラーが表示される

総合スコア16

0グッド

0クリップ

投稿2021/03/13 07:27

0

0

やりたき事

プロ野球・サッカーのデータが載っているサイトからデータをスクレイピングしたい
※野球：https://baseball-data.com/player/f/
※サッカー：https://www.soccer-money.net/team/team.php?team=FC%E6%9D%B1%E4%BA%AC

開発環境

Jupyter NotebookでPythonを用いて開発しています。

問題

プロ野球のデータは問題なくスクレイピング出来るがサッカーのデータをスクレイピングしようとすると以下の文字コードエラーが表示されました。

エラーの中身を見ると以下の内容でした。

Python
1UnicodeEncodeError: 'ascii' codec can't encode characters in position 26-27: ordinal not in range(128)

なぜ同じようなコードを使っていて野球のデータは問題なくスクレイピング出来て
サッカーは上記のエラーが出るのかを知りたいです。

試したこと

スクレイピングする際に文字コードを変えてみましたがエラーが出ました。

元のコードはもっと長いのですが、どこに問題があるか特定しようと絞っていった結果
記載しているコードが残り、なぜかサッカーのデータだけスクレイピングする時にエラーが出るようです。

ソースコード

プロ野球スクレイピング（問題なくスクレイピング出来る）

Python
1# ライブラリ読み込み
2import pandas as pd
3import time
4
5def ScrapingProfileData(url,team,year):
6   """プロフィールデータをスクレイピングする関数"""
7   data = pd.read_html(url, encoding='utf-8')
8   data = data[0]
9   data['チーム']=team
10   data['年']=year
11   data['年俸(推定)'] = data['年俸(推定)'].str.replace('万円','')
12   data['年俸(推定)'] = data['年俸(推定)'].str.replace(',','')
13   return data
14
15if __name__ == "__main__":
16   profile_df=pd.DataFrame()
17   #①チーム・年度のリスト生成
18   teams =['g','t']
19   years=['20', '19']
20   #②基礎URL
21   base_url = 'https://baseball-data.com/'
22   #①②からURL生成した上でスクレイピング
23   for team in teams:
24       for year in years:
25           try:
26               url = base_url + year +'/player/'+ str(team) +'/'
27               print(url)
28               data = ScrapingProfileData(url,team,year)
29               data['team_name'] = name
30               profile_df = pd.concat([profile_df,data])
31               time.sleep(2)
32           except:
33               print('error')
34
35   #スクレイピング完了通知
36   print('scraping_end')
37
38data

サッカースクレイピング（上記のエラーが出る）

Python
1##サッカー版シンプルコード
2
3#ライブラリ読み込み
4import pandas as pd
5import time
6
7#スクレイピング関数
8def ScrapingProfileData(url,team,year):
9#    """プロフィールデータをスクレイピングする関数"""
10   data = pd.read_html(url, encoding='utf-8')
11   data = data[1]
12   data['チーム']=team
13   data['年']=year
14   data['年俸'] = data['年俸'].str.replace('万円','')
15   data['年俸'] = data['年俸'].str.replace(',','')
16   return data
17
18if __name__ == "__main__":
19   profile_df=pd.DataFrame()
20   #①チーム・年度のリスト生成
21   teams = ['FC東京','アビスパ福岡']
22   years = ['2020']
23   #②基礎URL
24   base_url = 'https://www.soccer-money.net/team/past_team.php'
25   #①②からURL生成した上でスクレイピング
26   for team in teams:
27       for year in years:
28               try:
29                   url = base_url+'?team='+ str(team) +'&year='+str(year)
30                   print(url)
31                   data = ScrapingProfileData(url,team,year)
32                   profile_df = pd.concat([profile_df,data])
33                   time.sleep(2)
34               except:
35                   print('error')
36
37   #スクレイピング完了通知
38   print('scraping_end')
39
40data

2021/03/13 07:47 編集

すみません訂正します。読み間違いました。

行動規範の内容に同意します

回答1件

0

提示のエラーが出る理由は日本語だからのようですね。

python
1import urllib.parse
2<略>
3        url = base_url+'?team='+ urllib.parse.quote(team) +'&year='+str(year)

(追記)
他のエラーもあったので調べてみました。
pd.read_html()で取得したtableがlistになってしまう
 requestの使い方

python
1from bs4 import BeautifulSoup
2import requests
3
4def ScrapingProfileData(url,team,year):
5    # requestで内容取得
6    get_url_info = requests.get(url)        
7    # BeautifulSoupでパース
8    soup = BeautifulSoup(get_url_info.text, "html.parser")    
9    table = soup.find_all("table", id="table_ranking")
10    data = pd.read_html(str(table))[0]

これでデータが取れますね。あと、サッカーの方には"年棒"というカラムはなく
"2020年年俸"というカラムになってるようですね。

野球の方はtableが一つしかないからたまたまできていたようですね。

投稿2021/03/13 07:55

編集2021/03/14 05:35

総合スコア1508

2021/03/13 07:56

有れ？　文章がちゃんと出てない… 日本語が原因みたいですね。

2021/03/13 12:40

やってみたのですが、エラーで上手くいかなかったです... xail2222さんが試したときは↑のやり方で出来そうでしょうか？

2021/03/13 16:51

data = pd.read_html(url, encoding='utf-8')は、実行できるようになりました。別の処理で、別のエラーは出ますけど

2021/03/14 05:34

pip install beautifulsoup4 ですね。

2021/03/14 05:36

あ。なんだかダメみたいですね。修正しました。 from bs4 import BeautifulSoup にしました。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップスクレイピングに関する質問

Pandasでスクレイピングする時に特定のデータだけエラーが表示される

関連した質問

同じタグがついた質問を見る