やりたき事
プロ野球・サッカーのデータが載っているサイトからデータをスクレイピングしたい
※野球:https://baseball-data.com/player/f/
※サッカー:https://www.soccer-money.net/team/team.php?team=FC%E6%9D%B1%E4%BA%AC
開発環境
Jupyter NotebookでPythonを用いて開発しています。
問題
プロ野球のデータは問題なくスクレイピング出来るがサッカーのデータをスクレイピングしようとすると以下の文字コードエラーが表示されました。
エラーの中身を見ると以下の内容でした。
Python
1UnicodeEncodeError: 'ascii' codec can't encode characters in position 26-27: ordinal not in range(128)
なぜ同じようなコードを使っていて野球のデータは問題なくスクレイピング出来て
サッカーは上記のエラーが出るのかを知りたいです。
試したこと
スクレイピングする際に文字コードを変えてみましたがエラーが出ました。
元のコードはもっと長いのですが、どこに問題があるか特定しようと絞っていった結果
記載しているコードが残り、なぜかサッカーのデータだけスクレイピングする時にエラーが出るようです。
ソースコード
プロ野球スクレイピング(問題なくスクレイピング出来る)
Python
1# ライブラリ読み込み 2import pandas as pd 3import time 4 5def ScrapingProfileData(url,team,year): 6 """プロフィールデータをスクレイピングする関数""" 7 data = pd.read_html(url, encoding='utf-8') 8 data = data[0] 9 data['チーム']=team 10 data['年']=year 11 data['年俸(推定)'] = data['年俸(推定)'].str.replace('万円','') 12 data['年俸(推定)'] = data['年俸(推定)'].str.replace(',','') 13 return data 14 15if __name__ == "__main__": 16 profile_df=pd.DataFrame() 17 #①チーム・年度のリスト生成 18 teams =['g','t'] 19 years=['20', '19'] 20 #②基礎URL 21 base_url = 'https://baseball-data.com/' 22 #①②からURL生成した上でスクレイピング 23 for team in teams: 24 for year in years: 25 try: 26 url = base_url + year +'/player/'+ str(team) +'/' 27 print(url) 28 data = ScrapingProfileData(url,team,year) 29 data['team_name'] = name 30 profile_df = pd.concat([profile_df,data]) 31 time.sleep(2) 32 except: 33 print('error') 34 35 #スクレイピング完了通知 36 print('scraping_end') 37 38data
サッカースクレイピング(上記のエラーが出る)
Python
1##サッカー版シンプルコード 2 3#ライブラリ読み込み 4import pandas as pd 5import time 6 7#スクレイピング関数 8def ScrapingProfileData(url,team,year): 9# """プロフィールデータをスクレイピングする関数""" 10 data = pd.read_html(url, encoding='utf-8') 11 data = data[1] 12 data['チーム']=team 13 data['年']=year 14 data['年俸'] = data['年俸'].str.replace('万円','') 15 data['年俸'] = data['年俸'].str.replace(',','') 16 return data 17 18if __name__ == "__main__": 19 profile_df=pd.DataFrame() 20 #①チーム・年度のリスト生成 21 teams = ['FC東京','アビスパ福岡'] 22 years = ['2020'] 23 #②基礎URL 24 base_url = 'https://www.soccer-money.net/team/past_team.php' 25 #①②からURL生成した上でスクレイピング 26 for team in teams: 27 for year in years: 28 try: 29 url = base_url+'?team='+ str(team) +'&year='+str(year) 30 print(url) 31 data = ScrapingProfileData(url,team,year) 32 profile_df = pd.concat([profile_df,data]) 33 time.sleep(2) 34 except: 35 print('error') 36 37 #スクレイピング完了通知 38 print('scraping_end') 39 40data