前提・実現したいこと
以下のサイトを参考にしてスクレイピングをしようと思っています。写経しながらコードの意味を調べて手探りでやっています
https://qiita.com/penguinz222/items/6a30d026ede2e822e245
発生している問題・エラーメッセージ
AttributeError Traceback (most recent call last) <ipython-input-40-835b77540c48> in <module> 71 df = df.append(dst) 72 ---> 73 df.to_csv('keiba_PS.csv', encoding='shift-jis') ~\anaconda3\lib\site-packages\pandas\core\generic.py in to_csv(self, path_or_buf, sep, na_rep, float_format, columns, header, index, index_label, mode, encoding, compression, quoting, quotechar, line_terminator, chunksize, date_format, doublequote, escapechar, decimal) 3176 """ 3177 -> 3178 df = self if isinstance(self, ABCDataFrame) else self.to_frame() 3179 3180 from pandas.io.formats.csvs import CSVFormatter AttributeError: 'str' object has no attribute 'to_frame'
該当のソースコード
Python
1import requests 2from tqdm import tqdm 3import time 4from bs4 import BeautifulSoup 5import pandas as pd 6from html.parser import HTMLParser 7 8#9以下の数字の左に0をつける関数 9def numStr(num): 10 if num >= 10: 11 return str(num) 12 else: 13 return '0' + str(num) 14 15#ネット競馬のレース情報のページのベースURL 16Base = "http://race.sp.netkeiba.com/?pid=race_result&race_id=" 17#後でデータを入れるための空のリスト 18dst = '' 19#項目のリスト 20df_col = ['year', 'date', 'field', 'race', 'race_name' 21 , 'course', 'head_count', 'rank', 'horse_name' 22 , 'gender', 'age', 'trainerA', 'trainerB', 'weight', 'c_weight', 'jackie', 'j_weight' 23 , 'odds','popu'] 24 25df = pd.DataFrame 26 27#ベースURLの後に続くレースごとのURLをfor文で回す 28for year in tqdm(range(2020, 2021)): 29 for i in tqdm(range(1, 11)): 30 for j in tqdm(range(1, 11)): 31 for k in tqdm(range(1, 11)): 32 for l in range(1, 13): 33 #URLを指定 34 url = Base + str(year) + numStr(i) + numStr(j) + numStr(k) + numStr(l) 35 #1秒に一回処理を行う 36 time.sleep(1) 37 #urlのhtmlを取得する 38 html =requests.get(url) 39 html.encoding = 'EUC-JP' 40 41 #スクレイピング。BexutifulSoupで解析する 42 soup = BeautifulSoup(html.text, 'html.parser') 43 #ページがあるかの判定 44 if soup.find_all('div', attrs={'class', 'Result_Guide'})!=[]: 45 break 46 else: 47 #共通部分を抜き出す 48 CommonYear = year 49 CommonDate = soup.find_all('div', attrs={'Change_Btn'})[0].span.string 50 #[0]=とってきたタグの1つめ。.string=文字列だけを持ってくる。.strip()=空白を削除する 51 CommonField= soup.find_all('div', attrs={'class', 'Change_Btn Course'})[0].string.strip() 52 #.span=指定したクラスのspanタグを抽出する 53 CommonRace = soup.find_all('div', attrs={'Race_Num'})[0].span.string 54 #.contents=取得した要素をリストとして変換する 55 CommonRname= soup.find_all('dt', attrs={'class', 'Race_Name'})[0].contents[0].strip() 56 CommonCourse= soup.find_all('dd', attrs={'Race_Data'})[0].span.string 57 #.split()=取得した文字列を空白で区切ってリストにする 58 CommonHcount= soup.find_all('dd', attrs={'class', 'Race_Data'})[0].contents[3].split()[1] 59 60 #カウンタ変数mはレースに参加した馬の数だけ繰り返す 61 for m in range(len(soup.find_all('div', attris='Rank'))): 62 #dstは辞書型のリストになる。項目はdf_colになる 63 dst = pd.Series(index=df_col) 64 #tryは例外が発生するかもしれないが、実行したい処理のこと 65 try: 66 dst['year'] = CommonYear 67 dst['date'] = CommonDate 68 dst['field']= CommonField #開催場所 69 dst['race'] = CommonRace 70 dst['race_name'] = CommonRname 71 dst['course'] = CommonCourse 72 dst['head_count'] = CommonHcount #頭数 73 dst['rank'] = soup.find_all('div', attrs='Rank')[m].contents[0] 74 dst['horse_name'] = soup.find_all('dt', attrs=['class', 'Horse_Name'])[m].a.string 75 detailL = soup.find_all('span', attrs=['class', 'Detail_Left'])[m] 76 dst['gender'] = list(detailL.contents[0].split()[0])[0] 77 dst['age'] = list(detailL.contents[0].split()[0])[1] 78 dst['trainerA'] = detailL.span.string.split('・')[0] 79 dst['trainerB'] = detailL.span.string.split('・')[1] 80 if len(detailL.contents[0].split())>=2: 81 dst['weight'] = detailL.contents[0].split()[1].split('(')[0] 82 if len(detailL.contents[0].split()[1].split('('))>=2: 83 dst['c_weight'] = detailL.contents[0].split()[1].split('(')[1].strip(')') #多分馬の体重変動 84 detailR = soup.find_all('span', attrs=['class', 'Detail_Right'])[m].contents 85 if "\n" in detailR or "\n▲" in detailR or '\n☆' in detailR: 86 detailR.pop(0) 87 dst['jackie'] = detailR[0].string.strip() 88 dst['j_weight'] = detailR[2].strip().replace('(', '').replace(')', '') #多分jackieの体重変動 89 Odds = soup.find_all('td', attrs=['class', 'Odds'])[m].contents[1] 90 if Odds.dt.string is not None: 91 dst['odds'] = Odds.dt.string.strip('倍') 92 dst['popu'] = Odds.dd.string.strip('人気') #何番人気か 93 except: 94 pass 95 dst.name = str(year) + numStr(i) + numStr(j) + numStr(k) + numStr(l) + numStr(m) 96 97 df = df.append(dst) 98 99df.to_csv('keiba_PS.csv', encoding='shift-jis')
試したこと
エラーメッセージはどこかの部分がstr型のせいでto_frameが実行できないという意味だと思っています。しかし、どこを修正したらよいのかわかりません
補足情報(FW/ツールのバージョンなど)
ここにより詳細な情報を記載してください。