前提・実現したいこと
以下のサイトを参考にしてスクレイピングをしようと思っています。写経しながらコードの意味を調べて手探りでやっています
https://qiita.com/penguinz222/items/6a30d026ede2e822e245
発生している問題・エラーメッセージ
AttributeError Traceback (most recent call last) <ipython-input-40-835b77540c48> in <module> 71 df = df.append(dst) 72 ---> 73 df.to_csv('keiba_PS.csv', encoding='shift-jis') ~\anaconda3\lib\site-packages\pandas\core\generic.py in to_csv(self, path_or_buf, sep, na_rep, float_format, columns, header, index, index_label, mode, encoding, compression, quoting, quotechar, line_terminator, chunksize, date_format, doublequote, escapechar, decimal) 3176 """ 3177 -> 3178 df = self if isinstance(self, ABCDataFrame) else self.to_frame() 3179 3180 from pandas.io.formats.csvs import CSVFormatter AttributeError: 'str' object has no attribute 'to_frame'
該当のソースコード
Python
import requests from tqdm import tqdm import time from bs4 import BeautifulSoup import pandas as pd from html.parser import HTMLParser #9以下の数字の左に0をつける関数 def numStr(num): if num >= 10: return str(num) else: return '0' + str(num) #ネット競馬のレース情報のページのベースURL Base = "http://race.sp.netkeiba.com/?pid=race_result&race_id=" #後でデータを入れるための空のリスト dst = '' #項目のリスト df_col = ['year', 'date', 'field', 'race', 'race_name' , 'course', 'head_count', 'rank', 'horse_name' , 'gender', 'age', 'trainerA', 'trainerB', 'weight', 'c_weight', 'jackie', 'j_weight' , 'odds','popu'] df = pd.DataFrame #ベースURLの後に続くレースごとのURLをfor文で回す for year in tqdm(range(2020, 2021)): for i in tqdm(range(1, 11)): for j in tqdm(range(1, 11)): for k in tqdm(range(1, 11)): for l in range(1, 13): #URLを指定 url = Base + str(year) + numStr(i) + numStr(j) + numStr(k) + numStr(l) #1秒に一回処理を行う time.sleep(1) #urlのhtmlを取得する html =requests.get(url) html.encoding = 'EUC-JP' #スクレイピング。BexutifulSoupで解析する soup = BeautifulSoup(html.text, 'html.parser') #ページがあるかの判定 if soup.find_all('div', attrs={'class', 'Result_Guide'})!=[]: break else: #共通部分を抜き出す CommonYear = year CommonDate = soup.find_all('div', attrs={'Change_Btn'})[0].span.string #[0]=とってきたタグの1つめ。.string=文字列だけを持ってくる。.strip()=空白を削除する CommonField= soup.find_all('div', attrs={'class', 'Change_Btn Course'})[0].string.strip() #.span=指定したクラスのspanタグを抽出する CommonRace = soup.find_all('div', attrs={'Race_Num'})[0].span.string #.contents=取得した要素をリストとして変換する CommonRname= soup.find_all('dt', attrs={'class', 'Race_Name'})[0].contents[0].strip() CommonCourse= soup.find_all('dd', attrs={'Race_Data'})[0].span.string #.split()=取得した文字列を空白で区切ってリストにする CommonHcount= soup.find_all('dd', attrs={'class', 'Race_Data'})[0].contents[3].split()[1] #カウンタ変数mはレースに参加した馬の数だけ繰り返す for m in range(len(soup.find_all('div', attris='Rank'))): #dstは辞書型のリストになる。項目はdf_colになる dst = pd.Series(index=df_col) #tryは例外が発生するかもしれないが、実行したい処理のこと try: dst['year'] = CommonYear dst['date'] = CommonDate dst['field']= CommonField #開催場所 dst['race'] = CommonRace dst['race_name'] = CommonRname dst['course'] = CommonCourse dst['head_count'] = CommonHcount #頭数 dst['rank'] = soup.find_all('div', attrs='Rank')[m].contents[0] dst['horse_name'] = soup.find_all('dt', attrs=['class', 'Horse_Name'])[m].a.string detailL = soup.find_all('span', attrs=['class', 'Detail_Left'])[m] dst['gender'] = list(detailL.contents[0].split()[0])[0] dst['age'] = list(detailL.contents[0].split()[0])[1] dst['trainerA'] = detailL.span.string.split('・')[0] dst['trainerB'] = detailL.span.string.split('・')[1] if len(detailL.contents[0].split())>=2: dst['weight'] = detailL.contents[0].split()[1].split('(')[0] if len(detailL.contents[0].split()[1].split('('))>=2: dst['c_weight'] = detailL.contents[0].split()[1].split('(')[1].strip(')') #多分馬の体重変動 detailR = soup.find_all('span', attrs=['class', 'Detail_Right'])[m].contents if "\n" in detailR or "\n▲" in detailR or '\n☆' in detailR: detailR.pop(0) dst['jackie'] = detailR[0].string.strip() dst['j_weight'] = detailR[2].strip().replace('(', '').replace(')', '') #多分jackieの体重変動 Odds = soup.find_all('td', attrs=['class', 'Odds'])[m].contents[1] if Odds.dt.string is not None: dst['odds'] = Odds.dt.string.strip('倍') dst['popu'] = Odds.dd.string.strip('人気') #何番人気か except: pass dst.name = str(year) + numStr(i) + numStr(j) + numStr(k) + numStr(l) + numStr(m) df = df.append(dst) df.to_csv('keiba_PS.csv', encoding='shift-jis')
試したこと
エラーメッセージはどこかの部分がstr型のせいでto_frameが実行できないという意味だと思っています。しかし、どこを修正したらよいのかわかりません
補足情報(FW/ツールのバージョンなど)
ここにより詳細な情報を記載してください。
まだ回答がついていません
会員登録して回答してみよう