質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

1回答

2216閲覧

スクレイピングしたデータをCSVファイルとして出力したい

tsukano

総合スコア1

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2022/01/02 12:24

編集2022/01/02 14:43

前提・実現したいこと

以下のサイトを参考にしてスクレイピングをしようと思っています。写経しながらコードの意味を調べて手探りでやっています
https://qiita.com/penguinz222/items/6a30d026ede2e822e245

発生している問題・エラーメッセージ

AttributeError Traceback (most recent call last) <ipython-input-40-835b77540c48> in <module> 71 df = df.append(dst) 72 ---> 73 df.to_csv('keiba_PS.csv', encoding='shift-jis') ~\anaconda3\lib\site-packages\pandas\core\generic.py in to_csv(self, path_or_buf, sep, na_rep, float_format, columns, header, index, index_label, mode, encoding, compression, quoting, quotechar, line_terminator, chunksize, date_format, doublequote, escapechar, decimal) 3176 """ 3177 -> 3178 df = self if isinstance(self, ABCDataFrame) else self.to_frame() 3179 3180 from pandas.io.formats.csvs import CSVFormatter AttributeError: 'str' object has no attribute 'to_frame'

該当のソースコード

Python

1import requests 2from tqdm import tqdm 3import time 4from bs4 import BeautifulSoup 5import pandas as pd 6from html.parser import HTMLParser 7 8#9以下の数字の左に0をつける関数 9def numStr(num): 10 if num >= 10: 11 return str(num) 12 else: 13 return '0' + str(num) 14 15#ネット競馬のレース情報のページのベースURL 16Base = "http://race.sp.netkeiba.com/?pid=race_result&race_id=" 17#後でデータを入れるための空のリスト 18dst = '' 19#項目のリスト 20df_col = ['year', 'date', 'field', 'race', 'race_name' 21 , 'course', 'head_count', 'rank', 'horse_name' 22 , 'gender', 'age', 'trainerA', 'trainerB', 'weight', 'c_weight', 'jackie', 'j_weight' 23 , 'odds','popu'] 24 25df = pd.DataFrame 26 27#ベースURLの後に続くレースごとのURLをfor文で回す 28for year in tqdm(range(2020, 2021)): 29 for i in tqdm(range(1, 11)): 30 for j in tqdm(range(1, 11)): 31 for k in tqdm(range(1, 11)): 32 for l in range(1, 13): 33 #URLを指定 34 url = Base + str(year) + numStr(i) + numStr(j) + numStr(k) + numStr(l) 35 #1秒に一回処理を行う 36 time.sleep(1) 37 #urlのhtmlを取得する 38 html =requests.get(url) 39 html.encoding = 'EUC-JP' 40 41 #スクレイピング。BexutifulSoupで解析する 42 soup = BeautifulSoup(html.text, 'html.parser') 43 #ページがあるかの判定 44 if soup.find_all('div', attrs={'class', 'Result_Guide'})!=[]: 45 break 46 else: 47 #共通部分を抜き出す 48 CommonYear = year 49 CommonDate = soup.find_all('div', attrs={'Change_Btn'})[0].span.string 50 #[0]=とってきたタグの1つめ。.string=文字列だけを持ってくる。.strip()=空白を削除する 51 CommonField= soup.find_all('div', attrs={'class', 'Change_Btn Course'})[0].string.strip() 52 #.span=指定したクラスのspanタグを抽出する 53 CommonRace = soup.find_all('div', attrs={'Race_Num'})[0].span.string 54 #.contents=取得した要素をリストとして変換する 55 CommonRname= soup.find_all('dt', attrs={'class', 'Race_Name'})[0].contents[0].strip() 56 CommonCourse= soup.find_all('dd', attrs={'Race_Data'})[0].span.string 57 #.split()=取得した文字列を空白で区切ってリストにする 58 CommonHcount= soup.find_all('dd', attrs={'class', 'Race_Data'})[0].contents[3].split()[1] 59 60 #カウンタ変数mはレースに参加した馬の数だけ繰り返す 61 for m in range(len(soup.find_all('div', attris='Rank'))): 62 #dstは辞書型のリストになる。項目はdf_colになる 63 dst = pd.Series(index=df_col) 64 #tryは例外が発生するかもしれないが、実行したい処理のこと 65 try: 66 dst['year'] = CommonYear 67 dst['date'] = CommonDate 68 dst['field']= CommonField #開催場所 69 dst['race'] = CommonRace 70 dst['race_name'] = CommonRname 71 dst['course'] = CommonCourse 72 dst['head_count'] = CommonHcount #頭数 73 dst['rank'] = soup.find_all('div', attrs='Rank')[m].contents[0] 74 dst['horse_name'] = soup.find_all('dt', attrs=['class', 'Horse_Name'])[m].a.string 75 detailL = soup.find_all('span', attrs=['class', 'Detail_Left'])[m] 76 dst['gender'] = list(detailL.contents[0].split()[0])[0] 77 dst['age'] = list(detailL.contents[0].split()[0])[1] 78 dst['trainerA'] = detailL.span.string.split('・')[0] 79 dst['trainerB'] = detailL.span.string.split('・')[1] 80 if len(detailL.contents[0].split())>=2: 81 dst['weight'] = detailL.contents[0].split()[1].split('(')[0] 82 if len(detailL.contents[0].split()[1].split('('))>=2: 83 dst['c_weight'] = detailL.contents[0].split()[1].split('(')[1].strip(')') #多分馬の体重変動 84 detailR = soup.find_all('span', attrs=['class', 'Detail_Right'])[m].contents 85 if "\n" in detailR or "\n▲" in detailR or '\n☆' in detailR: 86 detailR.pop(0) 87 dst['jackie'] = detailR[0].string.strip() 88 dst['j_weight'] = detailR[2].strip().replace('(', '').replace(')', '') #多分jackieの体重変動 89 Odds = soup.find_all('td', attrs=['class', 'Odds'])[m].contents[1] 90 if Odds.dt.string is not None: 91 dst['odds'] = Odds.dt.string.strip('倍') 92 dst['popu'] = Odds.dd.string.strip('人気') #何番人気か 93 except: 94 pass 95 dst.name = str(year) + numStr(i) + numStr(j) + numStr(k) + numStr(l) + numStr(m) 96 97 df = df.append(dst) 98 99df.to_csv('keiba_PS.csv', encoding='shift-jis')

試したこと

エラーメッセージはどこかの部分がstr型のせいでto_frameが実行できないという意味だと思っています。しかし、どこを修正したらよいのかわかりません

補足情報(FW/ツールのバージョンなど)

ここにより詳細な情報を記載してください。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

meg_

2022/01/02 14:24

Baseの値は何でしょうか?
tsukano

2022/01/02 14:46

ソースコードの部分を修正させていただきました。申し訳ありません 質問する際に張り付け忘れただけで実際のコードには元々値は定義しておりました。なのでエラー内容に変化はありません
guest

回答1

0

df = pd.DataFrameではなくdf = pd.DataFrame()だと思います。

投稿2022/01/03 17:10

meg_

総合スコア10760

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問