質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
87.20%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

受付中

スクレイピングしたデータをCSVファイルとして出力したい

tsukano
tsukano

総合スコア1

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

1回答

0評価

0クリップ

477閲覧

投稿2022/01/02 12:24

編集2022/01/12 10:55

前提・実現したいこと

以下のサイトを参考にしてスクレイピングをしようと思っています。写経しながらコードの意味を調べて手探りでやっています
https://qiita.com/penguinz222/items/6a30d026ede2e822e245

発生している問題・エラーメッセージ

AttributeError Traceback (most recent call last) <ipython-input-40-835b77540c48> in <module> 71 df = df.append(dst) 72 ---> 73 df.to_csv('keiba_PS.csv', encoding='shift-jis') ~\anaconda3\lib\site-packages\pandas\core\generic.py in to_csv(self, path_or_buf, sep, na_rep, float_format, columns, header, index, index_label, mode, encoding, compression, quoting, quotechar, line_terminator, chunksize, date_format, doublequote, escapechar, decimal) 3176 """ 3177 -> 3178 df = self if isinstance(self, ABCDataFrame) else self.to_frame() 3179 3180 from pandas.io.formats.csvs import CSVFormatter AttributeError: 'str' object has no attribute 'to_frame'

該当のソースコード

Python

import requests from tqdm import tqdm import time from bs4 import BeautifulSoup import pandas as pd from html.parser import HTMLParser #9以下の数字の左に0をつける関数 def numStr(num): if num >= 10: return str(num) else: return '0' + str(num) #ネット競馬のレース情報のページのベースURL Base = "http://race.sp.netkeiba.com/?pid=race_result&race_id=" #後でデータを入れるための空のリスト dst = '' #項目のリスト df_col = ['year', 'date', 'field', 'race', 'race_name' , 'course', 'head_count', 'rank', 'horse_name' , 'gender', 'age', 'trainerA', 'trainerB', 'weight', 'c_weight', 'jackie', 'j_weight' , 'odds','popu'] df = pd.DataFrame #ベースURLの後に続くレースごとのURLをfor文で回す for year in tqdm(range(2020, 2021)): for i in tqdm(range(1, 11)): for j in tqdm(range(1, 11)): for k in tqdm(range(1, 11)): for l in range(1, 13): #URLを指定 url = Base + str(year) + numStr(i) + numStr(j) + numStr(k) + numStr(l) #1秒に一回処理を行う time.sleep(1) #urlのhtmlを取得する html =requests.get(url) html.encoding = 'EUC-JP' #スクレイピング。BexutifulSoupで解析する soup = BeautifulSoup(html.text, 'html.parser') #ページがあるかの判定 if soup.find_all('div', attrs={'class', 'Result_Guide'})!=[]: break else: #共通部分を抜き出す CommonYear = year CommonDate = soup.find_all('div', attrs={'Change_Btn'})[0].span.string #[0]=とってきたタグの1つめ。.string=文字列だけを持ってくる。.strip()=空白を削除する CommonField= soup.find_all('div', attrs={'class', 'Change_Btn Course'})[0].string.strip() #.span=指定したクラスのspanタグを抽出する CommonRace = soup.find_all('div', attrs={'Race_Num'})[0].span.string #.contents=取得した要素をリストとして変換する CommonRname= soup.find_all('dt', attrs={'class', 'Race_Name'})[0].contents[0].strip() CommonCourse= soup.find_all('dd', attrs={'Race_Data'})[0].span.string #.split()=取得した文字列を空白で区切ってリストにする CommonHcount= soup.find_all('dd', attrs={'class', 'Race_Data'})[0].contents[3].split()[1] #カウンタ変数mはレースに参加した馬の数だけ繰り返す for m in range(len(soup.find_all('div', attris='Rank'))): #dstは辞書型のリストになる。項目はdf_colになる dst = pd.Series(index=df_col) #tryは例外が発生するかもしれないが、実行したい処理のこと try: dst['year'] = CommonYear dst['date'] = CommonDate dst['field']= CommonField #開催場所 dst['race'] = CommonRace dst['race_name'] = CommonRname dst['course'] = CommonCourse dst['head_count'] = CommonHcount #頭数 dst['rank'] = soup.find_all('div', attrs='Rank')[m].contents[0] dst['horse_name'] = soup.find_all('dt', attrs=['class', 'Horse_Name'])[m].a.string detailL = soup.find_all('span', attrs=['class', 'Detail_Left'])[m] dst['gender'] = list(detailL.contents[0].split()[0])[0] dst['age'] = list(detailL.contents[0].split()[0])[1] dst['trainerA'] = detailL.span.string.split('・')[0] dst['trainerB'] = detailL.span.string.split('・')[1] if len(detailL.contents[0].split())>=2: dst['weight'] = detailL.contents[0].split()[1].split('(')[0] if len(detailL.contents[0].split()[1].split('('))>=2: dst['c_weight'] = detailL.contents[0].split()[1].split('(')[1].strip(')') #多分馬の体重変動 detailR = soup.find_all('span', attrs=['class', 'Detail_Right'])[m].contents if "\n" in detailR or "\n▲" in detailR or '\n☆' in detailR: detailR.pop(0) dst['jackie'] = detailR[0].string.strip() dst['j_weight'] = detailR[2].strip().replace('(', '').replace(')', '') #多分jackieの体重変動 Odds = soup.find_all('td', attrs=['class', 'Odds'])[m].contents[1] if Odds.dt.string is not None: dst['odds'] = Odds.dt.string.strip('倍') dst['popu'] = Odds.dd.string.strip('人気') #何番人気か except: pass dst.name = str(year) + numStr(i) + numStr(j) + numStr(k) + numStr(l) + numStr(m) df = df.append(dst) df.to_csv('keiba_PS.csv', encoding='shift-jis')

試したこと

エラーメッセージはどこかの部分がstr型のせいでto_frameが実行できないという意味だと思っています。しかし、どこを修正したらよいのかわかりません

補足情報(FW/ツールのバージョンなど)

ここにより詳細な情報を記載してください。

良い質問の評価を上げる

以下のような質問は評価を上げましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

  • プログラミングに関係のない質問
  • やってほしいことだけを記載した丸投げの質問
  • 問題・課題が含まれていない質問
  • 意図的に内容が抹消された質問
  • 過去に投稿した質問と同じ内容の質問
  • 広告と受け取られるような投稿

評価を下げると、トップページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

meg_

2022/01/02 14:24

Baseの値は何でしょうか?
tsukano

2022/01/02 14:46

ソースコードの部分を修正させていただきました。申し訳ありません 質問する際に張り付け忘れただけで実際のコードには元々値は定義しておりました。なのでエラー内容に変化はありません

まだ回答がついていません

会員登録して回答してみよう

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
87.20%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。