質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

保存

保存(save)とは、特定のファイルを、ハードディスク等の外部記憶装置に記録する行為を指します。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

2回答

2083閲覧

pandas.read_htmlで取得した表の結合ができない

TheBullchannel

総合スコア33

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

保存

保存(save)とは、特定のファイルを、ハードディスク等の外部記憶装置に記録する行為を指します。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2019/09/01 14:19

https://kabuoji3.com/stock/1305/2001/

上記のURLの 2001 の部分をfor文で2001~2019まで回して、当該のページにある表を取得するコードを組みました。
ここで得られる表は、以下の画像のようになります。この時それぞれの表を1つに結合してcsvに保存したいと思っておりますが、なかなかアイディアが浮かびません。
以下が今まで作成したコードです。

# coding: utf-8 import pandas as pd from datetime import datetime import csv from bs4 import BeautifulSoup import requests df = pd.read_csv('code1.csv') for i in range(len(df)): url1 = 'https://kabuoji3.com/stock/{}/'.format(df.iat[i, 0]) html1 = requests.get(url1) soup1 = BeautifulSoup(html1.content,'lxml') print(soup1.find("span",class_="jp").string) for ul in soup1.find_all("ul", class_="stock_yselect mt_10"): for a in ul.find_all("a"): if a.decode_contents(formatter="html") != "直近300日": url2 = 'https://kabuoji3.com/stock/{}/{}/'.format(df.iat[i, 0],a.decode_contents(formatter="html")) print(url2) dfs = pd.read_html(url2) print(dfs)

イメージ説明

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

リストに入れておいて、pandas.concatとかで結合すればいいのでは?

python

1lst = [] 2for ...# 中略 3 # ... 4 for ... # 上に同じ 5 for ... # 上に同じ 6 if ... # 上に同じ 7 # ... 8 lst.extend(dfs) # list of DataFramesなのでextendでlistに結合する。 9 # 1つしか中身がないことが確実or複数あっても常に先頭のものを取りたいならlst.append(dfs[0])でもいいかも 10df_result = pd.concat(lst, ignore_index=True)

投稿2019/09/01 14:29

編集2019/09/01 14:55
hayataka2049

総合スコア30933

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

TheBullchannel

2019/09/01 14:46

ご回答いただきありがとうございます。 cannot concatenate object of type '<class 'list'>'; only Series and DataFrame objs are valid とエラーが出てしまいます。 listが使用できないということなのでしょうか。
TheBullchannel

2019/09/01 15:05

ありがとうございました! 無事期待通りの動作になりました!
guest

0

DataFrameの結合方法は複数ありますが、下記が簡単です。

Python

1import pandas as pd 2 3df1 = pd.read_csv('test1.csv') 4df2 = pd.read_csv('test2.csv') 5 6df3 = pd.concat([df1, df2])

※値が存在しない列はNaNとなります。

投稿2019/09/01 14:30

meg_

総合スコア10580

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

TheBullchannel

2019/09/01 15:06

ありがとうございまいした! 勉強させていただきます!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問