pandasでhtmlからテーブルを取得する際、columnsを指定

あるサイトのhtmlをbeautifulsoupで解析し、tableタグを取得。
pandasでtableタグを読み込みcsvファイルに出力させたいが、その際0行目をcolumnsとして読み込むことができない。

python
1tables = soup.find('table')
2t_str = str(tables)
3dfs = pd.io.html.read_html(t_str)
4df = dfs[0]
5df.columns = (ここがわからない)

0行目をcloumnsをして指定するにはどうすればよろしいでしょうか？

追記

2017年,合計,基本情報,お店から,写真,地図・クーポン,メニュー,料理人,私のオススメ,電話番号,オリジナル,誰と行く,シェフのオススメ,レコメンド,着信数,呼損数
12月1日,260,133,5,0,18,82,3,0,1,1,15,0,0,2,0

上記のcsvファイルで1行目をdf.columnsで指定したいです。
下記で指定するとcolumnsが2行になってしまいます

python
1df.columns = [onem + '年', '合計', '基本情報', 'お店から', '写真', '地図・クーポン', 'メニュー', '料理人', '私のオススメ', '電話番号', 'オリジナル', '誰と行く', 'シェフのオススメ', 'レコメンド', '着信数', '呼損数']

csv
12017年,合計,基本情報,お店から,写真,地図・クーポン,メニュー,料理人,私のオススメ,電話番号,オリジナル,誰と行く,シェフのオススメ,レコメンド,着信数,呼損数
22017年,合計,基本情報,お店から,写真,地図・クーポン,メニュー,料理人,私のオススメ,電話番号,オリジナル,誰と行く,シェフのオススメ,レコメンド,着信数,呼損数
312月1日,260,133,5,0,18,82,3,0,1,1,15,0,0,2,0

行動規範の内容に同意します

回答2件

ベストアンサー

pd.io.html.read_html() の引数にて、0行目をheader行に指定することで上手くいきませんか？

Python
1dfs = pd.io.html.read_html(t_str, header=0)

【追記】

上記の方法ではなく、DataFrame化した後に、1行目のデータをColumn名として設定する方法も記述しておきます。
（設定した後に、1行目を削除してIndexを振りなおしております。）

Python
1import pandas as pd
2
3df = pd.DataFrame([['2017年','合計','基本情報','お店から','写真','地図・クーポン','メニュー','料理人','私のオススメ','電話番号','オリジナル','誰と行く','シェフのオススメ','レコメンド','着信数','呼損数'],
4['12月1日',260,133,5,0,18,82,3,0,1,1,15,0,0,2,0]])
5
6df.columns = df.iloc[0]
7df = df.reindex(df.index.drop(0))
8print(df)

投稿2018/01/08 23:31

編集2018/01/08 23:46

magichan

総合スコア15898

DaichiYasuda

2018/01/09 10:57

dfs = pd.io.html.read_html(t_str, header=0) こういうやり方があるんですね。ありがとうございました！

行動規範の内容に同意します

こんにちは。

以下が望まれている回答になっているかやや心もとないのですが、
df.columns に配列を代入するのはいかがでしょう？

python
1from bs4 import BeautifulSoup
2import pandas as pd
3
4html = """
5<html>
6  <body>
7    <table>
8      <tr><td>10</td><td>20</td><td>31</td></tr>
9      <tr><td>11</td><td>21</td><td>32</td></tr>
10      <tr><td>12</td><td>22</td><td>33</td></tr>
11      <tr><td>12</td><td>23</td><td>34</td></tr>
12    </table>
13  </body>
14</html>
15"""
16
17soup = BeautifulSoup(html, "lxml")
18
19tables = soup.find('table')
20t_str = str(tables)
21dfs = pd.io.html.read_html(t_str)
22df = dfs[0]
23df.columns = ['COL-A', 'COL-B', 'COL-C']
24
25df.to_csv('test.csv')

上記を実行すると、以下のような CSV が生成され、df.columns に
代入した文字列のリストが表のヘッダ行になります。

CSV
1,COL-A,COL-B,COL-C
20,10,20,31
31,11,21,32
42,12,22,33
53,12,23,34

※もし、入力に対する望ましい出力が上記と異なるのであれば、ご質問に追記して頂けると助かります。

以上、参考になりましたら幸いです。

投稿2018/01/08 14:48

jun68ykt

総合スコア9058

DaichiYasuda

2018/01/08 15:12

回答ありがとうございます。追記させていただきました！

jun68ykt

2018/01/08 15:25

追記を読みました。そういうことですと、 tables = soup.find('table') t_str = str(tables) で取ってきた、 t_str の中身が知りたいです。 t_str = str(tables) の直後に print(t_str) として出力されたものをコピペするか、元の HTMLの中にある対象の <table> 〜 </table> をコピペするかして、table の HTML も質問の中に提示して頂ければ、対策が分かるかもしれません。

DaichiYasuda

2018/01/09 10:58

回答ありがとうございました！ dfs = pd.io.html.read_html(t_str, header=0)で1行目をheaderとして読み込むことができるらしく、そちらを参考にさせていただきました

jun68ykt

2018/01/09 11:42

解決されたようですね、よかったです！

行動規範の内容に同意します

あなたの回答