質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

2回答

1848閲覧

タイトルを一度だけcsvファイルに書き込みたい

k0908

総合スコア102

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2018/07/25 10:02

html = """ <table class=""> <tr> <th>名前</th> <th>年齢</th> </tr> <tr> <td>John</td> <td>33</td> </tr> </table> <table class=""> <tr> <th>名前</th> <th>年齢</th> </tr> <tr> <td>masaki</td> <td>31</td> </tr> </table> <table class=""> <tr> <th>名前</th> <th>年齢</th> </tr> <tr> <td>Ohn</td> <td>22</td> </tr> </table> """

と3つのテーブルが1つのhtml内にあります。

import csv from bs4 import BeautifulSoup #上のテーブルが来る soup = BeautifulSoup(html, "html.parser") content = [tag.string for tag in soup.find_all("td")] items = [content[i:i+2] for i in range(0, len(content), 2)] with open("tmp.csv", "w", encoding="utf-8") as f: writer = csv.writer(f) writer.writerows(items)

とコードを書いて実行すると、

名前,年齢 John,33 名前,年齢 masaki,31 名前,年齢 Ohni,22

のように名前,年齢は3回も記入されてしまいます。

tmp.csv内に1回だけ名前,年齢を記入して、

名前,年齢 John,33 masaki,31 Ohni,22

のような書き込みにしたいのですが、どのように書いたら1回だけ書き込まれますか?

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

umyu

2018/07/25 10:35 編集

質問文のソースコードを実行しましたが、ヘッダー行が複数件書き込まれる問題を再現できませんでした。
guest

回答2

0

pandas ならこんな感じで書けます。

Python

1import pandas as pd 2 3html = """ 4<table class=""> 5<tr> 6<th>名前</th> 7<th>年齢</th> 8</tr> 9<tr> 10<td>John</td> 11<td>33</td> 12</tr> 13</table> 14 15<table class=""> 16<tr> 17<th>名前</th> 18<th>年齢</th> 19</tr> 20<tr> 21<td>masaki</td> 22<td>31</td> 23</tr> 24</table> 25 26<table class=""> 27<tr> 28<th>名前</th> 29<th>年齢</th> 30</tr> 31<tr> 32<td>Ohn</td> 33<td>22</td> 34</tr> 35</table> 36""" 37dfs = pd.read_html(html, header=0) 38pd.concat(dfs, ignore_index=True).to_csv('tmp.csv', index=None)

投稿2018/07/25 23:20

magichan

総合スコア15898

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

ベストアンサー

thタグの要素を取得するとき、find_all()にlimitを与えてください。
つまり

python

1header = [tag.string for tag in soup.find_all("th", limit=2)]

とします。

python

1import csv 2 3from bs4 import BeautifulSoup 4 5html = """ 6<table class=""> 7<tr> 8<th>名前</th> 9<th>年齢</th> 10</tr> 11<tr> 12<td>John</td> 13<td>33</td> 14</tr> 15</table> 16 17<table class=""> 18<tr> 19<th>名前</th> 20<th>年齢</th> 21</tr> 22<tr> 23<td>masaki</td> 24<td>31</td> 25</tr> 26</table> 27 28<table class=""> 29<tr> 30<th>名前</th> 31<th>年齢</th> 32</tr> 33<tr> 34<td>Ohn</td> 35<td>22</td> 36</tr> 37</table> 38""" 39 40soup = BeautifulSoup(html, "html.parser") 41 42header = [tag.string for tag in soup.find_all("th", limit=2)] 43output = [header] 44 45content = [tag.string for tag in soup.find_all("td")] 46[output.append(content[i:i+2]) for i in range(0, len(content), 2)] 47 48with open("tmp.csv", "w", encoding="utf-8", newline="") as f: 49 writer = csv.writer(f) 50 writer.writerows(output)

余計かもしれませんが、出来る限りご自身でドキュメントを読んだり検索するようにしてください。
http://kondou.com/BS4/

投稿2018/07/25 10:28

crimnut

総合スコア380

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問