質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.46%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

アルゴリズム

アルゴリズムとは、定められた目的を達成するために、プログラムの理論的な動作を定義するものです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

1回答

1769閲覧

文字列をCSV出力するときに区切られしまう。

退会済みユーザー

退会済みユーザー

総合スコア0

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

アルゴリズム

アルゴリズムとは、定められた目的を達成するために、プログラムの理論的な動作を定義するものです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2020/11/17 09:56

pythonのbs4スクレイピング機能を使って、Wikipedia情報をロウごとにforの中でコンテンツを収集する機能を作りました。このコンテンツをロウごとにCSV出力したいのですが、文字カンマで区切られてしまいます。文, 次のロウの文, 次のロウの文として出力するにはどうしたらいいですか。

python

1import csv 2import requests, bs4 3 4url = 'https://ja.wikipedia.org/wiki/%E3%82%A4%E3%82%B0%E3%83%8E%E3%83%BC%E3%83%99%E3%83%AB%E8%B3%9E%E5%8F%97%E8%B3%9E%E8%80%85%E3%81%AE%E4%B8%80%E8%A6%A7' 5res= requests.get(url) 6soup = bs4.BeautifulSoup(res.text,'html.parser') 7 8contents =[] 9 10with open('ignovel_content.csv','w') as f: 11 writer = csv.writer(f) 12 13 14 for year in range(1,20): 15 print(1991+(year-1)) 16 for row in range(2,12): 17 print(row-2) 18 table = soup.select(f'tbody:nth-of-type({year}) > tr:nth-of-type({row}) > td:nth-of-type(2)') 19 20 for t in table: 21 text = t.getText() 22 print(text) 23 contents.append(list(text)) 24 writer.writerow(contents) 25

とすると

"['水', 'が', '知', '性', 'を', '持', 'っ', 'た', '液', '体', 'で', 'あ', 'る', 'と', 'い', 'う', '事', 'を', '執', '拗', 'に', '「', '発', '見', '」', 'す', 'る', 'と', 'と', 'も', 'に', '、', '\n', '水', 'は', 'あ', 'る', '出', '来', '事', 'の', '痕', '跡', 'が', '完', '全', 'に', '消', '滅', 'し', 'た', '後', 'で', '、', 'し', 'ば', 'ら', 'く', '経', 'っ', 'て', 'も', 'そ', 'れ', 'を', '覚', 'え', 'て', 'い', 'ら', 'れ', 'る', 'と', 'い', 'う', '、', '彼', 'の', 'お', '気', 'に', 'め', 'す', '結', '果', 'を', '立', '証', 'し', 'た', 'こ', 'と', 'に', '対', 'し', 'て', '。', '\n', '\n']","['膨', '張', '感', '・', 'お', 'な', 'ら', '・', '不', '快', '感', 'な', 'ら', 'び', 'に', '気', '恥', 'ず', 'か', 'し', 'さ', 'を', '防', 'ぐ', 'た', 'め', 'の', '「', '対', 'ガ', 'ス', '液', '」', 'を', '用', 'い', 'た', '、', '彼', 'の', '先', '駆', '的', 'な', '仕', '事', 'に', '対', 'し', 'て', '。', '\n']","['科', '学', '教', '育', 'の', '必', '要', '性', 'を', '誰', 'よ', 'り', 'も', 'よ', 'く', '論', '証', 'し', 'た', 'こ', 'と', 'に', '対', 'し', 'て', '。', '\n']","['ノ', 'ー', 'ベ', 'ル', '賞', '受', '賞', '者', 'と', 'オ', 'リ', 'ン', 'ピ', 'ッ', 'ク', '出', '場', '者', 'か', 'ら', 'の', 'み', 'の', '提', '供', 'を', '受', 'け', '入', 'れ', 'る', '精', '子', 'バ', 'ン', 'ク', '「', '胚', '選', '択', 'の', 'た', 'め', 'の', '倉', '庫', '」', 'の', '先', '駆', '的', 'な', '発', '展', 'に', '対', 'し', 'て', '。', '\n]"

のようになってしまいます。

writer.writerows(contents)

にしても

水,が,知,性,を,持,っ,た,液,体,で,あ,る,と,い,う,事,を,執,拗,に,「,発,見,」,す,る,と,と,も,に,、," ",水,は,あ,る,出,来,事,の,痕,跡,が,完,全,に,消,滅,し,た,後,で,、,し,ば,ら,く,経,っ,て,も,そ,れ,を,覚,え,て,い,ら,

のように途切れてしまいます。水が知性を持った液体である-, 次の文, 次の文といった形にするにはどうしたらいいですか。

動作環境はCorabratoryです。よろしくお願いします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

contentリストに追加する際に、テキストをリスト化してしまっている事が原因です。

diff

1- contents.append(list(text)) 2+ contents.append(text)

投稿2020/11/17 10:01

nto

総合スコア1438

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.46%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問