質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

1回答

678閲覧

英語サイトのwebスクレイピングでcsvに落としたい

aomatsu_

総合スコア18

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2019/03/05 15:04

Python初心者です。webスクレイピングの練習をしています。
ロイター通信のAPIを使って、ヘッドラインニュースの記事名と説明文をスクレイピングしようとしています。

python

1import requests 2url = 'https://newsapi.org/v2/top-headlines?sources=reuters&apiKey=77d45426f1994acc9f516c3619acc2b6' 3data = requests.get(url).json() 4 5with open('reuterNews.csv', 'w') as f: 6 f.write('"{0}","{1}","{2}"\n'.format('title', 'description',"19/03/05")) 7 for article in data['articles']: 8 articleTitle = article['title'] 9 articleDescription = article['description'] 10 f.write('"{0}", "{1}"\n'.format(articleTitle, articleDescription))

requestを使ってURLを取得しcsvに落とすことはできるのですが…
作成したcsvファイルをExcelで表示しようとすると、英文に含まれている「,」で勝手に区切られてしまいます。

Excelで開いたとき

例えば6行目の「Stocks stall, dollar stands tall~~」というタイトルの記事では、タイトル部分は区切られていませんが、説明文のところが2列に分かれています。

APIの説明は以下の通りです。
APIの説明書き

ちなみに、csvファイルをワードパッドで開いたときの該当記事部分は以下のようになります。

text

1"Stocks stall, dollar stands tall as China trims growth targets", "World shares stalled near a five-month high on Tuesday as China cut its growth targets to a 30-year low but added more stimulus, and a revived dollar headed for a fifth day of gains in the currency markets."

試しにarticleDescription変数が入る「"{1}"」を''(シングルクォーテーション)で囲んでみましたが、csvファイルで開いたときに記事の説明文についている""(ダブルクォーテーション)が外れただけで、2つに分かれる問題は解消できませんでした。

''をつけたとき

どのようにしたら2つに区切られずにスクレイピングすることができるのでしょうか?
何かヒントをいただけると嬉しいです。よろしくお願いします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

csv の出力は自分で書くのではなく、csv モジュールを使いましょう。
カンマや改行が含まれている場合のエスケープ等もきちんとやってくれます。

CSV の読み込み/書き込み まとめ

python

1import csv 2import requests 3 4url = 'https://newsapi.org/v2/top-headlines?sources=reuters&apiKey=77d45426f1994acc9f516c3619acc2b6' 5json = requests.get(url).json() 6 7data = [[a['title'], a['description']] for a in json['articles']] 8 9header = ['title', 'description'] 10with open('output.csv', 'w') as f: 11 writer = csv.writer(f) 12 writer.writerow(header) 13 writer.writerows(data)

投稿2019/03/05 15:13

tiitoi

総合スコア21956

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

aomatsu_

2019/03/07 08:40

csvモジュールのわかりやすいサイトも載せていただき、勉強になりました。参考にします!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問