質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

284閲覧

Pythonでスクレイピング。CSVに出力できません。

majomajo

総合スコア7

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2019/05/30 12:07

前提・実現したいこと

https://icedog-works.com/python-scraping

上記のページに掲載されている内容と同じことができるようになりたいです。

発生している問題・エラーメッセージ

デスクトップに「Python」フォルダを作り、上記サイトで紹介されているコードをコピペして「script.py」を作りました。

pip install requests
pip install beautifulsoup4
pip install lxml

↑順番にコマンドに入力して「script.py」を動かすと「[Python,スクレイピング]20190530193223.csv」のファイルができたのですが、一番上に「検索順位,TITLEタグ,H1タグ,H2タグ,H3タグ,記事文字数」の行しか書かれていませんでした。

エラーのメッセージはありません(たぶん...)
何が原因でしょうか。

補足情報

使っているPCはwindowsです。

Python

1import sys 2import requests 3import bs4 4import datetime 5import csv 6 7#置換用 8def replace_n(str_data): 9 return str_data.replace('\n', '').replace('\r', '') 10 11#コンカチ用 12def concat_list(list_data): 13 str_data = '' 14 for j in range(len(list_data)): 15 str_data = str_data + replace_n(list_data[j].getText()) + ' , ' 16 return str_data 17 18#出力データ 19output_data = [] 20output_data.append(['検索順位', 'TITLEタグ', 'H1タグ', 'H2タグ', 'H3タグ', '記事文字数']) 21 22#キーワードの指定 23list_keyword = ['Python', 'スクレイピング'] 24 25#検索順位取得処理 26if list_keyword: 27 #Google検索の実施 28 search_url = 'https://www.google.co.jp/search?hl=ja&num=10&q=' + ' '.join(list_keyword) 29 res_google = requests.get(search_url) 30 res_google.raise_for_status() 31 32 #BeautifulSoupで掲載サイトのURLを取得 33 bs4_google = bs4.BeautifulSoup(res_google.text, 'html.parser') 34 link_google = bs4_google.select('div > h3.r > a') 35 for i in range(len(link_google)): 36 #なんか変な文字が入るので除く 37 site_url = link_google[i].get('href').split('&sa=U&')[0].replace('/url?q=', '') 38 if 'https://' in site_url or 'http://' in site_url: 39 #サイトの内容を解析 40 try: 41 res_site = requests.get(site_url) 42 res_site.encoding = res_site.apparent_encoding 43 except: 44 continue 45 bs4_site = bs4.BeautifulSoup(res_site.text, 'html.parser') 46 47 #データを初期化 48 title_site = '' 49 h1_site = '' 50 h2_site = '' 51 h3_site = '' 52 mojisu_site = 0 53 54 #データを取得 55 if bs4_site.select('title'): 56 title_site = replace_n(bs4_site.select('title')[0].getText()) 57 if bs4_site.select('h1'): 58 h1_site = concat_list(bs4_site.select('h1')) 59 if bs4_site.select('h2'): 60 h2_site = concat_list(bs4_site.select('h2')) 61 if bs4_site.select('h3'): 62 h3_site = concat_list(bs4_site.select('h3')) 63 if bs4_site.select('body'): 64 mojisu_site = len(bs4_site.select('body')[0].getText()) 65 66 #データをリストに入れておく 67 output_data_new = i+1, title_site, h1_site, h2_site, h3_site, mojisu_site 68 output_data.append(output_data_new) 69 70#CSVファイルに出力する 71now = datetime.datetime.now() 72mojiretsu = ','.join(list_keyword) 73csv_file = open('[' + mojiretsu + ']' + '{0:%Y%m%d%H%M%S}'.format(now) + '.csv', 'w', encoding='UTF-8') 74csv_writer = csv.writer(csv_file, lineterminator='\n') 75for j in range(len(output_data)): 76 csv_writer.writerow(output_data[j]) 77csv_file.close()

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

link_google = bs4_google.select('div > h3.r > a')
で、link_googleが帰っていないようです。
selectとbs4_googleを見直してみてはいかがでしょうか。

https://jitekineko.com/tips-python-seo-search/
あなたが作成したコードではなく、こちらのページほぼそのままなんですね。

投稿2019/05/30 13:03

編集2019/05/30 13:13
Akashic

総合スコア298

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

majomajo

2019/05/30 14:02

ありがとうございます。 >あなたが作成したコードではなく、こちらのページほぼそのままなんですね。 はい。オンライン学習サービスで基礎を学んだだけなので、何か実際に動くものを、と思ったのですが、躓いてしまいました。 selectとbs4_googleについて調べてみます。 ありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問