前提・実現したいこと
https://icedog-works.com/python-scraping
上記のページに掲載されている内容と同じことができるようになりたいです。
発生している問題・エラーメッセージ
デスクトップに「Python」フォルダを作り、上記サイトで紹介されているコードをコピペして「script.py」を作りました。
pip install requests
pip install beautifulsoup4
pip install lxml
↑順番にコマンドに入力して「script.py」を動かすと「[Python,スクレイピング]20190530193223.csv」のファイルができたのですが、一番上に「検索順位,TITLEタグ,H1タグ,H2タグ,H3タグ,記事文字数」の行しか書かれていませんでした。
エラーのメッセージはありません(たぶん...)
何が原因でしょうか。
補足情報
使っているPCはwindowsです。
Python
1import sys 2import requests 3import bs4 4import datetime 5import csv 6 7#置換用 8def replace_n(str_data): 9 return str_data.replace('\n', '').replace('\r', '') 10 11#コンカチ用 12def concat_list(list_data): 13 str_data = '' 14 for j in range(len(list_data)): 15 str_data = str_data + replace_n(list_data[j].getText()) + ' , ' 16 return str_data 17 18#出力データ 19output_data = [] 20output_data.append(['検索順位', 'TITLEタグ', 'H1タグ', 'H2タグ', 'H3タグ', '記事文字数']) 21 22#キーワードの指定 23list_keyword = ['Python', 'スクレイピング'] 24 25#検索順位取得処理 26if list_keyword: 27 #Google検索の実施 28 search_url = 'https://www.google.co.jp/search?hl=ja&num=10&q=' + ' '.join(list_keyword) 29 res_google = requests.get(search_url) 30 res_google.raise_for_status() 31 32 #BeautifulSoupで掲載サイトのURLを取得 33 bs4_google = bs4.BeautifulSoup(res_google.text, 'html.parser') 34 link_google = bs4_google.select('div > h3.r > a') 35 for i in range(len(link_google)): 36 #なんか変な文字が入るので除く 37 site_url = link_google[i].get('href').split('&sa=U&')[0].replace('/url?q=', '') 38 if 'https://' in site_url or 'http://' in site_url: 39 #サイトの内容を解析 40 try: 41 res_site = requests.get(site_url) 42 res_site.encoding = res_site.apparent_encoding 43 except: 44 continue 45 bs4_site = bs4.BeautifulSoup(res_site.text, 'html.parser') 46 47 #データを初期化 48 title_site = '' 49 h1_site = '' 50 h2_site = '' 51 h3_site = '' 52 mojisu_site = 0 53 54 #データを取得 55 if bs4_site.select('title'): 56 title_site = replace_n(bs4_site.select('title')[0].getText()) 57 if bs4_site.select('h1'): 58 h1_site = concat_list(bs4_site.select('h1')) 59 if bs4_site.select('h2'): 60 h2_site = concat_list(bs4_site.select('h2')) 61 if bs4_site.select('h3'): 62 h3_site = concat_list(bs4_site.select('h3')) 63 if bs4_site.select('body'): 64 mojisu_site = len(bs4_site.select('body')[0].getText()) 65 66 #データをリストに入れておく 67 output_data_new = i+1, title_site, h1_site, h2_site, h3_site, mojisu_site 68 output_data.append(output_data_new) 69 70#CSVファイルに出力する 71now = datetime.datetime.now() 72mojiretsu = ','.join(list_keyword) 73csv_file = open('[' + mojiretsu + ']' + '{0:%Y%m%d%H%M%S}'.format(now) + '.csv', 'w', encoding='UTF-8') 74csv_writer = csv.writer(csv_file, lineterminator='\n') 75for j in range(len(output_data)): 76 csv_writer.writerow(output_data[j]) 77csv_file.close()
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/05/30 14:02