質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.82%

Pythonでスクレイピング。CSVに出力できません。

解決済

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 907

majomajo

score 7

前提・実現したいこと

https://icedog-works.com/python-scraping

上記のページに掲載されている内容と同じことができるようになりたいです。

発生している問題・エラーメッセージ

デスクトップに「Python」フォルダを作り、上記サイトで紹介されているコードをコピペして「script.py」を作りました。

pip install requests
pip install beautifulsoup4
pip install lxml

↑順番にコマンドに入力して「script.py」を動かすと「[Python,スクレイピング]20190530193223.csv」のファイルができたのですが、一番上に「検索順位,TITLEタグ,H1タグ,H2タグ,H3タグ,記事文字数」の行しか書かれていませんでした。

エラーのメッセージはありません(たぶん...)
何が原因でしょうか。

補足情報

使っているPCはwindowsです。

import sys
import requests
import bs4
import datetime
import csv

#置換用
def replace_n(str_data):
    return str_data.replace('\n', '').replace('\r', '')

#コンカチ用
def concat_list(list_data):
    str_data = ''
    for j in range(len(list_data)):
        str_data = str_data + replace_n(list_data[j].getText()) + ' , '
    return str_data

#出力データ
output_data = []
output_data.append(['検索順位', 'TITLEタグ', 'H1タグ', 'H2タグ', 'H3タグ', '記事文字数'])

#キーワードの指定
list_keyword = ['Python', 'スクレイピング']

#検索順位取得処理
if list_keyword:
    #Google検索の実施
    search_url = 'https://www.google.co.jp/search?hl=ja&num=10&q=' + ' '.join(list_keyword)
    res_google = requests.get(search_url)
    res_google.raise_for_status()

    #BeautifulSoupで掲載サイトのURLを取得
    bs4_google = bs4.BeautifulSoup(res_google.text, 'html.parser')
    link_google = bs4_google.select('div > h3.r > a')
    for i in range(len(link_google)):
        #なんか変な文字が入るので除く
        site_url = link_google[i].get('href').split('&sa=U&')[0].replace('/url?q=', '')
        if 'https://' in site_url or 'http://' in site_url:
            #サイトの内容を解析
            try:
                res_site = requests.get(site_url)
                res_site.encoding = res_site.apparent_encoding
            except:
              continue
            bs4_site = bs4.BeautifulSoup(res_site.text, 'html.parser')

            #データを初期化
            title_site = ''
            h1_site = ''
            h2_site = ''
            h3_site = ''
            mojisu_site = 0

            #データを取得
            if bs4_site.select('title'):
                title_site = replace_n(bs4_site.select('title')[0].getText())
            if bs4_site.select('h1'):
                h1_site = concat_list(bs4_site.select('h1'))
            if bs4_site.select('h2'):
                h2_site = concat_list(bs4_site.select('h2'))
            if bs4_site.select('h3'):
                h3_site = concat_list(bs4_site.select('h3'))
            if bs4_site.select('body'):
                mojisu_site = len(bs4_site.select('body')[0].getText())

            #データをリストに入れておく
            output_data_new = i+1, title_site, h1_site, h2_site, h3_site, mojisu_site
            output_data.append(output_data_new)

#CSVファイルに出力する
now = datetime.datetime.now()
mojiretsu = ','.join(list_keyword)
csv_file = open('[' + mojiretsu + ']' + '{0:%Y%m%d%H%M%S}'.format(now) + '.csv', 'w', encoding='UTF-8')
csv_writer = csv.writer(csv_file, lineterminator='\n')
for j in range(len(output_data)):
    csv_writer.writerow(output_data[j])
csv_file.close()
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

0

link_google = bs4_google.select('div > h3.r > a')
で、link_googleが帰っていないようです。
selectとbs4_googleを見直してみてはいかがでしょうか。

https://jitekineko.com/tips-python-seo-search/
あなたが作成したコードではなく、こちらのページほぼそのままなんですね。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/05/30 23:02

    ありがとうございます。

    >あなたが作成したコードではなく、こちらのページほぼそのままなんですね。
    はい。オンライン学習サービスで基礎を学んだだけなので、何か実際に動くものを、と思ったのですが、躓いてしまいました。

    selectとbs4_googleについて調べてみます。
    ありがとうございました。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.82%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る