質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.51%

  • Python

    11700questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

異なるwebページからの情報取得を一本化したい

解決済

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 677

Urubi

score 1

現在、Pythonを学習しています。
Google検索APIで「東京都 会社概要」と検索し、検索結果の各webページのURLを取得し、
それらのURL先をスクレイピングして会社概要を取得しようと考えています。
当たり前のことですが、各webページのhtmlの書き方が異なっているため、
上手く求めている情報を取得できません。
何かアイデアがあれば教えて頂きたいです。

下記の3つのコードを順に実行していて、2つ目のURLを取得するところまでは何とかなりました。
現在、3つ目のコードはとりあえずtableタグの情報を持ってきている状態です。

# googleAPI検索し、jsonファイルに出力
import json
import urllib.request
import urllib.parse
from urllib.request import urlopen
QUERY = u'会社概要+東京都'
key = 'KEY'
cx = 'CX'
NUM = 3
cseurl = 'https://www.googleapis.com/customsearch/v1?'
params = {
 'key': key,
  'q': QUERY,
  'cx': cx,
  'alt': 'json',
 'lr': 'lang_ja',
}
start = 1
f = open('result/GoogleResult.json', 'w')

for i in range(0, NUM):
    params['start'] = start
    req_url = cseurl + urllib.parse.urlencode(params)
    search_response = urllib.request.urlopen(req_url)
    search_results = search_response.read().decode("utf8")
    dump = json.loads(search_results)
    f.write(json.dumps(dump) + "\n")
    start = int(dump['queries']['nextPage'][0]['startIndex'])
f.close()
# google検索結果のjsonファイルからURL抽出
import re
read_file = open('result/GoogleResult.json', 'r')
resultFileData = read_file.read().replace(',', '\n')
read_file.close()
# URL抽出するための正規表現パターン
pattern = re.compile(r'"link":\s"http.+"')
link_urls = pattern.findall(resultFileData)
write_file = open('result/UrlList.txt', 'w')
for link_url in link_urls:
    geturl = link_url.replace("\"link\": \"", "").replace("\"", "")
    write_file.write(geturl + '\n')
write_file.close()
# URL先のtableタグを情報を取得
import csv
from bs4 import BeautifulSoup
urlfile = open('result/UrlList.txt', 'r')
urlrows = urlfile.readlines()
urlfile.close()

csvFile = open("result/url_file.csv", 'wt', newline='', encoding='utf-8')
for urlrow in urlrows:
    html = urlopen(urlrow)
    bsObj = BeautifulSoup(html)
    tables = bsObj.findAll("table")
    writer = csv.writer(csvFile)
    for table in tables:
    rows = table.findAll("tr")
        for row in rows:
            csvRow = []
            for cell in row.findAll(['td', 'th']):
                csvRow.append(cell.get_text())
                if len(csvRow) == 2:
                    writer.writerow(csvRow)
    writer.writerow("--------")
csvFile.close()
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

0

まず、回収したい会社概要の具体的な形をキチンと決める必要があります。
例えば、住所を回収したいなら、
そのURL内にある『住所や本社という単語を含むの要素』の中か後の『都道府県名が含まれる文字列』を回収するとかになるのでしょう。
資本金なら、『資本金という文字列を含む要素』の中か後にある『金額』という事になります。

しかし、このデータの回収方法では間違って回収することがあるため(例えば住所で~ビルまで回収できなかったとか資本金が多すぎる少なすぎるとか)、下手に公開すると『間違った情報を公開されて不利益が出た』と訴えられる可能性があるので、研究目的でご自身のみ閲覧可能とすることをおすすめします。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2016/06/15 17:26

    回答ありがとうございます。
    参考にしてもう少し仕様を明確にしてみます。

    キャンセル

同じタグがついた質問を見る

  • Python

    11700questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。