前提実現したいこと

pythonで外務省のサイトをスクレイピングして
SDGs推進企業の一覧をグーグルスプレッドシートに
「企業名」「企業サイトURL」を取得したいです。
別スレッドにて回答者様が
①スプレッドシートの関数を使用した方法
②Pythonでまとめてupdate_cellsを行う方法
の2点を回答いただきました。
①では全て取得できましたが、②は4件htmlが少し異なるため取得できませんでした。
②では194件全て取得できるようにしたいです。

発生している問題

別スレッドにて収集な回答者様が
①スプレッドシートの関数を使用した方法
②Pythonでまとめてupdate_cellsを行う方法
の2点を回答いただきました。
①では全て取得できましたが、②は4件htmlが少し異なるため取得できませんでした。
②では194件全て取得できるようにしたいです。

#該当のソースコード

import requests
from bs4 import BeautifulSoup
import gspread
from oauth2client.service_account import ServiceAccountCredentials

scope = []
credentials = ServiceAccountCredentials.from_json_keyfile_name('*****', scope)
gs = gspread.authorize(credentials)
wks = gs.open('').sheet1

a = 2
r = requests.get(r"https://www.mofa.go.jp/mofaj/gaiko/oda/sdgs/case/org1.html")
soup = BeautifulSoup(r.content,"html.parser")
data = [[i.get_text(strip=True), i.get("href")] for i in soup.select(".exlink")]

cell_data = sum(data, [])

cell_list = wks.range("C2:D200")

for cell, v in zip(cell_list, cell_data):
cell.value = v

wks.update_cells(cell_list)

#補足
下記の画像のようにhtmlの構成がことなります。
下のhtmlでは上記コードでは取得できません。

行動規範の内容に同意します

回答1件

ベストアンサー

CSSセレクタ部分は元のソースコードから変更してないのですが？
CSSセレクタ部分はご自分で勉強してください。

WebスクレイピングのためのChromeのツールの使い方
https://gammasoft.jp/support/using-chrome-tools-for-web-scraping/

python
1data = [[i.get_text(strip=True), i.get("href")] for i in soup.select("div.kana_line > ul > li > a")]

投稿2020/01/20 02:42

barobaro

総合スコア1286

hiroto_pythonma

2020/01/20 04:43

ありがとうございます。調べてできました。またよろしくお願いします。 data = [[i.get_text(strip=True), i.get("href")] for i in soup.find_all(target="_blank")]

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.29%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

Pythonでのスクレイピングで複数構成のhtmlも取得できるようにしたい

前提実現したいこと

発生している問題

関連した質問