「プログラミング 言語」などで検索した際、検索結果に表示されるサイトのURLを、1ページ目からMAX10ページ目まで、一括取得したいです。
・Google Colaboratoryを使用します
・Googleパターン、Yahoo!パターンの両方のコードを知りたいです
・最終的には、取得したURL一覧をCSVやtxtファイルでエクスポートしたいです
※一旦、Googleバージョンのコードを、調べながら作ってみましたが、
Google Colaboratory上で動作しませんでした、、修正点などご教示いただきたいです。
python
1#タイトルストリング取得 URL取得 2# coding: UTF-8 3from bs4 import BeautifulSoup 4import requests 5from google.colab import files 6 7# アクセスするURL 8url = "https://www.google.com/search?q=プログラミング 言語" 9 10# htmlを取得、BeautifulSoupで扱う 11 12r = requests.get(url) 13soup = BeautifulSoup(r.content, 'html.parser') # BeautifulSoupの初期化 14 15tags = soup.find_all("a") 16for tag in tags: 17 print(tag.get("href"))
お手すきでご回答お願いいたします!
> Google、Yahoo!の検索結果に表示されるサイトの、リンク先URLを一括抽出するコードを教えて下さい。
対象サイトはスクレイピングが禁止されているかと思いますが利用規約を確認の上の投稿でしょうか?
あなたの回答
tips
プレビュー