質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.49%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

1回答

1779閲覧

python BeautifulSoupでのURLを収集にあたり、ドメインまでに指定するコードは

sadie

総合スコア18

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

1クリップ

投稿2018/10/15 07:17

表題の件、ご教示いただきたく投稿します

import requests as web import bs4 import csv list_keywd = ['検索語①','検索語②','検索語③'] resp = web.get('https://www.google.co.jp/search?num=100&q=' + ' '.join(list_keywd)) resp.raise_for_status() soup = bs4.BeautifulSoup(resp.text, "html.parser") link_elem01 = soup.select('.r > a') link_elem02 = soup.select('.s > .st') if(len(link_elem02) <= len(link_elem01)): leng = len(link_elem02) else: leng = len(link_elem01) with open('vvv.csv','w',newline='',encoding='utf8') as outcsv: csvwriter = csv.writer(outcsv) csvwriter.writerow(['タイトル・説明','URL']) for i in range(leng): url_text = link_elem01[i].get('href').replace('/url?q=','') title_text = link_elem01[i].get_text() t01 = link_elem02[i].get_text() t02 = t01.replace('\n','') disc_text = t02.replace('\r','') csvwriter.writerow([title_text + disc_text,url_text]) outcsv.close()

webスクレイピングをするため
このコードで収集できるURLをドメインまでの情報になるよう組みたいです
よろしくお願いします

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

urllib.parse で URL を解析し、ドメイン名部分だけ取り出しましょう。

変更箇所

from urllib.parse import urlparse parsed_url = urlparse(url_text) base_url = '{0.scheme}://{0.netloc}/'.format(parsed_url)

コード全体

python

1import requests as web 2import bs4 3import csv 4 5list_keywd = ['検索語①','検索語②','検索語③'] 6resp = web.get('https://www.google.co.jp/search?num=100&q=' + ' '.join(list_keywd)) 7resp.raise_for_status() 8 9soup = bs4.BeautifulSoup(resp.text, "html.parser") 10 11link_elem01 = soup.select('.r > a') 12 13link_elem02 = soup.select('.s > .st') 14 15if(len(link_elem02) <= len(link_elem01)): 16 leng = len(link_elem02) 17else: 18 leng = len(link_elem01) 19 20with open('vvv.csv','w',newline='',encoding='utf8') as outcsv: 21 csvwriter = csv.writer(outcsv) 22 csvwriter.writerow(['タイトル・説明','URL']) 23 for i in range(leng): 24 25 url_text = link_elem01[i].get('href').replace('/url?q=','') 26 27 from urllib.parse import urlparse 28 parsed_url = urlparse(url_text) 29 base_url = '{0.scheme}://{0.netloc}/'.format(parsed_url) 30 31 title_text = link_elem01[i].get_text() 32 33 t01 = link_elem02[i].get_text() 34 t02 = t01.replace('\n','') 35 disc_text = t02.replace('\r','') 36 csvwriter.writerow([title_text + disc_text, base_url]) 37 outcsv.close()

結果

https://www.ginzametrics.jp/ https://www.seohacks.net/ http://www.xlisting.co.jp/ https://teratail.com/ https://www.synergy-marketing.co.jp/ https://books.google.co.jp/ https://books.google.co.jp/ http://aramakijake.jp/ http://ahrefs.jp/ https://books.google.co.jp/ https://books.google.co.jp/ https://seopack.jp/ https://www.cyber-records.co.jp/ http://www2.dent.nihon-u.ac.jp/ https://liskul.com/ https://www.allegro-inc.com/

投稿2018/10/15 07:26

編集2018/10/15 07:44
tiitoi

総合スコア21956

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

sadie

2018/10/15 07:40

早速のご教示、ありがとうございます 出したい出力を得ることができました 感謝いたします ありがとうございました
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.49%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問