python BeautifulSoupでのURLを収集にあたり、ドメインまでに指定するコードは

表題の件、ご教示いただきたく投稿します

import requests as web
import bs4
import csv

list_keywd = ['検索語①','検索語②','検索語③']
resp = web.get('https://www.google.co.jp/search?num=100&q=' + '　'.join(list_keywd))
resp.raise_for_status()

soup = bs4.BeautifulSoup(resp.text, "html.parser")

link_elem01 = soup.select('.r > a')

link_elem02 = soup.select('.s > .st')

if(len(link_elem02) <= len(link_elem01)):
    leng = len(link_elem02)
else:
    leng = len(link_elem01)    

with open('vvv.csv','w',newline='',encoding='utf8') as outcsv:
    csvwriter = csv.writer(outcsv)
    csvwriter.writerow(['タイトル・説明','URL'])
    for i in range(leng):
        
        url_text = link_elem01[i].get('href').replace('/url?q=','')
        
        title_text = link_elem01[i].get_text()
        
        t01 = link_elem02[i].get_text()
        t02 = t01.replace('\n','')
        disc_text = t02.replace('\r','')
        csvwriter.writerow([title_text + disc_text,url_text])
    outcsv.close()

webスクレイピングをするため
このコードで収集できるURLをドメインまでの情報になるよう組みたいです
よろしくお願いします

行動規範の内容に同意します

回答1件

ベストアンサー

urllib.parse で　URL を解析し、ドメイン名部分だけ取り出しましょう。

変更箇所

from urllib.parse import urlparse
parsed_url = urlparse(url_text)
base_url = '{0.scheme}://{0.netloc}/'.format(parsed_url)

コード全体

python
1import requests as web
2import bs4
3import csv
4
5list_keywd = ['検索語①','検索語②','検索語③']
6resp = web.get('https://www.google.co.jp/search?num=100&q=' + '　'.join(list_keywd))
7resp.raise_for_status()
8
9soup = bs4.BeautifulSoup(resp.text, "html.parser")
10
11link_elem01 = soup.select('.r > a')
12
13link_elem02 = soup.select('.s > .st')
14
15if(len(link_elem02) <= len(link_elem01)):
16    leng = len(link_elem02)
17else:
18    leng = len(link_elem01)    
19
20with open('vvv.csv','w',newline='',encoding='utf8') as outcsv:
21    csvwriter = csv.writer(outcsv)
22    csvwriter.writerow(['タイトル・説明','URL'])
23    for i in range(leng):
24
25        url_text = link_elem01[i].get('href').replace('/url?q=','')
26        
27        from urllib.parse import urlparse
28        parsed_url = urlparse(url_text)
29        base_url = '{0.scheme}://{0.netloc}/'.format(parsed_url)
30
31        title_text = link_elem01[i].get_text()
32
33        t01 = link_elem02[i].get_text()
34        t02 = t01.replace('\n','')
35        disc_text = t02.replace('\r','')
36        csvwriter.writerow([title_text + disc_text, base_url])
37    outcsv.close()

結果

https://www.ginzametrics.jp/
https://www.seohacks.net/
http://www.xlisting.co.jp/
https://teratail.com/
https://www.synergy-marketing.co.jp/
https://books.google.co.jp/
https://books.google.co.jp/
http://aramakijake.jp/
http://ahrefs.jp/
https://books.google.co.jp/
https://books.google.co.jp/
https://seopack.jp/
https://www.cyber-records.co.jp/
http://www2.dent.nihon-u.ac.jp/
https://liskul.com/
https://www.allegro-inc.com/

投稿2018/10/15 07:26

編集2018/10/15 07:44