pythonにおけるスクレイピングで複数ページを取得

前提・実現したいこと

pythonのbeautifulsoup のスクレイピング機能を使って、複数ページあるサイトのテキスト情報を取得し、csvファイルに書き込みたいと考えています。

発生している問題・エラーメッセージ

発生している問題として、各ページの最後のテキストの対応して書き出してしまっており、一覧の取得ができていません。
簡略化してサイト構造を示すと、以下のようになります。

html
1    <div class="media_heading">取得したいテキスト1-1</div>
2    <div class="media_body"><p>取得したいテキスト1-2</p></div>
3
4    <div class="media_heading">取得したいテキスト2-1</div>
5    <div class="media_body"><p>取得したいテキスト2-2</p></div>
6~~~~~~~~~~これが続いています~~~~~~~~~~
7    <div class="media_heading">取得したいテキスト20-1</div>
8    <div class="media_body"><p>取得したいテキスト20-2</p></div>
9

hogehoge.com/p=1 をforで回して　p=8まで取得した場合、csvファイルは

20-1,20-2（p=1の20-1,20-2)
20-1,20-2（p=2の20-1,20-2）

という感じで8行分出力されてしまいます。
いろいろなサイトを参考にしながら作っているので、キメラ的になり、ほかにもおかしいところや迷惑をかけてしまうところがございましたらお教えください。

該当のソースコード

python
1import requests
2import bs4
3import csv
4import time
5
6html = "hogehoge.com/p="
7with open('output.csv', 'a') as fw:
8    writer = csv.writer(fw, lineterminator='\n')
9
10    for i in range(1,9):
11        res = requests.get(html + str(i), timeout = 30)
12
13        res.raise_for_status()
14        soup = bs4.BeautifulSoup(res.text,"html.parser")
15        elems = soup.select('.media_heading')
16
17        for elem in elems:
18            name = elem.getText()
19            time.sleep =(1)
20            
21        body_elems = soup.select('.media_body')
22        for body_elem in body_elems:    
23            body = body_elem.getText()
24            time.sleep =(1)
25        writer.writerow([name, body])
26
27    else:
28        print("finish")

行動規範の内容に同意します

回答2件

pythonはWindowsでしょうか

RequestsとBeautiful Soupでのスクレイピング時に文字化けを減らす。
https://orangain.hatenablog.com/entry/encoding-in-requests-and-beautiful-soup

soup = bs4.BeautifulSoup(res.content,"html.parser")

UnicodeEncodeError: 'cp932' codec can't encode characterが発生したら（Python)
http://techtechfactory.hatenablog.com/entry/2018/02/16/200300

WindowsでCP932(Shift-JIS)エンコード以外のファイルを開くのに苦労した話
https://qiita.com/butada/items/33db39ced989c2ebf644

csvをexcelで開くのでしたらencoding="utf-8_sig"にするといいようです。

投稿2018/07/04 07:40

barobaro

総合スコア1286

nameとbodyの結果がforの間上書きされて最後の一つしか残っていません。
内包表記になりますがそれぞれリストで結果を受け取り最後にnameとbodyを結合するといいと思います。

python
1name = [elem.getText(strip=True) for elem in soup.select('.media_heading')]
2body = [body_elem.getText(strip=True) for body_elem in soup.select('.media_body')]
3
4result = [[name_, body_[] for name_, body_ in zip(name, body)]
5
6writer.writerows(result)
7
8time.sleep(1)

投稿2018/07/03 04:55

barobaro

総合スコア1286

Sunkaze

2018/07/04 01:25

回答ありがとうございます。こちらで動作させてみたところ、あるページでは機能しました。誠にありがとうございます。早速、別のページに適用させようとしたところ、以下のようなエラーが発生しました。 ---> 15 writer.writerows(result) UnicodeEncodeError: 'cp932' codec can't encode character '\xa0' in position 88: illegal multibyte sequence unicodeencodeerrorエラーということで、with open の部分でencoding="utf-8"を指定したら解決するか、と思ったのですが、文字化けを起こしてしまいます。こちらの対応ももしおわかりでしたら、お教え願えれば幸いです。

行動規範の内容に同意します

あなたの回答