スクレイピング　URLをリストに入れる

前提・実現したいこと

pythonでコミックの発売日・値段・タイトルをスクレイピングしてそれをTSVファイルにするシステムを作っています。
リストにコミックのURLを入れる機能を実装中にうまくいきませんでした。
リストの中にコミックのURLが入っていませんでした。
リストの中にURLを入れる方法を教えていただけないでしょうか？

発生している問題・エラーメッセージ

該当のソースコード

import requests
from bs4 import BeautifulSoup
from selenium import webdriver

res = requests.get('https://www.shueisha.co.jp/')
html_doc = res.text
soup = BeautifulSoup(html_doc, 'html.parser')
div_book_list = soup.find('div', class_='wrap-issue-content')


import requests
from bs4 import BeautifulSoup
from selenium import webdriver

res = requests.get('https://www.shueisha.co.jp/')
html_doc = res.text
soup = BeautifulSoup(html_doc, 'html.parser')
div_book_list = soup.find('div', class_='wrap-issue-content')
import requests
from bs4 import BeautifulSoup
from selenium import webdriver

res = requests.get('https://www.shueisha.co.jp/')
html_doc = res.text
soup = BeautifulSoup(html_doc, 'html.parser')
div_book_list = soup.find('div', class_='wrap-issue-content')
book_urls = []
a_tags = div_book_list.find_all('a')
for a_tag in a_tags:
    if a_tag['href'] not in book_urls:
        book_urls.append(a_tag['href'])

def get_book_info(book_url):
    res = requests.get(book_url)
    html_doc = res.text
    soup = BeautifulSoup(html_doc, 'html.parser')
    
    div_book_detail = soup.find('h1', class_='bktitle')
    
    book_title = div_book_detail.find('b')
    
    book_datas = soup.find('li', class_='current-kamidigi')
    
    book_data = book_datas.find_all('p')
    
    return [
        book_title.get_text(), 
        [b.get_text() for b in book_data], 
    ]

get_book_info('http://books.shueisha.co.jp/items/contents.html?isbn=978-4-08-882894-7')

import time

book_info_list = []
for book_url in book_urls:
    print('スクレイピング中: ', book_url)
    book_info_list.append(get_book_info(book_url))
    time.sleep(1)
print('完了')

試したこと

「python　スクレイピング URL」などと調べてみましたが疑問に対するものはありませんでした。

補足情報（FW/ツールのバージョンなど）

ここにより詳細な情報を記載してください。

melian

2022/01/26 09:11

https://books.shueisha.co.jp/comics/index.html に表示されているコミックの情報ですか？

行動規範の内容に同意します

回答2件

ベストアンサー

コミックスTOP | 集英社の本公式の場合、ページの HTML ソースを見ますとコミックの情報が JavaScript の変数として埋め込まれている事が判ります。

javascript
1var ssd = {"count":158,"datas":[{"genre_datas":["コミックス","マーガレットコミックス"],"release_date":"2022-01-25","item_datas":[{"classification_datas":["少女・女性"],"classification_bit":2,"ssid":"10106147","isbn":"978-4-08-844619-6","jdcn":null,"label_name":"マーガレットコミックス","item_name":"これは経費で落ちません！ 8 ～経理部の森若さん～","author_name_datas":["森 こさち","青木 祐子"], ...

なので、この JSON 形式のデータからコミックの発売日・値段・タイトルなどが判る事になります。

python
1import requests
2import re
3import json
4import sys
5import csv
6
7r = requests.get('https://books.shueisha.co.jp/comics/index.html')
8m = re.search(r'var ssd = ({.+});', r.text)
9if m:
10    json_text = m.group(1)
11    json_dict = json.loads(json_text)
12else:
13    sys.exit(1)
14
15comic_url = 'https://books.shueisha.co.jp/items/contents.html?isbn='
16def comic_price(isbn):
17    r = requests.get(comic_url + isbn)
18    m = re.search(r'var ssd = ({.+});', r.text)
19    if m:
20        json_text = m.group(1)
21        json_dict = json.loads(json_text)
22        return f"{json_dict['datas'][0]['price']} 円(税込み)"
23    else:
24        return ''
25
26lst = []
27for j in json_dict['datas']:
28    release_date = j['release_date']
29    for d in j['item_datas']:
30        price = comic_price(d['isbn'])
31        lst.append([
32            d['item_name'],
33            ', '.join(d['author_name_datas']),
34            release_date, price])
35
36with open('comic_list.tsv', 'w') as f:
37    writer = csv.writer(f, delimiter='\t', lineterminator='\n')
38    writer.writerow(['タイトル', '著者', '発売日', '値段'])
39    writer.writerows(lst)

comic_list.tsv

タイトル	著者	発売日	値段
これは経費で落ちません！ 8 ～経理部の森若さん～	森こさち, 青木祐子	2022-01-25	506 円(税込み)
ふたりで恋をする理由 9	ひろちひろ	2022-01-25	484 円(税込み)
モジコイネネコイ 8	佐藤ざくり	2022-01-25	506 円(税込み)
今、恋をしています。 6	八田鮎子	2022-01-25	484 円(税込み)
かわいすぎる男子がお家で待っています 7	高瀬わか	2022-01-25	660 円(税込み)
:	:	:	:
腹腹先生 1	高口楊	2021-12-03	693 円(税込み)
るろうに剣心第1話複製原稿BOX 剣×心	和月伸宏	2021-12-03	17600 円(税込み)
BLEACH Brave Souls Official Artworks	久保帯人	2021-12-03	4620 円(税込み)
ドラゴンクエストダイの大冒険オフィシャルファンブック	稲田浩司, 三条陸, 堀井雄二	2021-12-03	1100 円(税込み)
ONE PIECE magazine Vol.13	尾田栄一郎	2021-12-02	1200 円(税込み)

投稿2022/01/27 05:57

melian

総合スコア19798

退会済みユーザー

2022/01/30 06:54

すいません、初心者なものでこのコードの意味がわかりません。なぜこのようなコードになったか教えていただけないでしょうか。

行動規範の内容に同意します

リストの中にコミックのURLが入っていませんでした。

htmlを見てみると、wrap-issue-contentは一つしかなく、以下のものです。

HTML
1			<div class="wrap-issue-content">
2				<ul class="list-issue"></ul>
3			</div>

この中にはaタグはないので、a_tags = div_book_list.find_all('a')は空リストになります。

リストの中にURLを入れる方法を教えていただけないでしょうか？

wrap-issue-contentではなくwrap-issue-category-detailのほうを見るのですが、その中のaタグはjavascriptになっているので、requestsとBeautifulSoupでは無理です。
seleniumを勉強してください。

投稿2022/01/26 09:09

ppaul

総合スコア24666

退会済みユーザー

2022/01/26 10:28

seleniumでやるときのコードのヒントを教えていただけないでしょうか。

ppaul

2022/01/26 12:08

スクレイピングするときは、そのページのソース、つまりHTMLを読みましょう。HTMLを読まずにスクレイピングするには、他の誰かが作ったそのページに対するコードをコピペするしかありません。しかし、数か月以内に対象ページのHTMLが変わり、使えなくなりあます。ページの変化に対応するにはHTMLを読むしかありません。 Seleniumについては以下をお読みください。 https://kurozumi.github.io/selenium-python/index.html

行動規範の内容に同意します

あなたの回答