質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.35%

[python]順番にスクレイピングしたい

解決済

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 1,642

Dadada_c.

score 56

pythonでのスクレイピング

初歩的な質問ですみません…。
inputで数値を取り、その数値に+1してURLを生成して順番にスクレイピングしたいです。
が…。。同じURLばかり取得してしまいます。。
凡ミスだとは理解しているのですがいっこうに解決せずやむを得ずご質問させて頂きました。
何卒宜しくお願い致します。。

import urllib.request, urllib.error
import csv
from bs4 import BeautifulSoup
from time import sleep

if __name__ == '__main__':
    N = input('PLEASE ENTER PAGENATIONS:')
    pagenation = int(N)
    url = input('PLEASE ENTER URL:')#https://www.superdelivery.com/p/do/dpsl/78344/
    BT = 2

    for i in range(1,pagenation+1): #元for i in range(N)

        sleep(BT)#アクセスが多くなりすぎないように時間を開ける
        #pの値をfor文で変える

        url_k = url + str(i).strip()
        print(url_k)

        html = urllib.request.urlopen(url_k).read()
        soup = BeautifulSoup(html, 'lxml')
        title = soup.findAll('div' , class_='item-name')
        a_url = soup.findAll('div' , class_='item-name')

        for f in a_url:
            for link in f.findAll('a'):

                all_link =  'https://www.superdelivery.com' + link.attrs['href']

                with open('sd.txt' , 'a') as f:
                    writer = csv.writer(f,lineterminator='\n')
                    writer.writerow([all_link])
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

0

こんな感じでしょうか?

import csv
import time
import urllib

from bs4 import BeautifulSoup

url_prefix = 'https://www.superdelivery.com/p/do/dpsl/78344/'  # 取得先URL
num_pages = 5  # 取得ページ数
request_interval = 1  # ページ取得間隔

item_list = []
for i in range(1, num_pages + 1):
    url = urllib.parse.urljoin(url_prefix, str(i))
    print('getting page... ', url)

    html = urllib.request.urlopen(url).read()
    soup = BeautifulSoup(html, 'lxml')
    # 自分の環境では、lxml が使えなかったので、以下の 'html.parser' を使いました。
    # soup = BeautifulSoup(html, 'html.parser')
    a_elems = soup.select('div.item-name > a')

    for a_elem in a_elems:
        item_url = urllib.parse.urljoin('https://www.superdelivery.com', a_elem.get('href'))
        item_title = a_elem.string.strip()
        item_list.append([item_title, item_url])

    time.sleep(request_interval)  # ページ取得間隔を調整する。

print(item_list[0])
# '巻き爪ケアテープ<巻き爪シール\u3000ケア>', 'https://www.superdelivery.com/p/r/pd_p/3660784/']

with open('item_list.csv', 'w', encoding='utf-8') as f:
    writer = csv.writer(f)
    writer.writerow(['商品名', 'URL'])  # ヘッダーを書き込む。
    writer.writerows(item_list)  # データを書き込む。

CSV の中身

商品名,URL
巻き爪ケアテープ<巻き爪シール ケア>,https://www.superdelivery.com/p/r/pd_p/3660784/
使い捨てお掃除手袋 20枚入     <Disposable cleaning glove mop>,https://www.superdelivery.com/p/r/pd_p/5861647/
消しゴム型コゲ落とし<BURNT STAIN ERASER>,https://www.superdelivery.com/p/r/pd_p/6277645/
お直し不要 <Size Adjuster>,https://www.superdelivery.com/p/r/pd_p/5411289/
ジェット水流でラクラク風呂掃除 <washer shower head>,https://www.superdelivery.com/p/r/pd_p/4685936/
排水管とまってキレイ 4錠入BP,https://www.superdelivery.com/p/r/pd_p/5645044/
ゴキよけゲル<害虫 虫よけ>,https://www.superdelivery.com/p/r/pd_p/4208287/
洗濯槽カビおちーる NEO ドラム式専用,https://www.superdelivery.com/p/r
...

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/10/03 06:26

    ありがとうございました!うまくいきました!
    今まで僕がやっていたやり方よりきれいでとても勉強になりました!
    これからも励んでいきたいと思いますのでまたご指導お願いします!!

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.35%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る