質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.49%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

3回答

581閲覧

[python]スクレイピングで取得できない

Dadada_c.

総合スコア59

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2018/08/07 08:09

#URLリストを読み込みスクレイピングしたい

いつもお世話になっております!
下記のコードでスクレイピングしたいのですがデータが出力されません。
別のサイトのデータをとってきたときはいけたのですが…
リストも読込みますし、エラーも出ないため解決方法がわからず質問させて頂きました。
宜しくお願い致します。

python

1from bs4 import BeautifulSoup 2 3with open('sd.txt') as f: 4 for line in f.readlines(): 5 target_url = line.strip() 6 print(target_url) 7 8 9 html = urllib.request.urlopen(target_url).read() 10 soup = BeautifulSoup(html, 'lxml') 11 12 title = soup.findAll('span' , class_='product-name') 13 imgage = soup.findAll('div' , id_='thumbnail_0') 14 15 for f in imgage: 16 for link in f.findAll('img'): 17 imgoutput = link.attrs['src'] 18 19 with open('sd_img.csv','a', encoding='cp932' ,newline='') as f: 20 writer = csv.writer(f) 21 writer.writerow([title , imgoutput]) 22

text

1https://www.superdelivery.com/p/r/pd_p/4444756/ 2https://www.superdelivery.com/p/r/pd_p/4992513/ 3https://www.superdelivery.com/p/r/pd_p/4374220/ 4https://www.superdelivery.com/p/r/pd_p/5781450/ 5https://www.superdelivery.com/p/r/pd_p/5781475/

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

m.ts10806

2018/08/07 21:34

回答依頼いただいて申し訳ないのですが、Pythonはほぼ未経験のため・・。
Dadada_c.

2018/08/07 21:35

すみません><ありがとうございます!失礼しました。。
m.ts10806

2018/08/07 21:39

いえいえ。主にPHP(時々Java)ですが、JavaScriptとかフロントエンド技術が絡んでいれば回答できることもありますので、そういうときはどこかで力になれるかもしれません。
Dadada_c.

2018/08/07 21:40

ありがとうございます!node.jsも勉強中です。またその際は、よろしくお願いします!
guest

回答3

0

imgage = soup.findAll('div' , id_='thumbnail_0')

の行は

imgage = soup.findAll('div' , id='thumbnail_0')

の間違いではないでしょうか

投稿2018/08/07 23:57

magichan

総合スコア15898

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Dadada_c.

2018/08/09 00:45

お返事が遅くなり申し訳ありません。いつもありがとうございます!解決しました!
guest

0

ベストアンサー

◇デバックの仕方。
どこまで正しく処理が行えているのかをprint文で変数の内容を確認しながら実行します。

今回確認すべき内容は実際に正しくコンテンツを取得できているか、各ループに入っているこの2点です。
コンテンツが取得できているかどうかはprint(html)を実行すれば分かります。
ループに入っているかどうかはprint文をループ内に置けば確認できます。

Python

1for f in imgage: 2 print(f)

diff

1-imgage = soup.findAll('div' , id_='thumbnail_0') 2+imgage = soup.findAll('div' , id='thumbnail_0')

class__が付いて、なぜidには_が付かないかと云うと、
Pythonの予約語としてclassがあるからです。

ファイルから対象のURLを取得する部分も改造してこんな感じになります。ご参考まで

Python

1# -*- coding: utf-8 -*- 2from bs4 import BeautifulSoup 3import urllib 4import csv 5 6 7def scraping_urls(): 8 with open('sd.txt') as f: 9 for line in f.readlines(): 10 yield line.strip() 11 12 13for target_url in scraping_urls(): 14 print(target_url) 15 html = urllib.request.urlopen(target_url).read() # .decode('utf-8') 16 soup = BeautifulSoup(html, 'lxml') 17 title = soup.findAll('span', class_='product-name') 18 imgage = soup.findAll('div', id='thumbnail_0') 19 for f in imgage: 20 for link in f.findAll('img'): 21 print(link.attrs['src']) 22 imgoutput = link.attrs['src'] 23 24 with open('sd_img.csv', 'a', encoding='cp932', newline='') as f: 25 writer = csv.writer(f) 26 writer.writerow([title, imgoutput]) 27 28

◇デバック方法を体系的に学ぶには
udacityの無料コースのSoftware Debugging Class Onlineがお勧めです。

投稿2018/08/08 00:02

umyu

総合スコア5846

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Dadada_c.

2018/08/09 00:45

お返事が遅くなり申し訳ありません。解決しました!そういうことですね。。読み込んでいても、取得できなければ無視するなどの工程をまだ作れずにいます。。もっと勉強したいと思います。ありがとうございました !今後ともよろしくお願い致します!
guest

0

別のサイトのデータをとってきたときはいけたのですが…

今はデータをとれてきていたサイトとは別のサイトから、画像データとページのタイトルをとってこようとされている、ということで間違いないでしょうか?

BeautifulSoupのfindAllの第2引数(id名やclass名)の再確認はされたでしょうか?

投稿2018/08/07 10:20

退会済みユーザー

退会済みユーザー

総合スコア0

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Dadada_c.

2018/08/07 21:31

ご回答ありがとうございます。はい。ご認識の通りです。第2引数は再確認しております。 何卒よろしくお願い致します。
退会済みユーザー

退会済みユーザー

2018/08/07 23:31

コメントで質問するつもりが、回答欄に投稿してしまいました!すみません! たしかに、取得先のページを確認したところ、タグ等の指定には問題がないように思います。 申し訳ないですが、私ではお力になれそうにないです……
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.49%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問