質問編集履歴

1000円以下の商品の価格が取得できなかったので修正したところ、10000文字を超えたので出力結果のURLを簡略化

2018/02/17 08:02

投稿

nokonoko_1203

スコア17

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -50,17 +50,6 @@
                 'url': item.find('detailpageurl').text
                 })
                 print("データをリストへ格納します: ", str(len(item_data)))
-            # for price in price_datas:
-            #     print(price.prettify())
-                # price = item.findAll("formattedprice").string
-                # price = price_data.contents[0]
-                # pprint.pprint(price.__dict__) #__dict__メソッドを覗く
-                # print("価格を取得しました: ", price)
-                # item_data.append({
-                # 'price': price,
-                # })
-                # print("データをリストへ格納します", item_data)
-            #return (soup.prettify())
         except HTTPError: #503エラーが出たら2秒後に再取得する
             print("再取得しています....")
             time.sleep(2)
@@ -127,9 +116,9 @@
 AttributeError: 'NoneType' object has no attribute 'contents'
 検索を終了します....
 リスト(1件のデータ)を出力します....
- [{'title': '独学プログラマー Python言語の基本から仕事のやり方まで', 'url': 'https://www.amazon.co.jp/%E7%8B%AC%E5%AD%A6%E3%83%97%E3%83%AD%E3%82%B0%E3%83%A9%E3%83%9E%E3%83%BC-Python%E8%A8%80%E8%AA%9E%E3%81%AE%E5%9F%BA%E6%9C%AC%E3%81%8B%E3%82%89%E4%BB%95%E4%BA%8B%E3%81%AE%E3%82%84%E3%82%8A%E6%96%B9%E3%81%BE%E3%81%A7-%E3%82%B3%E3%83%BC%E3%83%AA%E3%83%BC%E3%83%BB%E3%82%A2%E3%83%AB%E3%82%BD%E3%83%95/dp/4822292274?SubscriptionId=AKIAIOE4UGAEQ6QGR3RA&tag=nokonoko1200e-22&linkCode=xm2&camp=2025&creative=165953&creativeASIN=4822292274', 'asin': '4822292274', 'price': '￥ 2,376'}]
-[{'title': '独学プログラマー Python言語の基本から仕事のやり方まで', 'url': 'https://www.amazon.co.jp/%E7%8B%AC%E5%AD%A6%E3%83%97%E3%83%AD%E3%82%B0%E3%83%A9%E3%83%9E%E3%83%BC-Python%E8%A8%80%E8%AA%9E%E3%81%AE%E5%9F%BA%E6%9C%AC%E3%81%8B%E3%82%89%E4%BB%95%E4%BA%8B%E3%81%AE%E3%82%84%E3%82%8A%E6%96%B9%E3%81%BE%E3%81%A7-%E3%82%B3%E3%83%BC%E3%83%AA%E3%83%BC%E3%83%BB%E3%82%A2%E3%83%AB%E3%82%BD%E3%83%95/dp/4822292274?SubscriptionId=AKIAIOE4UGAEQ6QGR3RA&tag=nokonoko1200e-22&linkCode=xm2&camp=2025&creative=165953&creativeASIN=4822292274', 'asin': '4822292274', 'price': '￥ 2,376'}]
-[{'title': '独学プログラマー Python言語の基本から仕事のやり方まで', 'url': 'https://www.amazon.co.jp/%E7%8B%AC%E5%AD%A6%E3%83%97%E3%83%AD%E3%82%B0%E3%83%A9%E3%83%9E%E3%83%BC-Python%E8%A8%80%E8%AA%9E%E3%81%AE%E5%9F%BA%E6%9C%AC%E3%81%8B%E3%82%89%E4%BB%95%E4%BA%8B%E3%81%AE%E3%82%84%E3%82%8A%E6%96%B9%E3%81%BE%E3%81%A7-%E3%82%B3%E3%83%BC%E3%83%AA%E3%83%BC%E3%83%BB%E3%82%A2%E3%83%AB%E3%82%BD%E3%83%95/dp/4822292274?SubscriptionId=AKIAIOE4UGAEQ6QGR3RA&tag=nokonoko1200e-22&linkCode=xm2&camp=2025&creative=165953&creativeASIN=4822292274', 'asin': '4822292274', 'price': '￥ 2,376'}]
+ [{'title': '独学プログラマー Python言語の基本から仕事のやり方まで', 'url': 'https://...', 'asin': '4822292274', 'price': '￥ 2,376'}]
+[{'title': '独学プログラマー Python言語の基本から仕事のやり方まで', 'url': 'https://...', 'asin': '4822292274', 'price': '￥ 2,376'}]
+[{'title': '独学プログラマー Python言語の基本から仕事のやり方まで', 'url': 'https:...', 'asin': '4822292274', 'price': '￥ 2,376'}]
 データの取得に成功しました
  asin・商品名・URLを出力します
@@ -145,7 +134,7 @@
 追記：皆様のおかげで無事に解決できました！
 有難うございました！
-出来上がったコードを下に記載しておきます！
+出来上がったコードを下に記載しておきます！****
 ```python
 # -*- coding: utf-8 -*-
 import bottlenose
@@ -159,12 +148,12 @@
 from amazon_api import amazon
 item_data = []
-key = input("search? >>")
+key = "アフィリエイト" # input("search? >>")
 def getResponses():
     while len(item_data) < 10:
-        print("データの取得を開始します")
+        print("データを取得します...")
         try:
             # xmlでレスポンスを取得
             response = amazon.ItemSearch(
@@ -178,19 +167,32 @@
             # itemタグを子・孫要素全て含めてリストで取得
             items = soup.findAll("item")
             for item in items: # 商品情報を１件ずつ取り出す
-                # print(item.prettify()) # itemタグを整形して表示
-                price_dict = item.find("amount")
+                price_dict = item.find("amount") # 商品の価格情報を取得
                 try:
                     price = price_dict.contents[0]
-                except AttributeError:
+                except AttributeError: # Kindleの商品の場合<amount>タグが存在しない
-                    if price_dict is None:
-                        print("xmlに値段が記載されていません・再取得します")
+                    print("xmlに<amount>タグが記載されていないため商品価格が取得できません...再取得します...")
-                        url = item.find('detailpageurl').text #
+                    url = item.find('detailpageurl').text
-                        request = requests.get(url)
+                    request = requests.get(url)
-                        soup_url = BeautifulSoup(request.content, "lxml")
+                    soup_url = BeautifulSoup(request.content, "lxml")
-                        text = str(soup_url.find("td", {'class':'a-color-price a-size-medium a-align-bottom'}))
+                    text = str(soup_url.find("td", {'class':'a-color-price a-size-medium a-align-bottom'}))
+                    try:
-                        search = re.search(r"\s+￥(\s\d+),(\d+)\s", text) #検索パターンのコンパイル
+                        search = re.search(r"\s+￥(\s\d+),(\d+)\s", text) #検索パターンのサーチ
                         price = search.group(1) + search.group(2)
+                    except AttributeError:
+                        print("価格が1000円以下ですので、情報を再取得します...")
+                        for i in range(10):
+                            try:
+                                url = item.find('detailpageurl').text
+                                request = requests.get(url)
+                                soup_url = BeautifulSoup(request.content, "lxml")
+                                text = str(soup_url.find("td", {'class':'a-color-price a-size-medium a-align-bottom'}))
+                                search = re.search(r"\s+￥(\s\d+)\s", text) #検索パターンのサーチ
+                                price = search.group(1)
+                            except:
+                                print("再取得しています...({}回目)".format(i))
+                            else:
+                                break
                 print("価格を取得しました: ", price)
                 item_data.append({
                 'asin': item.find('asin').text,
@@ -198,17 +200,18 @@
                 "price": price,
                 'url': item.find('detailpageurl').text
                 })
-                print("データをリストへ格納します: ", str(len(item_data)))
+                print("データをリストへ格納します: ", str(len(item_data)), "\n")
+        except HTTPError: #503エラーが出たら2秒後に再取得する
-            print("再取得しています....")
+            print("HTTPError: 再取得しています...")
             time.sleep(2)
         except TypeError as err: #TypeErrorが出たらエラーメッセージを出力して処理を中断する
-            print("TypeError:処理を中断します")
+            print("TypeError: 処理を中断します")
             traceback.print_exc()
             break
         except AttributeError as err: #パースの仕方に問題があるとき
             print("パースの仕方に問題があります")
             traceback.print_exc()
-            print("検索を終了します....")
+            print("検索を終了します...")
             break
         except : #それ以外のエラー
             print("エラーが発生しました")
@@ -221,7 +224,6 @@
 if __name__ == '__main__':
     book_lists = getResponses()
-    print(book_lists)
     try:
         print("データの取得に成功しました", "\n", "asin・商品名・URLを出力します", "\n")
         for book_dicts in book_lists:

スクリプトが完成したので追記

2018/02/17 08:02

投稿

nokonoko_1203

スコア17

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -139,4 +139,98 @@
 ```
-対応策をご教示願います。
+対応策をご教示願います。
+追記：皆様のおかげで無事に解決できました！
+有難うございました！
+出来上がったコードを下に記載しておきます！
+```python
+# -*- coding: utf-8 -*-
+import bottlenose
+import requests
+from bs4 import BeautifulSoup
+import time
+import traceback
+import re
+from urllib.error import HTTPError
+import pprint
+from amazon_api import amazon
+item_data = []
+key = input("search? >>")
+def getResponses():
+    while len(item_data) < 10:
+        print("データの取得を開始します")
+        try:
+            # xmlでレスポンスを取得
+            response = amazon.ItemSearch(
+                Keywords=str(key),
+                SearchIndex="All",
+                ItemPage='1',
+                ResponseGroup="Large"
+                )
+            # xmlをパース
+            soup = BeautifulSoup(response, "lxml")
+            # itemタグを子・孫要素全て含めてリストで取得
+            items = soup.findAll("item")
+            for item in items: # 商品情報を１件ずつ取り出す
+                # print(item.prettify()) # itemタグを整形して表示
+                price_dict = item.find("amount")
+                try:
+                    price = price_dict.contents[0]
+                except AttributeError:
+                    if price_dict is None:
+                        print("xmlに値段が記載されていません・再取得します")
+                        url = item.find('detailpageurl').text #
+                        request = requests.get(url)
+                        soup_url = BeautifulSoup(request.content, "lxml")
+                        text = str(soup_url.find("td", {'class':'a-color-price a-size-medium a-align-bottom'}))
+                        search = re.search(r"\s+￥(\s\d+),(\d+)\s", text) #検索パターンのコンパイル
+                        price = search.group(1) + search.group(2)
+                print("価格を取得しました: ", price)
+                item_data.append({
+                'asin': item.find('asin').text,
+                'title': item.find('title').text,
+                "price": price,
+                'url': item.find('detailpageurl').text
+                })
+                print("データをリストへ格納します: ", str(len(item_data)))
+            print("再取得しています....")
+            time.sleep(2)
+        except TypeError as err: #TypeErrorが出たらエラーメッセージを出力して処理を中断する
+            print("TypeError:処理を中断します")
+            traceback.print_exc()
+            break
+        except AttributeError as err: #パースの仕方に問題があるとき
+            print("パースの仕方に問題があります")
+            traceback.print_exc()
+            print("検索を終了します....")
+            break
+        except : #それ以外のエラー
+            print("エラーが発生しました")
+            traceback.print_exc()
+            print("検索を終了します....")
+            break
+    print("合計{}件のデータリストに格納しました....".format(str(len(item_data))), "\n")
+    return item_data
+if __name__ == '__main__':
+    book_lists = getResponses()
+    print(book_lists)
+    try:
+        print("データの取得に成功しました", "\n", "asin・商品名・URLを出力します", "\n")
+        for book_dicts in book_lists:
+            print("asin: ", book_dicts["asin"])
+            print("title: ", book_dicts["title"])
+            print("price: ", book_dicts["price"])
+            print("url: ", book_dicts["url"])
+            print("\t")
+    except TypeError as err:
+        print(err)
+        print("処理を終了します....")
+```