回答率: 85.48%

質問するログイン新規登録

トップに関する質問 Python スクレイピング

編集履歴

質問編集履歴

2

実際のコードを記載しました

2018/04/13 06:50

投稿

スコア13

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -92,7 +92,9 @@
 以下エラーがでる箇所
+```
-```#カテゴリ毎にURLを解析する
+#カテゴリ毎にURLを解析する
 base = "https://www.gucci.com/jp/ja/"

1

実際のコードを記載させていただきました。

2018/04/13 06:50

投稿

スコア13

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -10,27 +10,103 @@
-コードは実際のものではなく、わかりやすいように書き換えています。
+プログラミング初心者のため。コードも汚く、見にくいものとなっております。申し訳ございません。
 ```ここに言語を入力
+import requests
+from bs4 import BeautifulSoup
+import pprint
+import os
-dict = {a,"http://~",b:"http://~"}
+from urllib.parse import urljoin
+import itertools
-base = "https://www.~"
+sex_URL = "https://www.gucci.com/jp/ja/ca/men-c-men"
-list = []
+soup = BeautifulSoup(requests.get(sex_URL).content,'lxml')
-for name in category:
-    soup= BeautifulSoup(requests.get(dict[name]).content,'lxml')
-    link = soup.find_all("a",class_="item-link")
+def make_folder(category_folder_name):
-    for link in link:
+    os.makedirs("/Users/RP/Desktop/GUCCI/メンズ/" + category_folder_name,exist_ok=True)
+#カテゴリ毎のURLを取得し、相対パスを絶対パスに変換
+#item_category_listにURLを格納
+base = "https://www.gucci.com/jp/ja/"
+item_category_link = soup.find_all("a",class_="category-product")
+item_category_list = []
+for item_category_link in item_category_link:
+    item_category_list.append(urljoin(base,item_category_link.get("href")))
+print(item_category_list)
+#商品カテゴリ名を取得し、item_category_name_listに格納
+item_category_name = soup.select("header > h2")
+item_category_name_list = []
+for item_category_name in item_category_name:
+    item_category_name_list.append((item_category_name).getText())
+    make_folder((item_category_name).getText())
+print(item_category_name_list)
+#item_category_listとitem_category_name_listのリストを1つのディクショナリに変換
+keys = item_category_name_list
+values = item_category_list
+category = dict(zip(keys,values))
+print(category)
+```
+以下エラーがでる箇所
+```#カテゴリ毎にURLを解析する
+base = "https://www.gucci.com/jp/ja/"
+item_list = []
+for category_name in category:
+    soup= BeautifulSoup(requests.get(category[category_name]).content,'lxml')
+    item_link = soup.find_all("a",class_="product-tiles-grid-item-link")
+    for item_link in item_link:
-        item_list.append(urljoin(base,link).get("href"))
+        item_list.append(urljoin(base,item_link).get("href"))
 print(item_list)