トップ HTML5に関する質問スクレイピングで画像の収集, Incorrect paddingのエラーの直し方

編集履歴

質問編集履歴

ごじ

2022/08/18 14:45

投稿

Michiko

スコア8

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -96,9 +96,12 @@
 ```
 ```ここに言語を入力
-  Message=not enough values to unpack (expected 2, got 1)
+  Message='NoneType' object has no attribute 'split'
 ```
 ```python

HTML5 Visual Studio Python

goji

2022/08/18 14:44

投稿

Michiko

スコア8

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -83,7 +83,7 @@
 out_folder = Path("Download")
 out_folder.mkdir(exist_ok = True)
-for element in soup.find_all("img"):
+for element in soup.find_all("source"):
     src = element.get("data-src")
     header, encoded = src.split(",",1)
     decode_data=b64decode(encoded)
@@ -117,7 +117,7 @@
 out_folder = Path("Download")
 out_folder.mkdir(exist_ok = True)
-for element in soup.find_all("picture"):
+for element in soup.find_all("source"):
     src = element.get("data-src")
     image_url=urllib.parse.urljoin(load_url, src)
     imgdata = requests.get(image_url)

HTML5 Visual Studio Python

ごじ

2022/08/18 14:42

投稿

Michiko

スコア8

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -100,6 +100,37 @@
 ```
+```python
+import requests
+from bs4 import BeautifulSoup
+from pathlib import Path
+import urllib
+import time
+from base64 import b64decode
+load_url = "https://www.elle.com/jp/decor/decor-interior-design/a40735952/karimoku-commons-tokyo-mobile-house22-07/"
+html = requests.get(load_url)
+soup=BeautifulSoup(html.content, "html.parser")
+out_folder = Path("Download")
+out_folder.mkdir(exist_ok = True)
+for element in soup.find_all("picture"):
+    src = element.get("data-src")
+    image_url=urllib.parse.urljoin(load_url, src)
+    imgdata = requests.get(image_url)
+    filename = "test_0818"
+    out_path = out_folder.joinpath(filename)
+    with open(filename, mode = "wb") as f:
+           f.write(imgdata.content)
+    time.sleep(1)
+```
+画像として表示されません
 ### 補足情報（FW/ツールのバージョンなど）
 下記を参考にしました。

HTML5 Visual Studio Python

訂正

2022/08/18 14:13

投稿

Michiko

スコア8

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -63,10 +63,43 @@
 ```
 Incorrect padding
+```
+### 試したこと
+```python
+import requests
+from bs4 import BeautifulSoup
+from pathlib import Path
+import urllib
+import time
+from base64 import b64decode
+load_url = "https://www.elle.com/jp/decor/decor-interior-design/a40735952/karimoku-commons-tokyo-mobile-house22-07/"
+html = requests.get(load_url)
+soup=BeautifulSoup(html.content, "html.parser")
+out_folder = Path("Download")
+out_folder.mkdir(exist_ok = True)
+for element in soup.find_all("img"):
+    src = element.get("data-src")
+    header, encoded = src.split(",",1)
+    decode_data=b64decode(encoded)
+    filename = "test_0818"
+    out_path = out_folder.joinpath(filename)
+    with open(filename, mode = "wb") as f:
+           f.write(decode_data)
+    time.sleep(1)
 ```
+```ここに言語を入力
+  Message=not enough values to unpack (expected 2, got 1)
+```
 ### 補足情報（FW/ツールのバージョンなど）
 下記を参考にしました。

HTML5 Visual Studio Python

teisei

2022/08/13 04:44

投稿

Michiko

スコア8

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -69,6 +69,7 @@
 ### 補足情報（FW/ツールのバージョンなど）
-下記サイトを参考にしました。
+下記を参考にしました。
+森巧尚, Python 2年生 スクレイピングのしくみ
 https://stackoverflow.com/questions/33870538/how-to-parse-data-uri-in-python
 https://www.lisz-works.com/entry/python-base64-incorrect-padding

HTML5 Visual Studio Python

訂正

2022/08/13 04:30

投稿

Michiko

スコア8

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -11,11 +11,11 @@
 昨日、Data URLをdecodeする方法を教えていただき、それを含めたコードでまたエラーが出ました。
-画像のスクレイピングが難しく、ご教授いただけましたら幸いです。
+プログラミングの勉強を始めて日が浅く、Webの知識が少ないためか、画像のスクレイピングが難しく感じます。
-よろしくお願いいたします。
+自己解決できなかったので、
+ご教授いただけましたら幸いです。
 ### 該当のソースコード

HTML5 Visual Studio Python

syuusei

2022/08/12 12:29

投稿

Michiko

スコア8

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -18,43 +18,7 @@
 ### 該当のソースコード
-```Python
-import requests
-from bs4 import BeautifulSoup
-from pathlib import Path
-import urllib
-import time
-from base64 import b64decode
-load_url = "https://www.elle.com/jp/decor/decor-interior-design/a40735952/karimoku-commons-tokyo-mobile-house22-07/"
-html = requests.get(load_url)
-soup=BeautifulSoup(html.content, "html.parser")
-out_folder = Path("Download")
-out_folder.mkdir(exist_ok = True)
-for element in soup.find_all("img"):
-    src = element.get("src")
-    header, encoded = src.split(",",1)
-    decode_data=b64decode(encoded)
-    filename = src.split("/")[-1]
-    out_path = out_folder.joinpath(filename)
-    with open(filename, mode = "wb") as f:
-        f.write(decode_data)
-    time.sleep(1)
-```
-### 発生している問題・エラーメッセージ
-```
-'NoneType' object has no attribute 'split'
-```
-### 試したこと
 Data URLの文字数をカウントし、4で割り切れないことがわかったので
  encoded=base64.urlsafe_b64decode (src + '=' * (-len(src) % 4))
 を入れたのですが、同じエラーが出ました。

HTML5 Visual Studio Python

訂正

2022/08/12 12:27

投稿

Michiko

スコア8

title CHANGED Viewed

	@@ -1,1 +1,1 @@
1	- スクレイピングで画像の収集, ~~NoneType'~~ ~~object has no attribute 'split'~~のエラーの直し方
1	+ スクレイピングで画像の収集, Incorrect paddingのエラーの直し方

body CHANGED Viewed

File without changes

HTML5 Visual Studio Python

teisei

2022/08/12 12:26

投稿

Michiko

スコア8

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -59,7 +59,8 @@
  encoded=base64.urlsafe_b64decode (src + '=' * (-len(src) % 4))
 を入れたのですが、同じエラーが出ました。
 上のコードを入れたことで、文字数が78から、56に減りました。
+(src + '=' * (-len(src) % 4)の部分で、==を2つ入れて、80にしたかったのですが...
-==を2つ入れて、80にしたかったのですが...お忙しい中恐縮ですが、
+お忙しい中恐縮ですが、
 教えていただけると幸いです。

HTML5 Visual Studio Python

teisei

2022/08/12 12:24

投稿

Michiko

スコア8

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -58,6 +58,9 @@
 Data URLの文字数をカウントし、4で割り切れないことがわかったので
  encoded=base64.urlsafe_b64decode (src + '=' * (-len(src) % 4))
 を入れたのですが、同じエラーが出ました。
+上のコードを入れたことで、文字数が78から、56に減りました。
+==を2つ入れて、80にしたかったのですが...お忙しい中恐縮ですが、
+教えていただけると幸いです。
 ```Python

HTML5 Visual Studio Python

teisei

2022/08/12 12:20

投稿

Michiko

スコア8

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -55,9 +55,14 @@
 'NoneType' object has no attribute 'split'
 ```
 ### 試したこと
+Data URLの文字数をカウントし、4で割り切れないことがわかったので
+ encoded=base64.urlsafe_b64decode (src + '=' * (-len(src) % 4))
+を入れたのですが、同じエラーが出ました。
 ```Python
+import base64
 import requests
 from bs4 import BeautifulSoup
 from pathlib import Path
@@ -75,7 +80,7 @@
 for element in soup.find_all("img"):
     src = element.get("src")
-    encoded= base64.urlsafe_b64decode(src)
+    encoded=base64.urlsafe_b64decode (src + '=' * (-len(src) % 4))
     decode_data=b64decode(encoded)
     filename = src.split("/")[-1]
     out_path = out_folder.joinpath(filename)
@@ -84,7 +89,6 @@
     time.sleep(1)
 ```
 エラー内容

HTML5 Visual Studio Python

syuusei

2022/08/12 11:58

投稿

Michiko

スコア8

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -90,11 +90,7 @@
 エラー内容
 ```
-  Message='NoneType' object has no attribute 'split'
-  Source=C:\Users\Michiko\Desktop\0812\scr_karimoku\scr_karimoku\scr_karimoku.py
-  スタック トレース:
+Incorrect padding
-  File "C:\Users\Michiko\Desktop\0812\scr_karimoku\scr_karimoku\scr_karimoku.py", line 19, in <module>
-    header, encoded = src.split(",",1)
 ```

HTML5 Visual Studio Python

修正

2022/08/12 05:47

投稿

Michiko

スコア8

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -11,7 +11,7 @@
 昨日、Data URLをdecodeする方法を教えていただき、それを含めたコードでまたエラーが出ました。
-画像のスクレイピングが思ったよりも難しく、もしご教授いただけましたら幸いです。
+画像のスクレイピングが難しく、ご教授いただけましたら幸いです。
 よろしくお願いいたします。

HTML5 Visual Studio Python

変更

2022/08/12 05:45

投稿

Michiko

スコア8

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -54,8 +54,53 @@
 ```
 'NoneType' object has no attribute 'split'
 ```
+### 試したこと
+```Python
+import requests
+from bs4 import BeautifulSoup
+from pathlib import Path
+import urllib
+import time
+from base64 import b64decode
+load_url = "https://www.elle.com/jp/decor/decor-interior-design/a40735952/karimoku-commons-tokyo-mobile-house22-07/"
+html = requests.get(load_url)
+soup=BeautifulSoup(html.content, "html.parser")
+out_folder = Path("Download")
+out_folder.mkdir(exist_ok = True)
+for element in soup.find_all("img"):
+    src = element.get("src")
+    encoded= base64.urlsafe_b64decode(src)
+    decode_data=b64decode(encoded)
+    filename = src.split("/")[-1]
+    out_path = out_folder.joinpath(filename)
+    with open(filename, mode = "wb") as f:
+        f.write(decode_data)
+    time.sleep(1)
+```
+エラー内容
+```
+  Message='NoneType' object has no attribute 'split'
+  Source=C:\Users\Michiko\Desktop\0812\scr_karimoku\scr_karimoku\scr_karimoku.py
+  スタック トレース:
+  File "C:\Users\Michiko\Desktop\0812\scr_karimoku\scr_karimoku\scr_karimoku.py", line 19, in <module>
+    header, encoded = src.split(",",1)
+```
 ### 補足情報（FW/ツールのバージョンなど）
 下記サイトを参考にしました。
 https://stackoverflow.com/questions/33870538/how-to-parse-data-uri-in-python
+https://www.lisz-works.com/entry/python-base64-incorrect-padding

HTML5 Visual Studio Python