質問編集履歴

コメントのように訂正したが、同じエラーになります。

2022/12/18 13:50

投稿

fullmoon311

スコア62

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -24,7 +24,8 @@
 ```python
 # 1.動的サイトにアクセス
-driver.get("https://www.xxx/aaa/page")
+url = "https://www.xxx/aaa/page"
+driver.get(url)
 # クリック前のハンドルリスト
 handles_befor = driver.window_handles
@@ -72,7 +73,8 @@
         img = driver.find_element(By.XPATH,'//*[@id="aaa"]/p/img')
         src = img.get_attribute('src')
         #imgurlをダウンロード
-        if src:
+        if src:
+            src = urljoin(url, src)
             # 画像のバイト列取得
             img_content = requests.get(src).content
             # 画像に変換

スクレイピング Python selenium

前提を追加

2022/12/18 13:45

投稿

fullmoon311

スコア62

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -3,6 +3,10 @@
 あるサイトをスクレイピングしているのですが、その中で画像もダウンロードさせるような処理を入れたいのですが、img src="" のsrcの中身がxxx.jsp?key=atai となっているためダウンロード出来ません。
 ダウンロードは不可能でしょうか？何か方法はありますか？
+ちなみに出来れば、ダウンロードせずに画像認識させて読み取った文字を文字列としてcsvに書き込む処理をしたいです。
+個別ではPCに手動で画像を保存したものを画像認識させて、文字列として返すことに成功しております。
 ### 実現したいこと
 ここに実現したいことを箇条書きで書いてください。

スクレイピング Python selenium

コードを追加しました

2022/12/18 13:42

投稿

fullmoon311

スコア62

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -19,6 +19,51 @@
 ### 該当のソースコード
 ```python
+# 1.動的サイトにアクセス
+driver.get("https://www.xxx/aaa/page")
+# クリック前のハンドルリスト
+handles_befor = driver.window_handles
+# ドロップダウンを選択する
+# 分類
+genres = driver.find_element(By.NAME,'searchCategory')
+select1 = Select(genres)
+all_options = select1.options
+count = len(all_options)
+# [検索]ボタン押す
+driver.find_element(By.ID,'search').click()
+# メーカー毎の商品リストをfor文で回しながら取得
+pages = driver.find_element(By.XPATH, '//*[@id="fm"]/div[2]/span[2]')
+# ページャー数分、回す
+pagenum = pages.text
+for num in range(int(pagenum)):
+    # tbodyの中身取得
+    tbody = driver.find_element(By.XPATH,'//*[@id="xxx_list"]/table/tbody')
+    trlist = tbody.find_elements(By.TAG_NAME,'tr')
+    trnum = str(1)
+    for tr in trlist:
+        tdlist = tr.find_elements(By.TAG_NAME,'td')
+        trtext = []
+        for td in tdlist:
+            test = td.text
+            if(test == '選ぶ'):
+                break
+            trtext.append(test)
+        # 1アイテム毎にCSVに書き込む
+        filename = "xxx.csv"
+        with open(filename, mode="a", encoding="utf-8") as f:
+            trs = ','.join(trtext)
+            f.write(trs)
+            # 改行コード
+            f.write('\n')
+            time.sleep(2)
+        #[選ぶ]をクリック
+        imgxpath = '//*[@id="result_list"]/table/tbody/tr['+ trnum +']/td[5]/a'
+        driver.find_element(By.XPATH, imgxpath).click()
        # 画像URL取得
         img = driver.find_element(By.XPATH,'//*[@id="aaa"]/p/img')
         src = img.get_attribute('src')

スクレイピング Python selenium