編集履歴

質問編集履歴

修正

2020/02/18 04:33

投稿

LBciel.

スコア18

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -110,8 +110,6 @@
 soup = BeautifulSoup(r.content, "html.parser")
-# [tag.extract() for tag in soup(string='n')] #改行削除らしい → 削除されず
 main = soup.find('div', id='search_resultsRows')
@@ -126,21 +124,19 @@
 ```Python
-#---各種情報取得---#
-a2trph = [] #各項目のリスト
+a2trph = []
 for item in m2a:
-    a2t = item.select_one("[class='title']").text #title取得
+    a2t = item.select_one("[class='title']").text
-    a2r = item.select_one('div.search_released').text #発売日取得
+    a2r = item.select_one('div.search_released').text
-    a2p = item.select_one('div.search_price').text.strip() #値段取得
+    a2p = item.select_one('div.search_price').text
-    a2h = item.get('href') #URL取得
+    a2h = item.get('href')
-    a2trph.append(a2t) #新しい要素をリストの最後に追加
+    a2trph.append(a2t)
     a2trph.append(a2r)
@@ -152,11 +148,9 @@
-テキスト出力
-with open("test.txt", "w", encoding="utf-8") as f: #with open([ファイルパス],[モード]) as [変数]
+with open("test.txt", "w", encoding="utf-8") as f:
-    f.write(str(a2trph)) #soup.find(タグ名, 属性=値)
+    f.write(str(a2trph))
 ```
@@ -202,18 +196,6 @@
-【他の問題が解決後取り組みたい課題】
-- VBAinputboxのようなものがPythonにはない→tkinterでユーザーフォームのようなものを１から作成しないといけない
-→**保留**
-- seleniumでサイトの操作が出来る事がわかったものの、ページ移動先のURL取得方法がわからない
-→**今回のページでは必要ないと思われる**
 ### 補足情報（FW/ツールのバージョンなど）

問題更新

2020/02/18 04:32

投稿

LBciel.

スコア18

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -88,7 +88,7 @@
-### 解決済み（一部）2/14更新
+### 解決済み（一部）2/15更新
 ※実際のサイトのclass名等を一部変更し記載しています。
@@ -136,7 +136,7 @@
     a2r = item.select_one('div.search_released').text #発売日取得
-    a2p = item.select_one('div.search_price').text #値段取得
+    a2p = item.select_one('div.search_price').text.strip() #値段取得
     a2h = item.get('href') #URL取得
@@ -148,8 +148,6 @@
     a2trph.append(a2h)
-    #a2trp.append(f'{a2t}:{a2r}:{a2p}')
 print(a2trph)
@@ -166,7 +164,7 @@
-### 現状の問題　2/14更新
+### 現状の問題　2/15更新
 上部「解決済み」２つ目のコードで下記の様に出力されます。（一部変更）
@@ -174,23 +172,35 @@
+**※コード内【値段】の部分で問題が生じております。**
 csvやテキストファイルに出力する際に、**\n**や**\r**、**空白**部分が邪魔になる事と存じます。
 所感ですが、HTMLのdivタグなどの部分で\nや\rが出力され、値段の部分に空白が入れられていると思われます。
-**※コード内【値段】の部分で問題が生じております。**
+** → 何故かstripで解決**　理由が知りたい・・・
+**※すべてのコードで問題が生じております。**
+- 各項目「'」で囲まれている。例：下記コード参照
+純粋にテキストだけ欲しいのですが、何故「'」に囲まれているのでしょうか。
+- 又、Excelにした際に【発売日】に「,」が入っており区切り文字として使用できません。どういった解決策がありますでしょうか。
+```
+['Sampletitle1 (Japanese Ver.)', '27 Nov, 2019', 'Free To Play', 'https://store.com/app/1175730/Japanese_Ver/?snr=1_7_7_151_150_1', "Sampletitle2 (Japanese version)", '10 Dec, 2014', '¥ 10,162', 'https://store.com/app/288390/Japanese_version/?snr=1_7_7_151_150_1', 'Sampletitle3', '22 Aug, 2019', '¥ 1,320¥ 1,056', 'https://store.com/app/662960/?snr=1_7_7_151_150_1', ...以下ヒット数同文]
+```
 この問題をどの様に解決すればよいかご教示頂ければ幸いです。コードを一から作り直しでも構いません。
-```
-['Sampletitle1 (Japanese Ver.)', '27 Nov, 2019', '\r\n                        Free To Play                    ', 'https://store.com/app/1175730/Japanese_Ver/?snr=1_7_7_151_150_1', "Sampletitle2 (Japanese version)", '10 Dec, 2014', '\r\n                        ¥ 10,162                    ', 'https://store.com/app/288390/Japanese_version/?snr=1_7_7_151_150_1', 'Sampletitle3', '22 Aug, 2019', '\n¥ 1,320¥ 1,056                    ', 'https://store.com/app/662960/?snr=1_7_7_151_150_1', ...以下ヒット数同文]
-```
 【他の問題が解決後取り組みたい課題】

2/14更新

2020/02/15 13:54

投稿

LBciel.

スコア18

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -88,7 +88,7 @@
-### 解決済み（一部）2/9更新
+### 解決済み（一部）2/14更新
 ※実際のサイトのclass名等を一部変更し記載しています。
@@ -130,17 +130,15 @@
 a2trph = [] #各項目のリスト
-i = 0
 for item in m2a:
-    a2t = m2a[i].select('div.ellipsis')[0].text #title取得
+    a2t = item.select_one("[class='title']").text #title取得
-    a2r = m2a[i].select('div.search_released')[0].text #発売日取得
+    a2r = item.select_one('div.search_released').text #発売日取得
-    a2p = m2a[i].select('div.search_price')[0].text #値段取得
+    a2p = item.select_one('div.search_price').text #値段取得
-    a2h = m2a[i].get('href') #URL取得
+    a2h = item.get('href') #URL取得
     a2trph.append(a2t) #新しい要素をリストの最後に追加
@@ -150,8 +148,6 @@
     a2trph.append(a2h)
-    i += 1
     #a2trp.append(f'{a2t}:{a2r}:{a2p}')
 print(a2trph)
@@ -170,7 +166,7 @@
-### 現状の問題　2/9更新
+### 現状の問題　2/14更新
 上部「解決済み」２つ目のコードで下記の様に出力されます。（一部変更）
@@ -184,11 +180,15 @@
+**※コード内【値段】の部分で問題が生じております。**
 この問題をどの様に解決すればよいかご教示頂ければ幸いです。コードを一から作り直しでも構いません。
 ```
-['\nSampletitle1 (Japanese Ver.)\n\n \n', '27 Nov, 2019', '\r\n                        Free To Play                    ', 'https://store.com/app/1175730/Japanese_Ver/?snr=1_7_7_151_150_1', "\nSampletitle2 (Japanese version)\n\n \n", '10 Dec, 2014', '\r\n                        ¥ 10,162                    ', 'https://store.com/app/288390/Japanese_version/?snr=1_7_7_151_150_1', '\nSampletitle3~\n\n \n', '22 Aug, 2019', '\n¥ 1,320¥ 1,056                    ', 'https://store.com/app/662960/?snr=1_7_7_151_150_1', ...以下ヒット数同文]
+['Sampletitle1 (Japanese Ver.)', '27 Nov, 2019', '\r\n                        Free To Play                    ', 'https://store.com/app/1175730/Japanese_Ver/?snr=1_7_7_151_150_1', "Sampletitle2 (Japanese version)", '10 Dec, 2014', '\r\n                        ¥ 10,162                    ', 'https://store.com/app/288390/Japanese_version/?snr=1_7_7_151_150_1', 'Sampletitle3', '22 Aug, 2019', '\n¥ 1,320¥ 1,056                    ', 'https://store.com/app/662960/?snr=1_7_7_151_150_1', ...以下ヒット数同文]
 ```

更新

2020/02/14 10:42

投稿

LBciel.

スコア18

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -178,7 +178,7 @@
-csvやテキストファイルに出力する際に、\nや\r、空白部分が邪魔になる事と存じます。
+csvやテキストファイルに出力する際に、**\n**や**\r**、**空白**部分が邪魔になる事と存じます。
 所感ですが、HTMLのdivタグなどの部分で\nや\rが出力され、値段の部分に空白が入れられていると思われます。

全て更新

2020/02/09 11:27

投稿

LBciel.

スコア18

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -1,6 +1,8 @@
-### 前提・実現したいこと
+### 前提・実現したいこと(すべて解決するまで更新し続けます。)
-【URL】【画像】【商品名】【発売日】【値段】を抜き出して出力する。（CSV、テキストなど）
+**【URL】【画像】【商品名】【発売日】【値段】**を抜き出して出力する。（CSV、テキストなど）
+その後、tkinterでExcelのinputboxのようなものを作成する。
 ```HTML
@@ -80,117 +82,117 @@
+一度下記質問内で同じページをVBAスクレイピングしております。
+https://teratail.com/questions/237676
-### 試したこと
+### 解決済み（一部）2/9更新
+※実際のサイトのclass名等を一部変更し記載しています。
-下記コードは、いくつかのサイトを参考にして試してはコメントや書き直しを繰り返しております。抜き出しているHTML部分は試した内容で別々になっており、統一されておりません。
+【URL】【画像】【商品名】【発売日】【値段】の抜き出しは一応出来ております。（問題あり）
 ```Python
-import requests #Webページを取得
-import tkinter
-from bs4 import BeautifulSoup #HTMLを抽出
-from selenium import webdriver #ブラウザ操作
-from selenium.webdriver.common.keys import Keys
-# from urllib import request
-# from lxml import html
-import time
-# root = tkinter.Tk() # Tkクラス生成
-# root.geometry('300x200') # 画面サイズ
-# root.title('テキストボックス') # 画面タイトル
-# lbl = tkinter.Label(text='数値') # ラベル
-# lbl.place(x=30, y=70)
-# txt = tkinter.Entry(width=20) # テキストボックス
-# txt.place(x=90, y=70)
-# txt.get() # テキストボックスの文字を取得
-# root.mainloop() # 画面をそのまま表示
-keyword = input("検索したいワードを入力してください。")
-keyword = str(keyword)
-driver = webdriver.Chrome(executable_path=r'C:/Python/selenium/chromedriver.exe') # Chromeを起動
-driver.get('https://s.com/stats/') # サイトにアクセス
-#element = driver.find_element_by_name("q"); # 検索ボックスの要素を取得
-element = driver.find_element_by_id("store_nav_search_term"); # 検索ボックスの要素を取得
-element.send_keys(keyword) # キーワード入力
-element.send_keys(Keys.ENTER)
-time.sleep(5) # 5秒待つ
-print(requests.get(driver).url)
-#title = driver.find_element_by_class_name("title")
-#soup = BeautifulSoup(title, "html.parser")
-#driver.find_element_by_class_name("gNO89b").click() # classでの指定
-#driver.find_element_by_id("id").click() # idでの指定
-#driver.find_element_by_xpath("XPATH").click() # xpathでの指定
-#time.sleep(5)
-#element = driver.find_element_by_name("q"); # 検索ボックスの要素を取得
-#element.clear() # キーワードを消す
-#time.sleep(5)
-```
-一度下記質問内で同じページをVBAスクレイピングしております。
-https://teratail.com/questions/237676
-スクレイピングの流れは１度経験しているのですが、Pythonのどのコードを使用すれば同じことが出来るのかが理解出来ておりません。
+import requests
+import urllib.request
+from bs4 import BeautifulSoup
+r = requests.get("https://store.com/search/?term=japanese")
+soup = BeautifulSoup(r.content, "html.parser")
+# [tag.extract() for tag in soup(string='n')] #改行削除らしい → 削除されず
+main = soup.find('div', id='search_resultsRows')
+m2a = main.find_all('a', class_='search_result_row')
+```
+```Python
+#---各種情報取得---#
+a2trph = [] #各項目のリスト
+i = 0
+for item in m2a:
+    a2t = m2a[i].select('div.ellipsis')[0].text #title取得
+    a2r = m2a[i].select('div.search_released')[0].text #発売日取得
+    a2p = m2a[i].select('div.search_price')[0].text #値段取得
+    a2h = m2a[i].get('href') #URL取得
+    a2trph.append(a2t) #新しい要素をリストの最後に追加
+    a2trph.append(a2r)
+    a2trph.append(a2p)
+    a2trph.append(a2h)
+    i += 1
+    #a2trp.append(f'{a2t}:{a2r}:{a2p}')
+print(a2trph)
+テキスト出力
+with open("test.txt", "w", encoding="utf-8") as f: #with open([ファイルパス],[モード]) as [変数]
+    f.write(str(a2trph)) #soup.find(タグ名, 属性=値)
+```
+【画像】保存は終了し、現状困ったところはありません。問題があればその時にコードを記載致します。
+### 現状の問題　2/9更新
+上部「解決済み」２つ目のコードで下記の様に出力されます。（一部変更）
+一行での記載で見づらいと思いますが実際に表示されている状態の方が良いと思いこの様に表現しています。
+csvやテキストファイルに出力する際に、\nや\r、空白部分が邪魔になる事と存じます。
+所感ですが、HTMLのdivタグなどの部分で\nや\rが出力され、値段の部分に空白が入れられていると思われます。
+この問題をどの様に解決すればよいかご教示頂ければ幸いです。コードを一から作り直しでも構いません。
+```
+['\nSampletitle1 (Japanese Ver.)\n\n \n', '27 Nov, 2019', '\r\n                        Free To Play                    ', 'https://store.com/app/1175730/Japanese_Ver/?snr=1_7_7_151_150_1', "\nSampletitle2 (Japanese version)\n\n \n", '10 Dec, 2014', '\r\n                        ¥ 10,162                    ', 'https://store.com/app/288390/Japanese_version/?snr=1_7_7_151_150_1', '\nSampletitle3~\n\n \n', '22 Aug, 2019', '\n¥ 1,320¥ 1,056                    ', 'https://store.com/app/662960/?snr=1_7_7_151_150_1', ...以下ヒット数同文]
+```
+【他の問題が解決後取り組みたい課題】
 - VBAinputboxのようなものがPythonにはない→tkinterでユーザーフォームのようなものを１から作成しないといけない
@@ -200,21 +202,15 @@
 - seleniumでサイトの操作が出来る事がわかったものの、ページ移動先のURL取得方法がわからない
-→**保留**
-- おそらく当サイトはselenium操作が必要な構成はしていないのでは？
-→[requests][BeautifulSoup]のみでページ移動や抽出方法がわからない
-丸投げになっている事は重々理解しています。
+→**今回のページでは必要ないと思われる**
+### 補足情報（FW/ツールのバージョンなど）
+Python3.8.1 64-bit
-非常に短いコードで確実に動いたものをclassnameやid等変更し試しても動かず、動いたサイトが[ul]でリストだからこのコードが動いたのか・・・？と、ダメだった事実だけが残り、原因も解決方法もわからず何も進歩がなく当サイトを利用させて頂きました。
+![イメージ説明](898d1df83cafdabd77af2f40864641ca.jpeg)
 当方のPython知識は、
@@ -223,11 +219,3 @@
 ・Excel×Python最速仕事術
 こちらの2冊を読んだだけの知識で御座います。
-### 補足情報（FW/ツールのバージョンなど）
-Python3.8.1 64-bit
-![イメージ説明](898d1df83cafdabd77af2f40864641ca.jpeg)

試したこと下部、当方のPython知識

2020/02/09 05:47

投稿

LBciel.

スコア18

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -216,6 +216,16 @@
+当方のPython知識は、
+・独学プログラマー Python言語の基本から仕事のやり方まで
+・Excel×Python最速仕事術
+こちらの2冊を読んだだけの知識で御座います。
 ### 補足情報（FW/ツールのバージョンなど）
 Python3.8.1 64-bit