回答編集履歴

あ

2018/10/15 11:06

投稿

tiitoi

スコア21960

test CHANGED Viewed

@@ -30,11 +30,13 @@
+    # URL から HTML を取得する。
     resp = web.get(url)
+    # HTML から BeautifulSoup オブジェクトを作成する。
     soup = BeautifulSoup(resp.text, "html.parser")
-    print(resp.text)
@@ -42,29 +44,47 @@
     # URL、タイトル、説明を取得する。
+    # <div class="g"> のタグ一覧を取得する。
     for div_elems in soup.select('div.g'):
+        # class="r" のタグ配下の a タグを取得する。
         a_elem = div_elems.select('.r > a')
+        # class="s" のタグ配下の class="st" のタグを取得する。
         div_elem = div_elems.select('.s > .st')
+        # 両方存在しない場合があったので、その場合はスキップする。
         if not a_elem or not div_elem:
             continue
+        # select() は選択された要素が1つでもリストで返すので、1個目の要素を取り出す。
         a_elem, div_elem = a_elem[0], div_elem[0]
+        # a_elem タグの href 属性を取得し、'/url?q=' を削除する。
         url = a_elem.get('href').replace('/url?q=', '')
+        # ドメイン部分までを取得する。
         url_prefix = '{0.scheme}://{0.netloc}/'.format(urlparse(url))
+        # a タグのテキストを取得する。
         title = a_elem.text
+        # 説明文を取得する。改行コードは削除する。
         description = div_elem.text.replace('\n','').replace('\r','')
+        # ドメイン部分までの URL、タイトル、説明をリストに追加する。
         results.append([url_prefix, title, description])
@@ -76,6 +96,8 @@
 results = []
+# キーワード分検索を実行する。
 for keywords in keyword_sets:
     results.extend(google(keywords))
@@ -84,12 +106,14 @@
+# CSV に書き込む。
 with open('output.csv', 'w', encoding='utf8') as f:
     writer = csv.writer(f)
-    writer.writerow(['タイトル・説明','URL'])
+    writer.writerow(['タイトル・説明','URL'])  # ヘッダーを書き込む。
-    writer.writerows(results)
+    writer.writerows(results)  # データを書き込む。
 ```

2018/10/15 11:06

投稿

tiitoi

スコア21960

test CHANGED Viewed

@@ -18,13 +18,7 @@
 keyword_sets = [['金属屋根','修理','神奈川'],
-                ['キーワード1','修理','東京'],
+                ['瓦屋根','補修','東京']]
-                ['キーワード2','修理','名古屋'],
-                ['キーワード3','修理','福岡'],
-                ['キーワード4','修理','北海道']]
@@ -34,7 +28,7 @@
     print('googling... ', url)
     resp = web.get(url)
@@ -42,7 +36,7 @@
     print(resp.text)
     results = []
@@ -60,9 +54,9 @@
         a_elem, div_elem = a_elem[0], div_elem[0]
-        url = a_elem['href'].replace('/url?q=','')
+        url = a_elem.get('href').replace('/url?q=', '')
         url_prefix = '{0.scheme}://{0.netloc}/'.format(urlparse(url))
@@ -70,7 +64,7 @@
         description = div_elem.text.replace('\n','').replace('\r','')
         results.append([url_prefix, title, description])
@@ -84,7 +78,9 @@
 for keywords in keyword_sets:
-    results = results.extend(google(keywords))
+    results.extend(google(keywords))
+print(results)