質問編集履歴

表の追加

2018/10/31 02:23

投稿

lujiaweigood

スコア13

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -204,5 +204,13 @@
+CSVファイルではこういう風に出てきました。
+![![イメージ説明](680d7e72401214c6ea6c8d809472850d.png)](17a78b7dd10e37441d3197967c5cf92a.png)
 python version: 3.7.1

317

うまく行かなかったところを説明しました。

2018/10/31 02:23

投稿

lujiaweigood

スコア13

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,6 +1,6 @@
 ### 前提・実現したいこと
-https://github.com/ShoKosaka/Suumo
+https://github.com/ShoKosaka/Suumo/blob/master/Scraping.ipynb
-を参照して、summoの家賃情報取得したいですが、うまく行かなかったです。賃料、管理費などの情報が出てこなかったです。なぜでしょうか。
+を参照して、summoの家賃情報取得したいですが、生成したCSVファイルでは、賃料、管理費、間取りなどの情報が出てこなかったです。なぜでしょうか。
 ### 一応コード全文張り出します。
@@ -196,7 +196,7 @@
                   '敷/礼/保証/敷引,償却','間取り','専有面積']
 #csvファイルとして保存
-suumo_df.to_csv('suumo_adachi.csv', sep = '\t',encoding='utf-16')
+suumo_df.to_csv('suumo_minato.csv', sep = '\t',encoding='utf-16')
 ```
@@ -204,4 +204,5 @@
 python version: 3.7.1

317

全文が張り出されました。

2018/10/30 17:35

投稿

lujiaweigood

スコア13

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -3,16 +3,11 @@
 を参照して、summoの家賃情報取得したいですが、うまく行かなかったです。賃料、管理費などの情報が出てこなかったです。なぜでしょうか。
-### 発生している問題・エラーメッセージ
+### 一応コード全文張り出します。
 ```
-エラーメッセージ
-```
-### 該当のソースコード
 from bs4 import BeautifulSoup
 import requests
 import pandas as pd
@@ -34,13 +29,13 @@
+#HTMLを元に、オブジェクトを作る
 soup = BeautifulSoup(result.content,'html.parser')
 print(soup.title)
+#物件リストの部分を切り出し
 summary = soup.find("div",{'id':'js-bukkenList'})
+#ページ数を取得
 body = soup.find("body")
 pages = body.find_all("div",{'class':'pagination pagination_set-nav'})
 pages_text = str(pages)
@@ -50,48 +45,48 @@
 pages_split2 = pages_split1.replace('>','')
 pages_split3 = int(pages_split2)
+#URLを入れるリスト
 urls = []
+#1ページ目を格納
 urls.append(url)
+#2ページ目から最後のページまでを格納
 for i in range(pages_split3-1):
     pg = str(i+2)
     url_page = url + '&pn=' + pg
     urls.append(url_page)
-name = []
+name = [] #マンション名
-address = []
+address = [] #住所
-locations0 = []
+locations0 = [] #立地1つ目（最寄駅/徒歩~分）
-locations1 = []
+locations1 = [] #立地2つ目（最寄駅/徒歩~分）
-locations2 = []
+locations2 = [] #立地3つ目（最寄駅/徒歩~分）
-age = []
+age = [] #築年数
-height = []
+height = [] #建物高さ
-floor = []
+floor = [] #階
-rent = []
+rent = [] #賃料
-admin = []
+admin = [] #管理費
-others = []
+others = [] #敷/礼/保証/敷引,償却
-floor_plan = []
+floor_plan = [] #間取り
-area = []
+area = [] #専有面積
+#各ページで以下の動作をループ
 for url in urls:
+    #物件リストを切り出し
     c = urllib.request.urlopen(url)
     soup = BeautifulSoup(c,'html.parser')
     summary = soup.find("div",{'id':'js-bukkenList'})
+    #マンション名、住所、立地（最寄駅/徒歩~分）、築年数、建物高さが入っているcassetteitemを全て抜き出し
     cassetteitems = summary.find_all("div",{'class':'cassetteitem'})
+    #各cassetteitemsに対し、以下の動作をループ
     for i in range(len(cassetteitems)):
+        #各建物から売りに出ている部屋数を取得
         tbodies = cassetteitems[i].find_all('tbody')
+        #マンション名取得
         subtitle = cassetteitems[i].find_all("div",{
             'class':'cassetteitem_content-title'})
         subtitle = str(subtitle)
@@ -100,7 +95,7 @@
         subtitle_rep2 = subtitle_rep.replace(
             '</div>]', '')
+        #住所取得
         subaddress = cassetteitems[i].find_all("li",{
             'class':'cassetteitem_detail-col1'})
         subaddress = str(subaddress)
@@ -109,16 +104,16 @@
         subaddress_rep2 = subaddress_rep.replace(
             '</li>]', '')
+        #部屋数だけ、マンション名と住所を繰り返しリストに格納（部屋情報と数を合致させるため）
         for y in range(len(tbodies)):
             name.append(subtitle_rep2)
             address.append(subaddress_rep2)
+        #立地を取得
         sublocations = cassetteitems[i].find_all("li",{
             'class':'cassetteitem_detail-col2'})
+        #立地は、1つ目から3つ目までを取得（4つ目以降は無視）
         for x in sublocations:
             cols = x.find_all('div')
             for i in range(len(cols)):
@@ -131,7 +126,7 @@
                     elif i == 2:
                         locations2.append(text)
+        #築年数と建物高さを取得
         tbodies = cassetteitems[i].find_all('tbody')
         col3 = cassetteitems[i].find_all("li",{
             'class':'cassetteitem_detail-col3'})
@@ -145,15 +140,15 @@
                     else:
                         height.append(text)
+    #階、賃料、管理費、敷/礼/保証/敷引,償却、間取り、専有面積が入っているtableを全て抜き出し
     tables = summary.find_all('table')
+    #各建物（table）に対して、売りに出ている部屋（row）を取得
     rows = []
     for i in range(len(tables)):
         rows.append(tables[i].find_all('tr'))
+    #各部屋に対して、tableに入っているtext情報を取得し、dataリストに格納
     data = []
     for row in rows:
         for tr in row:
@@ -162,7 +157,7 @@
                 text = td.find(text=True)
                 data.append(text)
+    #dataリストから、階、賃料、管理費、敷/礼/保証/敷引,償却、間取り、専有面積を順番に取り出す
     index = 0
     for item in data:
         if '階' in item:
@@ -174,10 +169,10 @@
             area.append(data[index+5])
         index +=1
+    #プログラムを10秒間停止する（スクレイピングマナー）
     time.sleep(10)
+#各リストをシリーズ化
 name = Series(name)
 address = Series(address)
 locations0 = Series(locations0)
@@ -192,16 +187,21 @@
 floor_plan = Series(floor_plan)
 area = Series(area)
+#各シリーズをデータフレーム化
 suumo_df = pd.concat([name, address, locations0, locations1,
                       locations2, age, height,floor,rent,admin,others,floor_plan,area],axis=1)
+#カラム名
 suumo_df.columns=['マンション名','住所','立地1','立地2','立地3','築年数','建物高さ','階','賃料','管理費',
                   '敷/礼/保証/敷引,償却','間取り','専有面積']
+#csvファイルとして保存
 suumo_df.to_csv('suumo_adachi.csv', sep = '\t',encoding='utf-16')
+```
 python version: 3.7.1

317

いらない内容を消しました。

2018/10/30 17:00

投稿

lujiaweigood

スコア13

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -12,7 +12,7 @@
 ### 該当のソースコード
-#必要なライブラリをインポート
 from bs4 import BeautifulSoup
 import requests
 import pandas as pd
@@ -34,13 +34,13 @@
-#HTMLを元に、オブジェクトを作る
 soup = BeautifulSoup(result.content,'html.parser')
 print(soup.title)
-#物件リストの部分を切り出し
 summary = soup.find("div",{'id':'js-bukkenList'})
-#ページ数を取得
 body = soup.find("body")
 pages = body.find_all("div",{'class':'pagination pagination_set-nav'})
 pages_text = str(pages)
@@ -50,48 +50,48 @@
 pages_split2 = pages_split1.replace('>','')
 pages_split3 = int(pages_split2)
-#URLを入れるリスト
 urls = []
-#1ページ目を格納
 urls.append(url)
-#2ページ目から最後のページまでを格納
 for i in range(pages_split3-1):
     pg = str(i+2)
     url_page = url + '&pn=' + pg
     urls.append(url_page)
-name = [] #マンション名
+name = []
-address = [] #住所
+address = []
-locations0 = [] #立地1つ目（最寄駅/徒歩~分）
+locations0 = []
-locations1 = [] #立地2つ目（最寄駅/徒歩~分）
+locations1 = []
-locations2 = [] #立地3つ目（最寄駅/徒歩~分）
+locations2 = []
-age = [] #築年数
+age = []
-height = [] #建物高さ
+height = []
-floor = [] #階
+floor = []
-rent = [] #賃料
+rent = []
-admin = [] #管理費
+admin = []
-others = [] #敷/礼/保証/敷引,償却
+others = []
-floor_plan = [] #間取り
+floor_plan = []
-area = [] #専有面積
+area = []
-#各ページで以下の動作をループ
 for url in urls:
-    #物件リストを切り出し
     c = urllib.request.urlopen(url)
     soup = BeautifulSoup(c,'html.parser')
     summary = soup.find("div",{'id':'js-bukkenList'})
-    #マンション名、住所、立地（最寄駅/徒歩~分）、築年数、建物高さが入っているcassetteitemを全て抜き出し
     cassetteitems = summary.find_all("div",{'class':'cassetteitem'})
-    #各cassetteitemsに対し、以下の動作をループ
     for i in range(len(cassetteitems)):
-        #各建物から売りに出ている部屋数を取得
         tbodies = cassetteitems[i].find_all('tbody')
-        #マンション名取得
         subtitle = cassetteitems[i].find_all("div",{
             'class':'cassetteitem_content-title'})
         subtitle = str(subtitle)
@@ -100,7 +100,7 @@
         subtitle_rep2 = subtitle_rep.replace(
             '</div>]', '')
-        #住所取得
         subaddress = cassetteitems[i].find_all("li",{
             'class':'cassetteitem_detail-col1'})
         subaddress = str(subaddress)
@@ -109,16 +109,16 @@
         subaddress_rep2 = subaddress_rep.replace(
             '</li>]', '')
-        #部屋数だけ、マンション名と住所を繰り返しリストに格納（部屋情報と数を合致させるため）
         for y in range(len(tbodies)):
             name.append(subtitle_rep2)
             address.append(subaddress_rep2)
-        #立地を取得
         sublocations = cassetteitems[i].find_all("li",{
             'class':'cassetteitem_detail-col2'})
-        #立地は、1つ目から3つ目までを取得（4つ目以降は無視）
         for x in sublocations:
             cols = x.find_all('div')
             for i in range(len(cols)):
@@ -131,7 +131,7 @@
                     elif i == 2:
                         locations2.append(text)
-        #築年数と建物高さを取得
         tbodies = cassetteitems[i].find_all('tbody')
         col3 = cassetteitems[i].find_all("li",{
             'class':'cassetteitem_detail-col3'})
@@ -145,15 +145,15 @@
                     else:
                         height.append(text)
-    #階、賃料、管理費、敷/礼/保証/敷引,償却、間取り、専有面積が入っているtableを全て抜き出し
     tables = summary.find_all('table')
-    #各建物（table）に対して、売りに出ている部屋（row）を取得
     rows = []
     for i in range(len(tables)):
         rows.append(tables[i].find_all('tr'))
-    #各部屋に対して、tableに入っているtext情報を取得し、dataリストに格納
     data = []
     for row in rows:
         for tr in row:
@@ -162,7 +162,7 @@
                 text = td.find(text=True)
                 data.append(text)
-    #dataリストから、階、賃料、管理費、敷/礼/保証/敷引,償却、間取り、専有面積を順番に取り出す
     index = 0
     for item in data:
         if '階' in item:
@@ -174,10 +174,10 @@
             area.append(data[index+5])
         index +=1
-    #プログラムを10秒間停止する（スクレイピングマナー）
     time.sleep(10)
-#各リストをシリーズ化
 name = Series(name)
 address = Series(address)
 locations0 = Series(locations0)
@@ -192,15 +192,15 @@
 floor_plan = Series(floor_plan)
 area = Series(area)
-#各シリーズをデータフレーム化
 suumo_df = pd.concat([name, address, locations0, locations1,
                       locations2, age, height,floor,rent,admin,others,floor_plan,area],axis=1)
-#カラム名
 suumo_df.columns=['マンション名','住所','立地1','立地2','立地3','築年数','建物高さ','階','賃料','管理費',
                   '敷/礼/保証/敷引,償却','間取り','専有面積']
-#csvファイルとして保存
 suumo_df.to_csv('suumo_adachi.csv', sep = '\t',encoding='utf-16')

317