質問編集履歴

1

タイトル、ソースコードを追加

2019/05/22 06:44

投稿

nyanpoo
nyanpoo

スコア12

test CHANGED
@@ -1 +1 @@
1
- python seleniumでChrome動かすとUnknown policy:と表示され
1
+ python seleniumでクローラー作成したいがdictの中身が空にな
test CHANGED
@@ -2,7 +2,7 @@
2
2
 
3
3
 
4
4
 
5
- ある動的なhttpsサイトから店舗リストを全てスクレイピングしようとしています
5
+ ある動的なhttpsサイトからリストを全てスクレイピングしようとしています
6
6
 
7
7
 
8
8
 
@@ -10,7 +10,9 @@
10
10
 
11
11
 
12
12
 
13
- Unknown policy: DnsPrefetchingEnabled
13
+ 途中まででprint()で値が表示されるのにdictが空になる
14
+
15
+ クローラーを作りたいのに1件しかデータを取りにいっていない気がする
14
16
 
15
17
 
16
18
 
@@ -20,19 +22,75 @@
20
22
 
21
23
  ```Python
22
24
 
23
- url='とりたいURL'
25
+ url='https://advisors-freee.jp/advisors/search'
24
26
 
25
27
  from selenium import webdriver
26
-
27
-
28
28
 
29
29
  browser = webdriver.Chrome()
30
30
 
31
31
  browser.implicitly_wait(10)
32
32
 
33
+ browser.get(url)
33
34
 
34
35
 
36
+
37
+ assert'全国の税理士一覧|税理士検索freee'in browser.title
38
+
39
+
40
+
41
+ links = browser.find_elements_by_css_selector('h3.search-ttl')
42
+
43
+ company_name = links[0].text
44
+
45
+
46
+
35
- browser.get(url)
47
+ links[0].click()
48
+
49
+
50
+
51
+ new_window = browser.window_handles[1]
52
+
53
+ browser.switch_to_window(new_window)
54
+
55
+
56
+
57
+ member = browser.find_elements_by_css_selector('div.right-box')
58
+
59
+ #assert '認定アドバイザー' in member.find_element_by_css_selector('h2').text
60
+
61
+
62
+
63
+ member_dict = {}
64
+
65
+ member_dict[company_name] = member
66
+
67
+
68
+
69
+ import requests
70
+
71
+ from bs4 import BeautifulSoup
72
+
73
+
74
+
75
+ member_list = []
76
+
77
+ for member_dict in member:
78
+
79
+ member_list.append(member)
80
+
81
+
82
+
83
+ import pandas as pd
84
+
85
+ F_dt = pd.DataFrame.from_dict(member)
86
+
87
+ F_dt.apply( lambda x: x.str.replace(r'(new|写真|動画)',''))
88
+
89
+
90
+
91
+ print(F_dt)
92
+
93
+
36
94
 
37
95
  ```
38
96
 
@@ -42,17 +100,9 @@
42
100
 
43
101
 
44
102
 
45
- このプログラムが紹介されている照先のHttpで施行した
103
+ 考にしたURLはちらです。
46
104
 
47
- 問題なくurlの内容を取得できました。
48
-
49
-
50
-
51
- url = 'https://disclosure.edinet-fsa.go.jp/E01EW/BLMainController.jsp?uji.verb=W1E63031Search&uji.bean=ee.bean.W1E63030.EEW1E63031Bean&PID=W1E63030&TID=W1E63031&SESSIONKEY=1505008790454&stype=0&dcdSelect=12001&hcdSelect=01001&ycdSelect=03001400&tsbSdt=&kbn=1&lgKbn=2&pkbn=0&skbn=1&dskb=&askb=&dflg=0&iflg=0&preId=1&chr=%E6%B2%BF%E9%9D%A9&hbn=true&spf5=2&otd=12001&hcd=01001&ycd=03001400&sec=&scc=&snm=&spf1=1&spf2=1&iec=&icc=&inm=&spf3=1&fdc=&fnm=&spf4=1&cal=1&era=H&yer=&mon=&psr=1&pid=4'
52
-
53
-
54
-
55
-
105
+ https://takahiromiura.github.io/Selenium.html
56
106
 
57
107
 
58
108