質問編集履歴
4
文法訂正
title
CHANGED
File without changes
|
body
CHANGED
@@ -1,8 +1,8 @@
|
|
1
1
|
現代俳句データベースの俳句を取得したいと考えています。
|
2
2
|
しかしながら、以下のコードでは、複数のページを取得するためには、一つの季節だけで何百という記載をしなければならなく非効率的になってしまいます。
|
3
3
|
もしよろしければ、効率的なスクレイピングの方法をご教授ください。
|
4
|
+
何卒、よろしくお願いいたします。
|
4
5
|
|
5
|
-
|
6
6
|
[現代俳句データベーストップ](http://www.haiku-data.jp/top.php)
|
7
7
|
http://www.haiku-data.jp/top.php
|
8
8
|
|
3
文法訂正
title
CHANGED
File without changes
|
body
CHANGED
@@ -1,5 +1,5 @@
|
|
1
1
|
現代俳句データベースの俳句を取得したいと考えています。
|
2
|
-
しかしながら、以下のコードでは、複数のページを取得するためには、
|
2
|
+
しかしながら、以下のコードでは、複数のページを取得するためには、一つの季節だけで何百という記載をしなければならなく非効率的になってしまいます。
|
3
3
|
もしよろしければ、効率的なスクレイピングの方法をご教授ください。
|
4
4
|
|
5
5
|
|
2
文法訂正
title
CHANGED
File without changes
|
body
CHANGED
@@ -13,6 +13,7 @@
|
|
13
13
|
import re
|
14
14
|
import urllib.parse as par
|
15
15
|
import urllib.request as req
|
16
|
+
import time
|
16
17
|
|
17
18
|
|
18
19
|
def write2file(fname, sentences):
|
@@ -35,6 +36,7 @@
|
|
35
36
|
word_list = ["藍蒔く"]
|
36
37
|
for fname, word in zip(fname_list, word_list):
|
37
38
|
with req.urlopen(link + par.quote_plus(word)) as response:
|
39
|
+
time.sleep(1)
|
38
40
|
html = response.read().decode('utf-8')
|
39
41
|
all_p_tag = re.findall("<a>.+?</a>", html, re.MULTILINE | re.DOTALL)
|
40
42
|
temp = []
|
1
文法訂正
title
CHANGED
@@ -1,1 +1,1 @@
|
|
1
|
-
複数のページを効率的にスクレイピングしたい
|
1
|
+
複数のページを効率的にスクレイピングしたいです
|
body
CHANGED
File without changes
|