teratail header banner
teratail header banner
質問するログイン新規登録

質問編集履歴

4

文法訂正

2018/10/15 14:47

投稿

yep
yep

スコア45

title CHANGED
File without changes
body CHANGED
@@ -1,8 +1,8 @@
1
1
  現代俳句データベースの俳句を取得したいと考えています。
2
2
  しかしながら、以下のコードでは、複数のページを取得するためには、一つの季節だけで何百という記載をしなければならなく非効率的になってしまいます。
3
3
  もしよろしければ、効率的なスクレイピングの方法をご教授ください。
4
+ 何卒、よろしくお願いいたします。
4
5
 
5
-
6
6
  [現代俳句データベーストップ](http://www.haiku-data.jp/top.php)
7
7
  http://www.haiku-data.jp/top.php
8
8
 

3

文法訂正

2018/10/15 14:47

投稿

yep
yep

スコア45

title CHANGED
File without changes
body CHANGED
@@ -1,5 +1,5 @@
1
1
  現代俳句データベースの俳句を取得したいと考えています。
2
- しかしながら、以下のコードでは、複数のページを取得するためには、あまりに一つの季節だけで何百という記載をしなければならなく非効率的になってしまいます。
2
+ しかしながら、以下のコードでは、複数のページを取得するためには、一つの季節だけで何百という記載をしなければならなく非効率的になってしまいます。
3
3
  もしよろしければ、効率的なスクレイピングの方法をご教授ください。
4
4
 
5
5
 

2

文法訂正

2018/10/15 14:20

投稿

yep
yep

スコア45

title CHANGED
File without changes
body CHANGED
@@ -13,6 +13,7 @@
13
13
  import re
14
14
  import urllib.parse as par
15
15
  import urllib.request as req
16
+ import time
16
17
 
17
18
 
18
19
  def write2file(fname, sentences):
@@ -35,6 +36,7 @@
35
36
  word_list = ["藍蒔く"]
36
37
  for fname, word in zip(fname_list, word_list):
37
38
  with req.urlopen(link + par.quote_plus(word)) as response:
39
+ time.sleep(1)
38
40
  html = response.read().decode('utf-8')
39
41
  all_p_tag = re.findall("<a>.+?</a>", html, re.MULTILINE | re.DOTALL)
40
42
  temp = []

1

文法訂正

2018/10/15 14:09

投稿

yep
yep

スコア45

title CHANGED
@@ -1,1 +1,1 @@
1
- 複数のページを効率的にスクレイピングしたい
1
+ 複数のページを効率的にスクレイピングしたいです
body CHANGED
File without changes