回答率: 85.29%

質問するログイン新規登録

トップ 317に関する質問複数のページを効率的にスクレイピングしたいです

編集履歴

質問編集履歴

4

文法訂正

2018/10/15 14:47

投稿

スコア45

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,8 +1,8 @@
 現代俳句データベースの俳句を取得したいと考えています。
 しかしながら、以下のコードでは、複数のページを取得するためには、一つの季節だけで何百という記載をしなければならなく非効率的になってしまいます。
 もしよろしければ、効率的なスクレイピングの方法をご教授ください。
+何卒、よろしくお願いいたします。
 [現代俳句データベーストップ](http://www.haiku-data.jp/top.php)
 http://www.haiku-data.jp/top.php

3

文法訂正

2018/10/15 14:47

投稿

スコア45

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,5 +1,5 @@
 現代俳句データベースの俳句を取得したいと考えています。
-しかしながら、以下のコードでは、複数のページを取得するためには、あまりに一つの季節だけで何百という記載をしなければならなく非効率的になってしまいます。
+しかしながら、以下のコードでは、複数のページを取得するためには、一つの季節だけで何百という記載をしなければならなく非効率的になってしまいます。
 もしよろしければ、効率的なスクレイピングの方法をご教授ください。

2

文法訂正

2018/10/15 14:20

投稿

スコア45

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -13,6 +13,7 @@
 import re
 import urllib.parse as par
 import urllib.request as req
+import time
 def write2file(fname, sentences):
@@ -35,6 +36,7 @@
 word_list = ["藍蒔く"]
 for fname, word in zip(fname_list, word_list):
     with req.urlopen(link + par.quote_plus(word)) as response:
+         time.sleep(1)
         html = response.read().decode('utf-8')
         all_p_tag = re.findall("<a>.+?</a>", html, re.MULTILINE | re.DOTALL)
         temp = []

1

文法訂正

2018/10/15 14:09

投稿

スコア45

title CHANGED Viewed

	@@ -1,1 +1,1 @@
1	- 複数のページを効率的にスクレイピングしたい
1	+ 複数のページを効率的にスクレイピングしたいです

body CHANGED Viewed

File without changes