Naverまとめの全ページをスクレイピングにはどう辿るのが効率的でしょうか。

ネイバーの全ページのタイトル、リンクを収集したいのですが、
https://matome.naver.jp/sitemap.xml こちらのサイトマップには全件無さそうで、URLにある個別のIDは前記事連番では無いので、カウントダウンしながら等は難しいのかなと思いました。

リンクをクローラで回してたどる場合は重複ページを開くことが非常に多くなるため、効率的ではないかと思うのですが、ロジックが思いつかないのですが、どのようにすれば効率よく、存在するページを辿っていけるでしょうか。

行動規範の内容に同意します

回答2件

利用規約ぐらい読みましょうよ。

抜粋
第4条（コンテンツの取扱い）
本サービスが当然に予定している利用態様を超えて利用（複製、送信、転載、改変などの行為を含みます。）してはなりません。

ただし、コンテンツを入手したいのであれば、コンテンツ提供をビジネスとして想定した規約になっているので、運営会社へコンタクトすることで、入手できると思います。

投稿2017/02/01 11:21

退会済みユーザー

総合スコア0

cutter

2017/02/01 11:26

統計分析に使うようなイメージでも引っかかるのでしょうかね。複製ではなくビッグデータ分析なら良いかと思いました。

退会済みユーザー

2017/02/01 11:32

「本サービスが当然に予定している利用態様」じゃないからスクレイピングではダメでしょ。但し書きしたように、コンテンツ提供をビジネスとして想定しているので、運営会社へコンタクトするのがコンテンツを利用したい人のあるべき姿です。

行動規範の内容に同意します

ベストアンサー

Ruby
1#encoding : utf-8
2require"open-uri"
3require"certified"
4
5url = "https://matome.naver.jp/girls"
6
7puts "作業開始"
8
9loop{
10  sleep(4)
11  page = open(url, &:read)
12  title = page.scan(%r|<a href="(.+?)" title="(.+?)"  >|).reject{|e| e[0].include?("odai") == false}
13
14  File.open("URL集.txt", "a") do |f|
15    title.each do |element|
16      f.puts("#{element[1]}" + "\t" + "https://matome.naver.jp#{element[0]}")
17    end
18  end
19
20  next_page = page.scan(%r|<strong>(.+?)</strong>|).flatten[0].to_i + 1
21  list = page.scan(%r|<a href="#" onclick="(.+?)"  >(\d+?)</a>|).map{|e| e[1].to_i}
22  if list.include?(next_page)
23    url = "https://matome.naver.jp/girls" + "?page=" + next_page.to_s
24    puts "次は#{next_page}ページ目です。"
25  else
26    break
27  end
28}
29

考えてみました。収集した記事のタイトルとURLは「URL集」に保存されます。
###補足
Neverまとめを理解していませんでした。よく見てみると
開いたときに出てくる記事が全てではないということが分かりました。

変更

Ruby
1#encoding : utf-8
2require"open-uri"
3require"certified"
4
5base = "https://matome.naver.jp/topic/1Lv56"
6
7url = base
8
9puts "作業開始"
10
11loop{
12  sleep(4)
13  page = open(url, &:read)
14  title = page.scan(%r|<a href="(.+?)" >(.+?)</a></h3>|)
15
16  File.open("URL集.txt", "a") do |f|
17    title.each do |element|
18      f.puts("#{element[1]}" + "\t" + "#{element[0]}")
19    end
20  end
21
22  next_page = page.scan(%r|<strong>(.+?)</strong>|).flatten[0].to_i + 1
23  list = page.scan(%r|<a href="#" onclick="(.+?)"  >(\d+?)</a>|).map{|e| e[1].to_i}
24  if list.include?(next_page)
25    url = base + "?page=" + next_page.to_s
26    puts "次は#{next_page}ページ目です。"
27  else
28    break
29  end
30}