ネイバーの全ページのタイトル、リンクを収集したいのですが、
https://matome.naver.jp/sitemap.xml こちらのサイトマップには全件無さそうで、URLにある個別のIDは前記事連番では無いので、カウントダウンしながら等は難しいのかなと思いました。
リンクをクローラで回してたどる場合は重複ページを開くことが非常に多くなるため、効率的ではないかと思うのですが、ロジックが思いつかないのですが、どのようにすれば効率よく、存在するページを辿っていけるでしょうか。
気になる質問をクリップする
クリップした質問は、後からいつでもMYページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
回答2件
0
利用規約ぐらい読みましょうよ。
抜粋
第4条(コンテンツの取扱い)
本サービスが当然に予定している利用態様を超えて利用(複製、送信、転載、改変などの行為を含みます。)してはなりません。
ただし、コンテンツを入手したいのであれば、コンテンツ提供をビジネスとして想定した規約になっているので、運営会社へコンタクトすることで、入手できると思います。
投稿2017/02/01 11:21
退会済みユーザー
総合スコア0
0
ベストアンサー
Ruby
1#encoding : utf-8 2require"open-uri" 3require"certified" 4 5url = "https://matome.naver.jp/girls" 6 7puts "作業開始" 8 9loop{ 10 sleep(4) 11 page = open(url, &:read) 12 title = page.scan(%r|<a href="(.+?)" title="(.+?)" >|).reject{|e| e[0].include?("odai") == false} 13 14 File.open("URL集.txt", "a") do |f| 15 title.each do |element| 16 f.puts("#{element[1]}" + "\t" + "https://matome.naver.jp#{element[0]}") 17 end 18 end 19 20 next_page = page.scan(%r|<strong>(.+?)</strong>|).flatten[0].to_i + 1 21 list = page.scan(%r|<a href="#" onclick="(.+?)" >(\d+?)</a>|).map{|e| e[1].to_i} 22 if list.include?(next_page) 23 url = "https://matome.naver.jp/girls" + "?page=" + next_page.to_s 24 puts "次は#{next_page}ページ目です。" 25 else 26 break 27 end 28} 29
考えてみました。収集した記事のタイトルとURLは「URL集」に保存されます。
###補足
Neverまとめを理解していませんでした。よく見てみると
開いたときに出てくる記事が全てではないということが分かりました。
変更
Ruby
1#encoding : utf-8 2require"open-uri" 3require"certified" 4 5base = "https://matome.naver.jp/topic/1Lv56" 6 7url = base 8 9puts "作業開始" 10 11loop{ 12 sleep(4) 13 page = open(url, &:read) 14 title = page.scan(%r|<a href="(.+?)" >(.+?)</a></h3>|) 15 16 File.open("URL集.txt", "a") do |f| 17 title.each do |element| 18 f.puts("#{element[1]}" + "\t" + "#{element[0]}") 19 end 20 end 21 22 next_page = page.scan(%r|<strong>(.+?)</strong>|).flatten[0].to_i + 1 23 list = page.scan(%r|<a href="#" onclick="(.+?)" >(\d+?)</a>|).map{|e| e[1].to_i} 24 if list.include?(next_page) 25 url = base + "?page=" + next_page.to_s 26 puts "次は#{next_page}ページ目です。" 27 else 28 break 29 end 30}
各トピックのURLをとることができれば、eachで配列から一つずつbaseに入れて
動かせます。どうやって各トピックのURLを集めるのかという問題がありますが。
記事被りについては、別で対応した方が楽だろうと私個人は思います。
投稿2017/02/01 12:47
編集2017/02/01 13:18退会済みユーザー
総合スコア0
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
退会済みユーザー
2017/02/01 13:34 編集
あなたの回答
tips
太字
斜体
打ち消し線
見出し
引用テキストの挿入
コードの挿入
リンクの挿入
リストの挿入
番号リストの挿入
表の挿入
水平線の挿入
プレビュー
質問の解決につながる回答をしましょう。 サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。 また、読む側のことを考えた、分かりやすい文章を心がけましょう。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2017/02/01 11:26
退会済みユーザー
2017/02/01 11:32