質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

Q&A

解決済

2回答

2731閲覧

Naverまとめの全ページをスクレイピングにはどう辿るのが効率的でしょうか。

cutter

総合スコア140

Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

0グッド

0クリップ

投稿2017/02/01 10:48

ネイバーの全ページのタイトル、リンクを収集したいのですが、
https://matome.naver.jp/sitemap.xml こちらのサイトマップには全件無さそうで、URLにある個別のIDは前記事連番では無いので、カウントダウンしながら等は難しいのかなと思いました。

リンクをクローラで回してたどる場合は重複ページを開くことが非常に多くなるため、効率的ではないかと思うのですが、ロジックが思いつかないのですが、どのようにすれば効率よく、存在するページを辿っていけるでしょうか。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

利用規約ぐらい読みましょうよ。

抜粋
第4条(コンテンツの取扱い)
本サービスが当然に予定している利用態様を超えて利用(複製、送信、転載、改変などの行為を含みます。)してはなりません。

ただし、コンテンツを入手したいのであれば、コンテンツ提供をビジネスとして想定した規約になっているので、運営会社へコンタクトすることで、入手できると思います。

投稿2017/02/01 11:21

退会済みユーザー

退会済みユーザー

総合スコア0

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

cutter

2017/02/01 11:26

統計分析に使うようなイメージでも引っかかるのでしょうかね。 複製ではなくビッグデータ分析なら良いかと思いました。
退会済みユーザー

退会済みユーザー

2017/02/01 11:32

「本サービスが当然に予定している利用態様」じゃないからスクレイピングではダメでしょ。 但し書きしたように、コンテンツ提供をビジネスとして想定しているので、運営会社へコンタクトするのがコンテンツを利用したい人のあるべき姿です。
guest

0

ベストアンサー

Ruby

1#encoding : utf-8 2require"open-uri" 3require"certified" 4 5url = "https://matome.naver.jp/girls" 6 7puts "作業開始" 8 9loop{ 10 sleep(4) 11 page = open(url, &:read) 12 title = page.scan(%r|<a href="(.+?)" title="(.+?)" >|).reject{|e| e[0].include?("odai") == false} 13 14 File.open("URL集.txt", "a") do |f| 15 title.each do |element| 16 f.puts("#{element[1]}" + "\t" + "https://matome.naver.jp#{element[0]}") 17 end 18 end 19 20 next_page = page.scan(%r|<strong>(.+?)</strong>|).flatten[0].to_i + 1 21 list = page.scan(%r|<a href="#" onclick="(.+?)" >(\d+?)</a>|).map{|e| e[1].to_i} 22 if list.include?(next_page) 23 url = "https://matome.naver.jp/girls" + "?page=" + next_page.to_s 24 puts "次は#{next_page}ページ目です。" 25 else 26 break 27 end 28} 29

考えてみました。収集した記事のタイトルとURLは「URL集」に保存されます。
###補足
Neverまとめを理解していませんでした。よく見てみると
開いたときに出てくる記事が全てではないということが分かりました。

変更

Ruby

1#encoding : utf-8 2require"open-uri" 3require"certified" 4 5base = "https://matome.naver.jp/topic/1Lv56" 6 7url = base 8 9puts "作業開始" 10 11loop{ 12 sleep(4) 13 page = open(url, &:read) 14 title = page.scan(%r|<a href="(.+?)" >(.+?)</a></h3>|) 15 16 File.open("URL集.txt", "a") do |f| 17 title.each do |element| 18 f.puts("#{element[1]}" + "\t" + "#{element[0]}") 19 end 20 end 21 22 next_page = page.scan(%r|<strong>(.+?)</strong>|).flatten[0].to_i + 1 23 list = page.scan(%r|<a href="#" onclick="(.+?)" >(\d+?)</a>|).map{|e| e[1].to_i} 24 if list.include?(next_page) 25 url = base + "?page=" + next_page.to_s 26 puts "次は#{next_page}ページ目です。" 27 else 28 break 29 end 30}

各トピックのURLをとることができれば、eachで配列から一つずつbaseに入れて
動かせます。どうやって各トピックのURLを集めるのかという問題がありますが。
記事被りについては、別で対応した方が楽だろうと私個人は思います。

投稿2017/02/01 12:47

編集2017/02/01 13:18
退会済みユーザー

退会済みユーザー

総合スコア0

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

cutter

2017/02/01 13:26

ありがとうございます。 やはりそうやってカテゴリやタグやトピックなどの一覧をどうにか収集、からのページめくり、でもトピック被りしていたりすると膨大なデータから重複チェック、という事が必要になりそうなのですね。。
退会済みユーザー

退会済みユーザー

2017/02/01 13:34 編集

一旦記事を全て収集してから作ったテキストファイルに手を加えるということを考えています。 記事を収集しながら重複チェックをすると大変そうなので。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問