質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

Ruby on Rails

Ruby on Railsは、オープンソースのWebアプリケーションフレームワークです。「同じことを繰り返さない」というRailsの基本理念のもと、他のフレームワークより少ないコードで簡単に開発できるよう設計されています。

Q&A

解決済

1回答

435閲覧

デベロッパーツールの検証から指定したパスを入れたのに、値が帰ってこないのはなぜ?

renren643

総合スコア279

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

Ruby on Rails

Ruby on Railsは、オープンソースのWebアプリケーションフレームワークです。「同じことを繰り返さない」というRailsの基本理念のもと、他のフレームワークより少ないコードで簡単に開発できるよう設計されています。

1グッド

1クリップ

投稿2017/09/29 14:12

編集2017/09/29 14:12

この動画を見ながらスクレイピングをやっていました。
動画内にもあるように
このサイトのタイトル部分の『 comments 』というテキストを取得したい際に、

require "open-uri" require "nokogiri" url = "https://news.ycombinator.com/" user_agent = 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.63 Safari/537.36' charset = nil html = open(url, "User-Agent" => user_agent) do |f| charset = f.charset f.read end doc = Nokogiri::HTML.parse(html, nil, charset) p doc.css("#hnmain > tbody > tr:nth-child(1) > td > table > tbody > tr > td:nth-child(2) > span > a:nth-child(3)")

という指定の仕方では[]が帰ってきてしまうのはなぜでしょう?
デベロッパーツールの検証を右クリックから、そのままコピーしたものなのですが。。。

最後の部分を

p doc.at_css("a:nth-child(3)")

とするとしっかり値が帰ってきます。

cssに続く()の中身の記法の記法のルールがいまいちわかりません。

DrqYuto👍を押しています

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

開発者ツールで表示される物と、実際のHTML上の物は異なります。
例えば、

HTML

1<table> 2<tr><td>aaaa 3</table>

というHTMLファイルを表示させてみて下さい。開発者ツールだと、HTMLファイルに存在しない<html> <body> <tbody> </td> </tr>などが表示されていると思います。
スクレイピングするときには、実際のHTMLファイルにある物を使ってください。

投稿2017/09/30 10:42

otn

総合スコア84555

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

renren643

2017/09/30 12:23

>スクレイピングするときには、実際のHTMLファイルにある物を使ってください それはどのようにして確かめるのでしょうか?
otn

2017/09/30 14:46

HTMLソースを見ます。
otn

2017/10/01 10:07

ソースをゼロから見る必要は無くて、開発者ツールでXPathを調べて、それからHTMLソースを見て実際に無いタグの部分を抜けば良いです。多分tbody。
renren643

2017/10/01 13:23

わかりました。 ありがとうございます
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問