質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.46%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

RubyGems

RubyGemsはRubyによるプログラミングのためのパッケージマネジメントツールです。ユーザはこれを使用することで、Rubyライブラリのダウンロードやアップデートや、依存関係の自動解決が可能になります。

Ruby on Rails

Ruby on Railsは、オープンソースのWebアプリケーションフレームワークです。「同じことを繰り返さない」というRailsの基本理念のもと、他のフレームワークより少ないコードで簡単に開発できるよう設計されています。

Q&A

解決済

3回答

795閲覧

Nokogiri で <br>で囲まれている要素のスクレイピングができない。

atage517

総合スコア36

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

RubyGems

RubyGemsはRubyによるプログラミングのためのパッケージマネジメントツールです。ユーザはこれを使用することで、Rubyライブラリのダウンロードやアップデートや、依存関係の自動解決が可能になります。

Ruby on Rails

Ruby on Railsは、オープンソースのWebアプリケーションフレームワークです。「同じことを繰り返さない」というRailsの基本理念のもと、他のフレームワークより少ないコードで簡単に開発できるよう設計されています。

0グッド

0クリップ

投稿2020/07/25 12:18

やりたいこと

こちらのサイトの学生数と大学を全てスクレイピングしたいのですが要素が
<br>
--大学
<br>
ーー大学
<br>
ーー大学
.
.
.
となっていてるためスクレイピングできるタグがありません。どうしたら良いでしょうか?

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答3

0

覗いてみました。
それら全体を囲む<div>のtext要素を
split(/<br />\d+位:/) で分けて、最初を捨て最後を整形すれば良いのでは

投稿2020/07/26 00:09

編集2020/07/26 00:11
winterboum

総合スコア23416

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

ベストアンサー

書いてみました

正規表現で巧く抜き出してあげると、「ランキング」「大学名」「在籍学生数」の3要素を Hash としてまとめることもできると思います

ruby

1require 'nokogiri' 2 3html = <<EOF 4<div class="Article__content">... 5... 6... 7EOF 8 9html = Nokogiri::HTML(html) 10 11# 正規表現で、順位, 大学名, 在籍者数を含む文字列を抜き出し 12def extract_universities(html) 13 regexp = /([0-91234567890]{1,3}位:[○ ● ▲ ◆][^)]+))/ 14 _, *data = html.text.split(regexp) 15 .filter { |x| x.include?('大学') } 16 data 17end 18 19# 順位の全角数字 (1 〜 9位) を半角に変換 20def parse_ranking_number(char) 21 trigger_pattern = %w[1 2 3 4 5 6 7 8 9] 22 23 case char 24 when *trigger_pattern 25 trigger_pattern.index(char).succ 26 else 27 char.to_i 28 end 29end 30 31# 順位, 大学名, 在籍者数を含む文字列をそれら要素ごとに分解して Hash に纏める 32def parse_to_hash(universities_info_list) 33 universities_info_list.map do |x| 34 ranking, university_name = x.split(/位:[○ ● ▲ ◆]/) 35 university_name, number_of_students = university_name.to_s.split(/(/) 36 37 next if university_name.nil? 38 39 { 40 ranking: parse_ranking_number(ranking), 41 name: university_name, 42 number_of_students: number_of_students.to_s.delete('),').to_i 43 } 44 end 45end 46 47data = extract_universities(html) 48# => ["1位:○日本大学(67,353)", ...] 49 50pp parse_to_hash(data).compact 51# => [{:ranking=>1, :name=>"日本大学", :number_of_students=>67353}, ...]

なにか参考になれば幸いです

Link

Rubular: a Ruby regular expression editor

投稿2020/07/26 10:08

編集2020/07/27 12:19
gouf

総合スコア2321

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

atage517

2020/07/27 02:49

goufさんありがとうございます。当方スクレイピングのスの字もわからないのですが、このコードを自分のファイルにコピペしたあとどのようにterminal上または sqlite3 のdb常に情報を抜き出すことができるのでしょうか? 初歩的な質問ですみません。
gouf

2020/07/27 04:36 編集

大学の一覧情報が載っている <div> タグが含まれている HTML をコードに載せてあげると、上記回答したコードは (例示出力結果のコメントのように) 動作するようになっています。 SQLite3 に関わる部分は、別質問として新たに質問したほうが、話題のまとまりを保てて良いと思います。 まずは質問内容が解決したか、改善・変化があったかの判断が先かと思います。 ひとつひとつ、確実に解決していきましょう。
atage517

2020/07/27 05:07

ただいま無事にできました!当方スクレピングの知識が全くなかったため的外れな質問をしてしまいました。 と同時にやはりプログラミングの世界には魔法使いと言われる人がいるんだなーと思いました。こんなコード自分では一生思いつかなかったです笑回答いただきありがとうございました!
guest

0

タグで抽出できないなら、正規表現で抽出します。

投稿2020/07/25 19:32

otn

総合スコア84804

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.46%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問