やりたいこと
こちらのサイトの学生数と大学を全てスクレイピングしたいのですが要素が
<br>
--大学
<br>
ーー大学
<br>
ーー大学
.
.
.
となっていてるためスクレイピングできるタグがありません。どうしたら良いでしょうか?
気になる質問をクリップする
クリップした質問は、後からいつでもMYページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
回答3件
0
覗いてみました。
それら全体を囲む<div>
のtext要素を
split(/<br />\d+位:/)
で分けて、最初を捨て最後を整形すれば良いのでは
投稿2020/07/26 00:09
編集2020/07/26 00:11総合スコア23569
0
ベストアンサー
書いてみました
正規表現で巧く抜き出してあげると、「ランキング」「大学名」「在籍学生数」の3要素を Hash としてまとめることもできると思います
ruby
1require 'nokogiri' 2 3html = <<EOF 4<div class="Article__content">... 5... 6... 7EOF 8 9html = Nokogiri::HTML(html) 10 11# 正規表現で、順位, 大学名, 在籍者数を含む文字列を抜き出し 12def extract_universities(html) 13 regexp = /([0-91234567890]{1,3}位:[○ ● ▲ ◆][^)]+))/ 14 _, *data = html.text.split(regexp) 15 .filter { |x| x.include?('大学') } 16 data 17end 18 19# 順位の全角数字 (1 〜 9位) を半角に変換 20def parse_ranking_number(char) 21 trigger_pattern = %w[1 2 3 4 5 6 7 8 9] 22 23 case char 24 when *trigger_pattern 25 trigger_pattern.index(char).succ 26 else 27 char.to_i 28 end 29end 30 31# 順位, 大学名, 在籍者数を含む文字列をそれら要素ごとに分解して Hash に纏める 32def parse_to_hash(universities_info_list) 33 universities_info_list.map do |x| 34 ranking, university_name = x.split(/位:[○ ● ▲ ◆]/) 35 university_name, number_of_students = university_name.to_s.split(/(/) 36 37 next if university_name.nil? 38 39 { 40 ranking: parse_ranking_number(ranking), 41 name: university_name, 42 number_of_students: number_of_students.to_s.delete('),').to_i 43 } 44 end 45end 46 47data = extract_universities(html) 48# => ["1位:○日本大学(67,353)", ...] 49 50pp parse_to_hash(data).compact 51# => [{:ranking=>1, :name=>"日本大学", :number_of_students=>67353}, ...]
なにか参考になれば幸いです
Link
投稿2020/07/26 10:08
編集2020/07/27 12:19総合スコア2321
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
goufさんありがとうございます。当方スクレイピングのスの字もわからないのですが、このコードを自分のファイルにコピペしたあとどのようにterminal上または sqlite3 のdb常に情報を抜き出すことができるのでしょうか?
初歩的な質問ですみません。
2020/07/27 04:36 編集
大学の一覧情報が載っている <div> タグが含まれている HTML をコードに載せてあげると、上記回答したコードは (例示出力結果のコメントのように) 動作するようになっています。
SQLite3 に関わる部分は、別質問として新たに質問したほうが、話題のまとまりを保てて良いと思います。
まずは質問内容が解決したか、改善・変化があったかの判断が先かと思います。
ひとつひとつ、確実に解決していきましょう。
2020/07/27 05:07
ただいま無事にできました!当方スクレピングの知識が全くなかったため的外れな質問をしてしまいました。
と同時にやはりプログラミングの世界には魔法使いと言われる人がいるんだなーと思いました。こんなコード自分では一生思いつかなかったです笑回答いただきありがとうございました!
あなたの回答
tips
太字
斜体
打ち消し線
見出し
引用テキストの挿入
コードの挿入
リンクの挿入
リストの挿入
番号リストの挿入
表の挿入
水平線の挿入
プレビュー
質問の解決につながる回答をしましょう。 サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。 また、読む側のことを考えた、分かりやすい文章を心がけましょう。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。