yahoo indeed ジョブ北 あるきた 転職エージェントなど多量のサイトを起源として、 仕事名、電話番号、メールアドレスなどをクロールするシステムを作りたい。 単一のサイトならば、仕事名は class=jobemployer などで固定されていてスクレイプしやすいと思うのですが、 複数のサイトにまたがっていると、 <h1 class=... など表記が異なる。 indeedなどさまざまなサイトから情報を引っ張ってまとめている検索エンジンの仕組み 特にクロールはどうなっているのか教えて欲しいです。
ex
■検索サイト
Yahoo、Google、企業サイト、楽天市場、Yahooショッピング、ハローワーク、タウンワーク、楽天トラベル、ぐるなび、ホットペッパー、アットホーム、価格.com、iタウンページ、食べログ、マイナビ、Googleマップ、リクナビ、リクナビnext、DODA、エン転職、domain、whois(全部・個別選択)
■収集項目
企業名、部署名、担当者、メールアドレス、住所、引用先URL、業界、職種、電話番号、資本金、従業員数、設立年月日、年商、検索キーワード
■検索方法
・業種
・職種
・地域(都道府県)
・フリーワード検索
> indeedなどさまざまなサイトから情報を引っ張ってまとめている検索エンジンの仕組み
提携して、各社が提供する API などを利用して情報を得ているので、HTML を解析するスクレイピング方法で各求人サイトに無許可で情報を集めているわけではないです。
もし、上記のように多量の情報を得たいなら、APIを使うべきということですか?
クロールして集めた情報をどのような目的で使いたいのでしょうか?
「indeedなどさまざまなサイトから情報を引っ張ってまとめている検索エンジンの仕組み」とは https://job.yahoo.co.jp/ 等のことを指していっていますか?
WEBサイトを自動的にクロールして検索していく中で、
特に企業名、部署、メアドなどを収集するシステムの開発で、対象サイトはyahooから小規模まで様々。
indeedはさまざまなサイト(企業)から情報を得ているため似ていると思い
具体例として書きました。
そのようなことを厳密にやりたい場合は、サイトごとに HTML の構成が異なるので、基本的には個別に解析するスクリプトを書く必要があると思います。
メールアドレスや企業名等であれば、大雑把でよければ、テキスト全体から正規表現で引っ掛けることもできるかもしれません。(~株式会社、~@ドメイン などで)
実際世の中にあるクローリングして情報を集めて、自動で内容を処理するシステムというのは Google ぐらいで、他の特定分野に特化している検索サイトというのは、クローリングで情報を集めているわけではありません。
例えば、不動産検索サイトの summo やニュースキュレーションサイトのスマートニュースなどでは、1次ソースの企業からデータを提供してもらう形で情報を得ています。
ありがとうございます
回答1件
あなたの回答
tips
プレビュー