質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

1回答

252閲覧

検索エンジン indeed

退会済みユーザー

退会済みユーザー

総合スコア0

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

1クリップ

投稿2019/04/07 20:49

yahoo indeed ジョブ北 あるきた 転職エージェントなど多量のサイトを起源として、 仕事名、電話番号、メールアドレスなどをクロールするシステムを作りたい。 単一のサイトならば、仕事名は class=jobemployer などで固定されていてスクレイプしやすいと思うのですが、 複数のサイトにまたがっていると、 <h1 class=... など表記が異なる。 indeedなどさまざまなサイトから情報を引っ張ってまとめている検索エンジンの仕組み 特にクロールはどうなっているのか教えて欲しいです。

ex
■検索サイト
Yahoo、Google、企業サイト、楽天市場、Yahooショッピング、ハローワーク、タウンワーク、楽天トラベル、ぐるなび、ホットペッパー、アットホーム、価格.com、iタウンページ、食べログ、マイナビ、Googleマップ、リクナビ、リクナビnext、DODA、エン転職、domain、whois(全部・個別選択)

■収集項目
企業名、部署名、担当者、メールアドレス、住所、引用先URL、業界、職種、電話番号、資本金、従業員数、設立年月日、年商、検索キーワード

■検索方法
・業種
・職種
・地域(都道府県)
・フリーワード検索

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

tiitoi

2019/04/08 02:06 編集

> indeedなどさまざまなサイトから情報を引っ張ってまとめている検索エンジンの仕組み 提携して、各社が提供する API などを利用して情報を得ているので、HTML を解析するスクレイピング方法で各求人サイトに無許可で情報を集めているわけではないです。
退会済みユーザー

退会済みユーザー

2019/04/08 09:12

もし、上記のように多量の情報を得たいなら、APIを使うべきということですか?
tiitoi

2019/04/08 09:41 編集

クロールして集めた情報をどのような目的で使いたいのでしょうか? 「indeedなどさまざまなサイトから情報を引っ張ってまとめている検索エンジンの仕組み」とは https://job.yahoo.co.jp/ 等のことを指していっていますか?
退会済みユーザー

退会済みユーザー

2019/04/08 11:10

WEBサイトを自動的にクロールして検索していく中で、 特に企業名、部署、メアドなどを収集するシステムの開発で、対象サイトはyahooから小規模まで様々。 indeedはさまざまなサイト(企業)から情報を得ているため似ていると思い
退会済みユーザー

退会済みユーザー

2019/04/08 16:07

具体例として書きました。
tiitoi

2019/04/09 04:22

そのようなことを厳密にやりたい場合は、サイトごとに HTML の構成が異なるので、基本的には個別に解析するスクリプトを書く必要があると思います。 メールアドレスや企業名等であれば、大雑把でよければ、テキスト全体から正規表現で引っ掛けることもできるかもしれません。(~株式会社、~@ドメイン などで) 実際世の中にあるクローリングして情報を集めて、自動で内容を処理するシステムというのは Google ぐらいで、他の特定分野に特化している検索サイトというのは、クローリングで情報を集めているわけではありません。 例えば、不動産検索サイトの summo やニュースキュレーションサイトのスマートニュースなどでは、1次ソースの企業からデータを提供してもらう形で情報を得ています。
退会済みユーザー

退会済みユーザー

2019/04/09 20:12

ありがとうございます
guest

回答1

0

ベストアンサー

最初は、収集項目をコードで設定してスクレイプをするプログラムを作成し、機械学習を使ってそれを自動化していくようにすればいいのではないでしょうか。

企業名、部署名、担当者、メールアドレス、住所、引用先URL、業界、職種、電話番号等はそれぞれに特徴があるので、サイト毎に表記が異なっていても自動で分類ができると思います。例えば、メールアドレス、電話番号はみただけでわかりますよね。それから、企業名と住所は、国税庁が法人番号の関係で、法人の基本3情報のデータ公開しているので、それと照合すれば、どの項目が企業名か住所かはすぐにわかると思います。

また、Google の Cloud Natural Language API を使うと文章から、それがどういうカテゴリーに属するか分析してくれます。

投稿2019/04/09 05:40

YasuhiroNiji

総合スコア584

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2019/04/09 20:12

ありがとうございます
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問