大規模なクローリングの仕組みについて質問です。
(エンジニアリングに疎いため拙い質問で恐れ入ります。)
各社のサイトから求人情報をクローリングする求人検索エンジンIndeedを例に挙げます。
Indeedに自社サイトをクローリングしてもらうための条件の一つに「HTML形式の求人情報であること」とあり、それを満たせば(他にも条件はありますが)クローリングをしてくれるようなのですが、各サイトごとにページの構造や要素が違うのに、どうやって情報を取得しているのかが気になりました。
そこで質問なのですが、ページ構造や要素が違う複数のサイトでもクローリングは可能なのでしょうか?
(1つ、2つのサイトであればそれぞれに適したクローラーを用意すればできるのではと思うのですが、ここでは数十万サイトをクローリングすると仮定します。)
できるとしたらそれはどのように行うのでしょうか?
※Indeedが行なっている方法は明らかになっていないと思うので一般的な技術例を教えていただきたいです。
あなたの回答
tips
プレビュー