Indeedなど横断検索サービスのクローリングについて

大規模なクローリングの仕組みについて質問です。
(エンジニアリングに疎いため拙い質問で恐れ入ります。)
各社のサイトから求人情報をクローリングする求人検索エンジンIndeedを例に挙げます。

Indeedに自社サイトをクローリングしてもらうための条件の一つに「HTML形式の求人情報であること」とあり、それを満たせば(他にも条件はありますが)クローリングをしてくれるようなのですが、各サイトごとにページの構造や要素が違うのに、どうやって情報を取得しているのかが気になりました。

そこで質問なのですが、ページ構造や要素が違う複数のサイトでもクローリングは可能なのでしょうか？
（1つ、2つのサイトであればそれぞれに適したクローラーを用意すればできるのではと思うのですが、ここでは数十万サイトをクローリングすると仮定します。）

できるとしたらそれはどのように行うのでしょうか？
※Indeedが行なっている方法は明らかになっていないと思うので一般的な技術例を教えていただきたいです。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだ回答がついていません

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.25%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問