HTMLページの取得自体は、それらへのリンクになっている文字列がある程度限定されていると思うので、90%以上の企業サイトでOKとかを求めなければ可能かと思います。ただ、「どこかにあるはずの"会社概要"という文字列を探してクリックする」というプログラムを書くのは非常にめんどくさいと思います。
HTMLページを取得してから、必要な情報をスクレイピングするには、AIを使うのでしょうね。成功率が低くてよいなら正規表現でも可能かと思います。
例えば、小学生に該当ページを見せて、「この中からこれこれこういう方法で、これこれの情報を抜き出して」と指示してほぼ出来そうな指示文章が出来たなら、それをプログラム化すればAIを使わなくても可能かと思いますが、その見極めにも時間と手間がかかります。
AIを使うか自力で書くか、どちらにせよ、スクレイピング結果が正しいかどうかのチェックをどうするかですね。検証するか、プログラム出力結果を信じるか、どう考えていますか?
ということで、「開発にいくら時間がかかってもいいので、この方法でやりたい」とかでない限りは、各企業のサイトからの取得はやめたほうがいいと思います。
手動でサイトを見て回ってコピペするほうが早くて楽でしょう。単純作業は辛いですが、掛けた時間と得られる会社数が比例するので、開発と違って、手戻りもないし、悩むこともないです。
そもそもですが、会社名・住所・代表者名・設立年・資本金 程度であれば、国のサイトで無料で検索可能です。
https://info.gbiz.go.jp/
利用規約は見てませんが、APIがあるということは、手動かAPIかの二択なのでしょうね。APIは楽だし、サイトのデザイン変更に影響されないので安心です。
ただし、必ずしも全項目載ってないですね。試しにTeratailの運営会社を検索してみましたが、設立年と資本金が載ってません。複数の外部サイトからデータを取得しているようなので、そのサイトに載ってないのでしょう。有料のサービスであれば載ってないことはないと思いますが、料金が1件いくらなので、対象企業数が多いなら金額が上がります。
私がやるなら、まずは経済産業省のサイトのAPIで検索して、必要項目の未記入があればその数次第で、手動でウェブサイトを見るか、料金払って有料サービス使うか(多分しない)。上場企業であれば、会社四季報を見るか。