質問するログイン新規登録
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Playwright

Playwrightは、Node.js、Python、Java、.NETでクロスブラウザのエンドツーエンドテストを自動化するためのライブラリです。 単一のAPIでChromium、Firefox、WebKitを操作できます。オートウェイト、自動スクロール、ネットワークインターセプトなどの機能を提供しています。

Q&A

2回答

625閲覧

企業ホームページから会社概要(社名・住所など)をPythonで自動取得する方法は現実的でしょうか?

sutefani7863

総合スコア0

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Playwright

Playwrightは、Node.js、Python、Java、.NETでクロスブラウザのエンドツーエンドテストを自動化するためのライブラリです。 単一のAPIでChromium、Firefox、WebKitを操作できます。オートウェイト、自動スクロール、ネットワークインターセプトなどの機能を提供しています。

0グッド

0クリップ

投稿2025/07/16 09:45

0

0

お世話になります。
Pythonでのスクレイピングを使って、複数の企業ホームページから「会社概要」(会社名・住所・代表者名・設立年・資本金など)を自動取得できないか検討しています。

採用系の媒体(例:マイナビ・ハリケンナビなど)はHTML構造が比較的統一されているため、スクレイピングが容易なのですが、公式ホームページは企業ごとに構造がバラバラなため、以下の点で悩んでいます。

ご相談したいこと
・HTML構造が統一されていない場合、どこまで自動取得できるのか?
・技術的に現実的かどうか(精度・手間・対応範囲など)
・もし難しい場合、代替手段や実現に向けた工夫(例:事前に構造を分類するなど)
・CSVなどで企業URLをリスト化して一括取得する処理は可能か?

今のところは、BeautifulSoupやPlaywrightの利用も視野に入れていますが、自然言語処理などを使わないと難しいのかも?と感じております。
同様の課題に取り組んだ経験のある方がいらっしゃれば、アドバイスをいただけると嬉しいです。

よろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

meg_

2025/07/16 09:56

> Pythonでのスクレイピングを使って、複数の企業ホームページから「会社概要」(会社名・住所・代表者名・設立年・資本金など)を自動取得できないか検討しています。 「会社概要」はそうそう変わらないかと思うのですが手動ではなく自動で取得したいのは何か理由があるのでしょうか?
melian

2025/07/16 10:10 編集

> 「会社概要」(会社名・住所・代表者名・設立年・資本金など) 有料になりますが、帝国データバンクを利用してみてはどうでしょうか。 TDB企業サーチ| 株式会社 帝国データバンク https://www.tdb.co.jp/
miyabi-sun

2025/07/16 10:29

確かにデータ集めてる人間に聞くのが一番楽ですね。 上場している会社ならば四季報のWebサイトを利用するのもありかも知れません。 規約とかは呼んでないのでクローリングしている最中にアクセス禁止措置食らうかも知れないので、その辺よく調べてみてください。
guest

回答2

0

HTMLページの取得自体は、それらへのリンクになっている文字列がある程度限定されていると思うので、90%以上の企業サイトでOKとかを求めなければ可能かと思います。ただ、「どこかにあるはずの"会社概要"という文字列を探してクリックする」というプログラムを書くのは非常にめんどくさいと思います。

HTMLページを取得してから、必要な情報をスクレイピングするには、AIを使うのでしょうね。成功率が低くてよいなら正規表現でも可能かと思います。
例えば、小学生に該当ページを見せて、「この中からこれこれこういう方法で、これこれの情報を抜き出して」と指示してほぼ出来そうな指示文章が出来たなら、それをプログラム化すればAIを使わなくても可能かと思いますが、その見極めにも時間と手間がかかります。
AIを使うか自力で書くか、どちらにせよ、スクレイピング結果が正しいかどうかのチェックをどうするかですね。検証するか、プログラム出力結果を信じるか、どう考えていますか?

ということで、「開発にいくら時間がかかってもいいので、この方法でやりたい」とかでない限りは、各企業のサイトからの取得はやめたほうがいいと思います。
手動でサイトを見て回ってコピペするほうが早くて楽でしょう。単純作業は辛いですが、掛けた時間と得られる会社数が比例するので、開発と違って、手戻りもないし、悩むこともないです。

そもそもですが、会社名・住所・代表者名・設立年・資本金 程度であれば、国のサイトで無料で検索可能です。
https://info.gbiz.go.jp/
利用規約は見てませんが、APIがあるということは、手動かAPIかの二択なのでしょうね。APIは楽だし、サイトのデザイン変更に影響されないので安心です。
ただし、必ずしも全項目載ってないですね。試しにTeratailの運営会社を検索してみましたが、設立年と資本金が載ってません。複数の外部サイトからデータを取得しているようなので、そのサイトに載ってないのでしょう。有料のサービスであれば載ってないことはないと思いますが、料金が1件いくらなので、対象企業数が多いなら金額が上がります。

私がやるなら、まずは経済産業省のサイトのAPIで検索して、必要項目の未記入があればその数次第で、手動でウェブサイトを見るか、料金払って有料サービス使うか(多分しない)。上場企業であれば、会社四季報を見るか。

投稿2025/07/20 17:31

otn

総合スコア86374

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

上場企業であれば普通にファイナンス系のサイトからスクレイピングしてデータを取得できるでしょう。
中小企業をターゲットにするなら下手にプログラムを組むより名簿屋から買うほうが効率的です

投稿2025/07/18 00:57

yambejp

総合スコア118024

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.30%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問