前提・実現したいこと
特定のウェブサイト(店舗や会社等)から必要な情報を手作業でコピー&ペーストする作業をなるべく自動化するために、Webスクレイピングのツールを作りたいと考えています。
今回は、手段としてPowershell ISEを考えており、Powershell ISEに下記コマンドを入力し、現在開いているInternetExplorerのウェブページのHTML情報を吸い出しています。
そのうえで、吸い出したHTMLから下記のような特定のワードに合致する情報をテキストデータに出力できるようにしたいと思っています。
特定のワードの例
>会社概要、住所、特定商取引法の表示の有無、商材、価格帯等
発生している問題・エラーメッセージ
どのようにして吸い出したHTMLから上記の特定のワードの例に合致する必要な情報だけをテキスト化するのか(できるのか)が分かりません。あるいはVBAを用いる方がいいのかもと考えましたが、仕事柄、ExcelVBA、AccessVBAは多用しますが、WebスクレイピングであればVBAにこだわらず、Windowsの資産を生かし、VBSやPowershellが良いのではと思った次第です。
該当のソースコード
Powershellに入れるコマンド>
$shell=new-object -comobject shell.application
$ieWindows=$shell.windows()|where-object{$_.name -match "Internet Explorer"}
$ieWindows.document.body|select-object *
環境
Windows10 Pro64bit
MicrosoftOffice:2016または365Solo
最終的な目標
最終のテキストのアウトプットは、一例として吸い出したHTMLから下記のような情報をテキストファイルにできればと思います。
会社名:○○○
住所:○○○
代表者名:○○○
電話番号:○○○
取扱商材:○○○
価格帯:○○円~○○円
恐れ入りますが、何か良い方法がございましたら是非ご教示いただきたく、何卒よろしくお願い申し上げます。
あなたの回答
tips
プレビュー