既存のWebサイトの「ブラウザに表示される文字列」のみを取得したいです。
========================================
【例 と 内部的な事情】
========================================
・参照先のWebサイト200サイトのURLリストは自分で作る
・目的の200サイトの「ブラウザに表示される文字列」のみを取得したい
・UWSCのIEGETDATA等を使って、目的は達成しているが、
時々、予定外のエラーが起きる(つまり、ブラウザを使うので不安定)であることと、
開発用のハイスペックのデスクトップでは稼働しても、従業員のノートパソコンだと
「想定外のエラー」みたいなものが発生して時々、停止してしまうので改善をしたいです。
・時間を短縮するために、8スレッド程度、別々にIEを同時に制御してコンテンツの文字列のみを
取得できているが、本来、404エラー等ではない場合でもエラーになってしまう場合があり困っている。
========================================
【目標】
========================================
複数スレッドで強引に時間短縮をするのではなくて
シングル処理で実行して、且つ、ブラウザオブジェクトは使わない 且つ 安定動作 を目指したい。
vb.netのSystem.IO.StreamReader のようなWebサーバーからWEBブラウザを介さずに
ソースを取得する動きで「ブラウザに表示されている文字」のみを取得したい。
vb.netのStreamReader にて、
「ソース全体を取得した後、正規表現などで文章以外のもを排除する」ということをした場合
HTMLのタグは排除できても、例外が多すぎて、「すべての例外が発生しなくなるまで対応策を施すべきか?」と
抜本的な解決方法を検討したいということです。
上記の例外とは 例えば
・「<」という文字列が登場すれば「<」に置き換える
・JAVAスクリプトは残ってしまうのはどうればよいか
みたいなことです。
ひとつづつ対策を施すよりも
【例1】UWSCでいうところのIEGETDATA (ブラウザに表示される文字のみ取得する)
【例2】手作業でいうところの ブラウザに表示されているものを全選択→コピー 、メモ帳に張り付け
みたいなものが 例えば、vb.netで実現できるなら、自動的に「表示されている文字」のみをフィルタリングして
取得できるのでうれしいということです。
========================================
【結論】
========================================
vb.net以外のものを使用するということでも構いません。
・「ブラウザオブジェクトを使わずに、結果的にブラウザに表示される文字列のみ」を手作業ではなくて、自動処理で取得したい。
・「こうすればできるよ」というアドバイス
・vb.netのStreamReader でソース取得後、何か処理をして結果的に目的のものが取得できるのであれば、それもありがたいです。
・サンプルのスクリプト
等、教えてほしいです。
以上です。