Webサイトのブラウザに表示されている文字列のみを取得したい。

既存のWebサイトの「ブラウザに表示される文字列」のみを取得したいです。

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝
【例　と　内部的な事情】
＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝
・参照先のWebサイト200サイトのURLリストは自分で作る
・目的の200サイトの「ブラウザに表示される文字列」のみを取得したい
・UWSCのIEGETDATA等を使って、目的は達成しているが、
時々、予定外のエラーが起きる（つまり、ブラウザを使うので不安定）であることと、
開発用のハイスペックのデスクトップでは稼働しても、従業員のノートパソコンだと
「想定外のエラー」みたいなものが発生して時々、停止してしまうので改善をしたいです。
・時間を短縮するために、8スレッド程度、別々にIEを同時に制御してコンテンツの文字列のみを
取得できているが、本来、404エラー等ではない場合でもエラーになってしまう場合があり困っている。

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝
【目標】
＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝
複数スレッドで強引に時間短縮をするのではなくて
シングル処理で実行して、且つ、ブラウザオブジェクトは使わない　且つ　安定動作　を目指したい。
vb.netのSystem.IO.StreamReader　のようなWebサーバーからWEBブラウザを介さずに
ソースを取得する動きで「ブラウザに表示されている文字」のみを取得したい。

vb.netのStreamReader　にて、
「ソース全体を取得した後、正規表現などで文章以外のもを排除する」ということをした場合
HTMLのタグは排除できても、例外が多すぎて、「すべての例外が発生しなくなるまで対応策を施すべきか？」と
抜本的な解決方法を検討したいということです。

上記の例外とは　例えば
・「<」という文字列が登場すれば「<」に置き換える
・JAVAスクリプトは残ってしまうのはどうればよいか
みたいなことです。

ひとつづつ対策を施すよりも　
【例1】UWSCでいうところのIEGETDATA　（ブラウザに表示される文字のみ取得する）
【例2】手作業でいうところの　ブラウザに表示されているものを全選択→コピー　、メモ帳に張り付け
みたいなものが　例えば、vb.netで実現できるなら、自動的に「表示されている文字」のみをフィルタリングして
取得できるのでうれしいということです。

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝
【結論】
＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝
vb.net以外のものを使用するということでも構いません。

・「ブラウザオブジェクトを使わずに、結果的にブラウザに表示される文字列のみ」を手作業ではなくて、自動処理で取得したい。

・「こうすればできるよ」というアドバイス

・vb.netのStreamReader　でソース取得後、何か処理をして結果的に目的のものが取得できるのであれば、それもありがたいです。

・サンプルのスクリプト

等、教えてほしいです。

以上です。

kenshirou

2018/08/03 10:34

「ブラウザオブジェクトは使わない」というのは、WebBrowserコントロールは使わない、ということでしょうか？そうであるならば、その理由をお聞かせ頂けますか？あと、似たような質問がありますが、同じ目的でしょうか？

KudoTomoyasu

2018/08/04 06:14

>「ブラウザオブジェクトは使わない」というのは、WebBrowserコントロールは使わない、ということでしょうか？そうであるならば、その理由をお聞かせ頂けますか？具体的な事情を話すとながくなりますのでまとめるとクライアント様が「絶対にこのロースペックのPCで稼働させたい。IEは不調。OSはクリーンインストールするな」という条件を提示しているもしくは、ブラウザを使わないでできるかを目的に研究をしているととらえてください。 >あと、似たような質問がありますが、同じ目的でしょうか？きちっと書き直したいので書きました。消し方がわかれば古いほうを消します。

退会済みユーザー

2018/08/11 06:31

ダウンロードしてくる JavaScript が動いて最終画面を描画するという作りになっている場合（今時のサイトには結構多いと思います）、WebBrowser などのブラウザ機能が必要です。なので、「ブラウザを使わないでできるか」といわれると、答は普通 No でしょう。

行動規範の内容に同意します

回答2件

質問者さんの別スレッドの質問を見ると相手は Google のようですね。

そうだとすると、質問に対する私もコメントで、

WebBrowser などのブラウザ機能が必要です。なので、「ブラウザを使わないでできるか」といわれると、答は普通 No でしょう。

と書きましたが、WebBrowser を使っても無理だと思います。Custom Search JSON API 等の手段を使うということになると思います。

Custom Search JSON API
https://developers.google.com/custom-search/json-api/v1/overview

検討してみてはいかがですか？

ただし、無料ではなさそうです。100 search queries per day for free とのことなので、それで済めば話は別だとは思いますが。

投稿2018/08/12 05:44

編集2018/08/15 04:52

退会済みユーザー

総合スコア0

KudoTomoyasu

2018/08/15 05:50

ありがとうございます。

行動規範の内容に同意します

対象のWebサイトのテキストの元となるHTMLソースを取得するには、まずはSystem.Net.WebClientが使えるかを確認してみては如何でしょうか。
※細かいことをやりたいのであれば、System.Net.HttpWebRequestやHttpWebResponseでもいいです。
.NET Framework 4.5以降であれば、System.Net.Http.HttpClientというものも使えるとのことです。
（使ったことはありません。）

ただし、以下のような懸念事項が挙げられます。

・System.Net.WebClientもIEの仕組みを使用している。
（IEが不調とのことですが、どのように不調か分かりませんので、一応懸念事項として挙げました。）

・SurferOnWwwさんの書き込みの通り、Javascriptによる動的コンテンツがHTMLに反映されない。

・単純にURLを投げるだけではレスポンスを得られない場合（Cookieやプロキシ）は、それなりの工夫が必要。

無事にHTMLソースを得られたら、後はHTMLを解析すればOK、というわけで、HTMLパーサの出番となります。
フリーのHTMLパーサもあります（Html Agility Pack 等）。
まずは「html パーサー .net」のようなキーワードで検索しては如何でしょうか。

投稿2018/08/20 03:25

kenshirou

総合スコア772