質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.49%
UWSC

UWSCは、Windowsの作業を自動化するソフトです。マウスとキー入力を記録して代行することが可能。スクリプト形式により自由に編集することもできます。スケジュール機能を持ち、Excelとの連携も可能です。

VB.NET

Microsoft Visual Basic .NETのことで、Microsoft Visual Basic(VB6)の後継。 .NET環境向けのプログラムを開発することができます。 現在のVB.NETでは、.NET Frameworkを利用して開発を行うことが可能です。

Q&A

2回答

2355閲覧

Webサイトのブラウザに表示されている文字列のみを取得したい。

KudoTomoyasu

総合スコア6

UWSC

UWSCは、Windowsの作業を自動化するソフトです。マウスとキー入力を記録して代行することが可能。スクリプト形式により自由に編集することもできます。スケジュール機能を持ち、Excelとの連携も可能です。

VB.NET

Microsoft Visual Basic .NETのことで、Microsoft Visual Basic(VB6)の後継。 .NET環境向けのプログラムを開発することができます。 現在のVB.NETでは、.NET Frameworkを利用して開発を行うことが可能です。

0グッド

0クリップ

投稿2018/08/02 18:23

既存のWebサイトの「ブラウザに表示される文字列」のみを取得したいです。

========================================
【例 と 内部的な事情】
========================================
・参照先のWebサイト200サイトのURLリストは自分で作る
・目的の200サイトの「ブラウザに表示される文字列」のみを取得したい
・UWSCのIEGETDATA等を使って、目的は達成しているが、
時々、予定外のエラーが起きる(つまり、ブラウザを使うので不安定)であることと、
開発用のハイスペックのデスクトップでは稼働しても、従業員のノートパソコンだと
「想定外のエラー」みたいなものが発生して時々、停止してしまうので改善をしたいです。
・時間を短縮するために、8スレッド程度、別々にIEを同時に制御してコンテンツの文字列のみを
取得できているが、本来、404エラー等ではない場合でもエラーになってしまう場合があり困っている。

========================================
【目標】
========================================
複数スレッドで強引に時間短縮をするのではなくて
シングル処理で実行して、且つ、ブラウザオブジェクトは使わない 且つ 安定動作 を目指したい。
vb.netのSystem.IO.StreamReader のようなWebサーバーからWEBブラウザを介さずに
ソースを取得する動きで「ブラウザに表示されている文字」のみを取得したい。

vb.netのStreamReader にて、
「ソース全体を取得した後、正規表現などで文章以外のもを排除する」ということをした場合
HTMLのタグは排除できても、例外が多すぎて、「すべての例外が発生しなくなるまで対応策を施すべきか?」と
抜本的な解決方法を検討したいということです。

上記の例外とは 例えば
・「<」という文字列が登場すれば「<」に置き換える
・JAVAスクリプトは残ってしまうのはどうればよいか
みたいなことです。

ひとつづつ対策を施すよりも 
【例1】UWSCでいうところのIEGETDATA (ブラウザに表示される文字のみ取得する)
【例2】手作業でいうところの ブラウザに表示されているものを全選択→コピー 、メモ帳に張り付け
みたいなものが 例えば、vb.netで実現できるなら、自動的に「表示されている文字」のみをフィルタリングして
取得できるのでうれしいということです。

========================================
【結論】
========================================
vb.net以外のものを使用するということでも構いません。

・「ブラウザオブジェクトを使わずに、結果的にブラウザに表示される文字列のみ」を手作業ではなくて、自動処理で取得したい。

・「こうすればできるよ」というアドバイス

・vb.netのStreamReader でソース取得後、何か処理をして結果的に目的のものが取得できるのであれば、それもありがたいです。

・サンプルのスクリプト

等、教えてほしいです。

以上です。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kenshirou

2018/08/03 10:34

「ブラウザオブジェクトは使わない」というのは、WebBrowserコントロールは使わない、ということでしょうか?そうであるならば、その理由をお聞かせ頂けますか?あと、似たような質問がありますが、同じ目的でしょうか?
KudoTomoyasu

2018/08/04 06:14

>「ブラウザオブジェクトは使わない」というのは、WebBrowserコントロールは使わない、ということでしょうか?そうであるならば、その理由をお聞かせ頂けますか? 具体的な事情を話すとながくなりますのでまとめると クライアント様が「絶対にこのロースペックのPCで稼働させたい。IEは不調。OSはクリーンインストールするな」という条件を提示している もしくは、ブラウザを使わないでできるかを目的に研究をしているととらえてください。 >あと、似たような質問がありますが、同じ目的でしょうか? きちっと書き直したいので書きました。 消し方がわかれば古いほうを消します。
退会済みユーザー

退会済みユーザー

2018/08/11 06:31

ダウンロードしてくる JavaScript が動いて最終画面を描画するという作りになっている場合(今時のサイトには結構多いと思います)、WebBrowser などのブラウザ機能が必要です。なので、「ブラウザを使わないでできるか」といわれると、答は普通 No でしょう。
guest

回答2

0

質問者さんの別スレッドの質問を見ると相手は Google のようですね。

そうだとすると、質問に対する私もコメントで、

WebBrowser などのブラウザ機能が必要です。なので、「ブラウザを使わないでできるか」といわれると、答は普通 No でしょう。

と書きましたが、WebBrowser を使っても無理だと思います。Custom Search JSON API 等の手段を使うということになると思います。

Custom Search JSON API
https://developers.google.com/custom-search/json-api/v1/overview

検討してみてはいかがですか?

ただし、無料ではなさそうです。100 search queries per day for free とのことなので、それで済めば話は別だとは思いますが。

投稿2018/08/12 05:44

編集2018/08/15 04:52
退会済みユーザー

退会済みユーザー

総合スコア0

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

KudoTomoyasu

2018/08/15 05:50

ありがとうございます。
guest

0

対象のWebサイトのテキストの元となるHTMLソースを取得するには、まずはSystem.Net.WebClientが使えるかを確認してみては如何でしょうか。
※細かいことをやりたいのであれば、System.Net.HttpWebRequestやHttpWebResponseでもいいです。
.NET Framework 4.5以降であれば、System.Net.Http.HttpClientというものも使えるとのことです。
(使ったことはありません。)

ただし、以下のような懸念事項が挙げられます。

・System.Net.WebClientもIEの仕組みを使用している。
(IEが不調とのことですが、どのように不調か分かりませんので、一応懸念事項として挙げました。)

・SurferOnWwwさんの書き込みの通り、Javascriptによる動的コンテンツがHTMLに反映されない。

・単純にURLを投げるだけではレスポンスを得られない場合(Cookieやプロキシ)は、それなりの工夫が必要。

無事にHTMLソースを得られたら、後はHTMLを解析すればOK、というわけで、HTMLパーサの出番となります。
フリーのHTMLパーサもあります(Html Agility Pack 等)。
まずは「html パーサー .net」のようなキーワードで検索しては如何でしょうか。

投稿2018/08/20 03:25

kenshirou

総合スコア772

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.49%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問