質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

PowerShell

Windows PowerShellはコマンドラインインターフェースであり、システム管理を含むWindowsタスク自動化のためのスクリプト言語です。

パース

パースとは、一定の文法に従って記述されたテキスト文書を解析し、データ構造の集合体に分解・変換することを呼びます。

Q&A

0回答

2152閲覧

【powershell】SgmlReaderを使用したHTMLパースにつきまして

退会済みユーザー

退会済みユーザー

総合スコア0

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

PowerShell

Windows PowerShellはコマンドラインインターフェースであり、システム管理を含むWindowsタスク自動化のためのスクリプト言語です。

パース

パースとは、一定の文法に従って記述されたテキスト文書を解析し、データ構造の集合体に分解・変換することを呼びます。

0グッド

0クリップ

投稿2018/11/25 14:22

実現したいこと

なるべく高速なwebアクセスを行い、ページ情報を取得したいと考えております。
ネットで調べたところ、powershellで以下のような情報が見つかり、同様の手法で情報を取得したいと考えております。
リンク内容

問題点

「SgmlReaderDll.dll」をPS1と同一フォルダに配置し実行して見たのですがエラーが発生してしまいました。どのように対処したら良いかわからず、ご教示のほど宜しくお願い致します。

Add-Type -Path .\SgmlReaderDll.dll function Get-HTMLDocument { param([uri]$Uri) $sgmlReader = New-Object Sgml.SgmlReader -Property @{ Href = $Uri.AbsoluteUri CaseFolding = [Sgml.CaseFolding]::ToLower } $doc = New-Object System.Xml.XmlDocument $doc.Load($sgmlReader) $doc } $xml = Get-HTMLDocument http://winscript.jp/ $xml.html.body.div|? id -eq outer|% div|? id -eq main|% {$_.p.innerText}

<エラーメッセージ>
"1" 個の引数を指定して "Load" を呼び出し中に例外が発生しました: "操作はタイムアウトになりました。"
発生場所 D:gethtml_test2.ps1:11 文字:5

  • $doc.Load($sgmlReader)
  • ~~~~~~~~~~~~~~~~~~~~~~
    • CategoryInfo : NotSpecified: (:) [], MethodInvocationException
    • FullyQualifiedErrorId : DotNetMethodException

確認したこと

Add-Typeで上手くdllが読めてないのかと思い、別の手法も試してみました。

[Reflection.Assembly]::LoadFile("D:SgmlReaderDll.dll") 【function以降は同様】

この結果は以下となりました。GACの箇所が"False"になっているのが気になりますが、如何せん良くわからず質問に至りました。

<結果>
GAC Version Location


False v4.0.30319 D:\SgmlReaderDll.dll
"1" 個の引数を指定して "Load" を呼び出し中に例外が発生しました: "操作はタイムアウトになりました。"
発生場所 D:gethtml_test2.ps1:11 文字:5

  • $doc.Load($sgmlReader)
  • ~~~~~~~~~~~~~~~~~~~~~~
    • CategoryInfo : NotSpecified: (:) [], MethodInvocationException
    • FullyQualifiedErrorId : DotNetMethodException

環境

OS:Windows10
PS C:\WINDOWS\system32> $PSVersionTable
Name Value


PSVersion 5.1.17134.407
PSEdition Desktop
PSCompatibleVersions {1.0, 2.0, 3.0, 4.0...}
BuildVersion 10.0.17134.407
CLRVersion 4.0.30319.42000
WSManStackVersion 3.0
PSRemotingProtocolVersion 2.3
SerializationVersion 1.1.0.1

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問