質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.47%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

C#

C#はマルチパラダイムプログラミング言語の1つで、命令形・宣言型・関数型・ジェネリック型・コンポーネント指向・オブジェクティブ指向のプログラミング開発すべてに対応しています。

WinUI3

WinUI3は、Windowsデスクトップアプリ開発向けのネイティブUIフレームワークのバージョン3です。Windows10以降で採用されたFluentデザインに対応。直観的で使いやすい機能を備えています。

Q&A

解決済

2回答

628閲覧

スクレイピングで取得した内容が完全でない

junyasu0124

総合スコア38

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

C#

C#はマルチパラダイムプログラミング言語の1つで、命令形・宣言型・関数型・ジェネリック型・コンポーネント指向・オブジェクティブ指向のプログラミング開発すべてに対応しています。

WinUI3

WinUI3は、Windowsデスクトップアプリ開発向けのネイティブUIフレームワークのバージョン3です。Windows10以降で採用されたFluentデザインに対応。直観的で使いやすい機能を備えています。

0グッド

0クリップ

投稿2023/07/22 14:52

実現したいこと・前提

WinUI3でアプリを作っています。
関西電力のhttps://www.kansai-td.co.jp/denkiyoho/area-performance.htmlのサイトの内容を取得して、そこからどのようなCSVファイルをダウンロードできるか調べられる仕組みを作ろうとしています(現在の場合は、2016年度から2023年度の4から5月のCSVファイルがあると知れればいい)。

発生している問題

以下のようなプログラムでサイトの内容を取得しています。

C#

1using (var client = new HttpClient()) 2 { 3 content = await client.GetStringAsync("https://www.kansai-td.co.jp/denkiyoho/area-performance.html"); 4 }

しかし、contentの内容をみてもブラウザのデベロッパーツールで見ると

html

1<ul class="list_dot" id="jisseki_data_list"> 2 <li class="list"><a href="/denkiyoho/csv/area_jyukyu_jisseki_2016.csv" class="link_csv" target="_blank" rel="noopener noreferrer">2016年度[<span class="filesize_auto">493.37KB</span></a></li> 3 <li class="list"><a href="/denkiyoho/csv/area_jyukyu_jisseki_2017.csv" class="link_csv" target="_blank" rel="noopener noreferrer">2017年度[<span class="filesize_auto">514.76KB</span></a></li> 4 <li class="list"><a href="/denkiyoho/csv/area_jyukyu_jisseki_2018.csv" class="link_csv" target="_blank" rel="noopener noreferrer">2018年度[<span class="filesize_auto">518.64KB</span></a></li> 5 <li class="list"><a href="/denkiyoho/csv/area_jyukyu_jisseki_2019.csv" class="link_csv" target="_blank" rel="noopener noreferrer">2019年度[<span class="filesize_auto">525.01KB</span></a></li> 6 <li class="list"><a href="/denkiyoho/csv/area_jyukyu_jisseki_2020.csv" class="link_csv" target="_blank" rel="noopener noreferrer">2020年度[<span class="filesize_auto">516.50KB</span></a></li> 7 <li class="list"><a href="/denkiyoho/csv/area_jyukyu_jisseki_2021.csv" class="link_csv" target="_blank" rel="noopener noreferrer">2021年度[<span class="filesize_auto">523.25KB</span></a></li> 8 <li class="list"><a href="/denkiyoho/csv/area_jyukyu_jisseki_2022.csv" class="link_csv" target="_blank" rel="noopener noreferrer">2022年度[<span class="filesize_auto">527.78KB</span></a></li> 9 <li class="list"><a href="/denkiyoho/csv/area_jyukyu_jisseki_2023.csv" class="link_csv" target="_blank" rel="noopener noreferrer">2023年度(4月~5月)[<span class="filesize_auto">89.07KB</span></a></li> 10</ul>

となっている部分が、

html

1<ul class="list_dot" id="jisseki_data_list"> 2</ul>

となっていて必要なところが丸々抜けていました。

試したこと

C#のWebClientを使ったり、AngleSharpを使って

C#

1//using AngleSharp; 2//using AngleSharp.Dom; 3 4var config = Configuration.Default.WithJs().WithDefaultLoader(); 5var context = BrowsingContext.New(config); 6var document = await context.OpenAsync("https://www.kansai-td.co.jp/denkiyoho/area-performance.html"); 7content = document.ToHtml();

のような風にも試してみましたが変わりませんでした。

Seleniumを使って

C#

1//using OpenQA.Selenium.Chrome; 2 3using (var driverService = ChromeDriverService.CreateDefaultService()) 4{ 5 driverService.HideCommandPromptWindow = true; 6 7 using (var driver = new ChromeDriver(driverService, options)) 8 { 9 driver.Url = "https://www.kansai-td.co.jp/denkiyoho/area-performance.html"; 10 driver.Navigate(); 11 content = driver.PageSource; 12 } 13}

のようにすると期待通りに取得はできるのですが、処理にコマンドプロントのような画面が開かれるといった動作があり、処理終了まで数秒の時間がかかってしまいます。これだと実用的ではないと感じました。
どのような方法をとればある程度素素早く、期待するものを取得できるのでしょうか。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

今の多くのページは、HTTPのGETで取得したHTMLにJavaScriptで要素を追加しています。
HTMLの中で指定されたJavaScriptを実行しないと欲しいページが出来ません。
普通は、Selenium等何らかのライブラリでブラウザを制御して取得します。

ブラウザを使わない方法として、JavaScript処理系とそれ用のDOMを扱えるライブラリを使って同じ事をシミュレートする方法をかなり昔に見たことありますが、茨の道な気がします。

JavaScriptを読んで同じ処理をC#で実装するというアプローチもあります。

投稿2023/07/22 16:28

編集2023/07/22 16:29
otn

総合スコア84624

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

ベストアンサー

そのページでは html には当該情報が含まれておらず、 JavaScript を用いて内容を構築するという工程が含まれています。

情報をどこから取得しているのかを辿ったところ https://www.kansai-td.co.jp/denkiyoho/js/area-performance.json にあるようなのでそれを直接取得すればよろしいのではないのでしょうか。

投稿2023/07/22 16:11

SaitoAtsushi

総合スコア5461

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.47%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問