GASでサイトのスクレイピングをしたい
Parserライブラリを使って、とあるサイトのテキストを抽出したいです。
抽出したいサイト
サイトの中にあるテキストを取りたい
サイトの中にあるテキストを、条、項、号、文それぞれのテキストを取りたい
指定したい項目の前に、全体のテキストを拾ってみようと試みましたが
違う箇所が取れてしまい困ってます。
抽出できたテキスト
情報 <div id="tocOutlineWrap"> <ul id="dayOfPromulgation"> <li style="line-height: 1em; margin-bottom: 0.6em; font-size: 1.067rem; font-weight: bold;"> 司法書士法(昭和二十五年法律第百九十七号)</li> <li>施行日: <select id="effectiveDate"> <option value="325AC1000000197_20220901_501AC0000000071" >令和四年九月一日</option> <option value="325AC1000000197_20230401_504AC0000000004" >令和五年四月一日</option> <option value="325AC1000000197_20250616_504AC0000000068" selected >未確定</option> <option value="325AC1000000197_20260524_504AC0000000048" >未確定</option> </select> <br />刑法等一部改正法施行日<input type="hidden" id="law_unique_id" value="325AC1000000197_20250616_504AC0000000068" /> </li> <li>(令和四年法律第六十八号による改正)</li> </ul> <div class="labelLaw"> <h3 class="enforcementFlag">未施行</h3> 情報 [ <div id="tocOutlineWrap"> ]
該当のソースコード
gas
1function myFunction() { 2 var url ="https://elaws.e-gov.go.jp/document?lawid=325AC1000000197_20250616_504AC0000000068"/ 3 var html = UrlFetchApp.fetch(url).getContentText('UTF-8'); 4 5 var text = Parser.data(html).from('class="active">').to('</div>').build(); 6 var capter = Parser.data(text).from('class="_div_ArticleCaption">').to('</div>').iterate(); 7 8 9 Logger.log(text) 10 Logger.log(capter) 11 12 13 }
Google Apps Script でWebスクレイピング
Google Apps Script(GAS)を使ったwebスクレイピング
補足情報(FW/ツールのバージョンなど)
htmlの全体のテキストも抽出できず困ってます。
わかる方ご教授いただけないでしょうか。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2022/10/09 15:47