質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Google スプレッドシート

Google スプレッドシートは、フリーで利用できる表計算ソフト。Webアプリのためインターネットに接続することで利用できます。チャートやグラフの作成のほか、シートを他のユーザーと共有したり、同時に作業を進めることも可能です。

Google Apps Script

Google Apps ScriptはGoogleの製品と第三者のサービスでタスクを自動化するためのJavaScriptのクラウドのスクリプト言語です。

Q&A

解決済

1回答

630閲覧

GASでスクレイピングがしたい(指定したテキストが拾えない)

BBA

総合スコア60

Google スプレッドシート

Google スプレッドシートは、フリーで利用できる表計算ソフト。Webアプリのためインターネットに接続することで利用できます。チャートやグラフの作成のほか、シートを他のユーザーと共有したり、同時に作業を進めることも可能です。

Google Apps Script

Google Apps ScriptはGoogleの製品と第三者のサービスでタスクを自動化するためのJavaScriptのクラウドのスクリプト言語です。

0グッド

0クリップ

投稿2022/10/03 05:59

GASでサイトのスクレイピングをしたい

Parserライブラリを使って、とあるサイトのテキストを抽出したいです。
抽出したいサイト

サイトの中にあるテキストを取りたい

サイトの中にあるテキストを、条、項、号、文それぞれのテキストを取りたい
指定したい項目の前に、全体のテキストを拾ってみようと試みましたが
違う箇所が取れてしまい困ってます。

抽出できたテキスト

情報 <div id="tocOutlineWrap"> <ul id="dayOfPromulgation"> <li style="line-height: 1em; margin-bottom: 0.6em; font-size: 1.067rem; font-weight: bold;"> 司法書士法(昭和二十五年法律第百九十七号)</li> <li>施行日: <select id="effectiveDate"> <option value="325AC1000000197_20220901_501AC0000000071" >令和四年九月一日</option> <option value="325AC1000000197_20230401_504AC0000000004" >令和五年四月一日</option> <option value="325AC1000000197_20250616_504AC0000000068" selected >未確定</option> <option value="325AC1000000197_20260524_504AC0000000048" >未確定</option> </select> <br />刑法等一部改正法施行日<input type="hidden" id="law_unique_id" value="325AC1000000197_20250616_504AC0000000068" /> </li> <li>(令和四年法律第六十八号による改正)</li> </ul> <div class="labelLaw"> <h3 class="enforcementFlag">未施行</h3> 情報 [ <div id="tocOutlineWrap"> ]

該当のソースコード

gas

1function myFunction() { 2 var url ="https://elaws.e-gov.go.jp/document?lawid=325AC1000000197_20250616_504AC0000000068"/ 3 var html = UrlFetchApp.fetch(url).getContentText('UTF-8'); 4 5 var text = Parser.data(html).from('class="active">').to('</div>').build(); 6 var capter = Parser.data(text).from('class="_div_ArticleCaption">').to('</div>').iterate(); 7 8 9 Logger.log(text) 10 Logger.log(capter) 11 12 13 }

Google Apps Script でWebスクレイピング
Google Apps Script(GAS)を使ったwebスクレイピング

補足情報(FW/ツールのバージョンなど)

htmlの全体のテキストも抽出できず困ってます。
わかる方ご教授いただけないでしょうか。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

達成したい目的が「GASでスクレイピングがしたい」であれば
お力になれませんが(チラ見したところ難易度が高そうですが…)、
「条、項、号、文それぞれのテキストを取りたい」が主目的で
あれば、画面下部の「サイトマップ」を見ると「XML一括ダウンロード」
とか「法令API」とかが用意されているみたいなので、そちらの利用を
検討してみてもいいかもしれませんね。

投稿2022/10/05 05:06

poto568

総合スコア258

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

BBA

2022/10/09 15:47

返事が遅くなり申し訳ありません。 コメント読んで探してみました。 法令APIのリクエストでスクレイピング試してみます!ありがとうございます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問