前提・実現したいこと
GAS(google apps script)で、webスクレイピングをしようと思っています。
該当のwebサイトから取得する文字列には、**<p>や<li>**などのHTMLの記号が含まれていますが、それらを取り除いて読みやすい形にしたいです。
該当のソースコード
javascript
1function myFunction() { 2 /////①URLの指定///// 3 var url = "https://atcoder.jp/contests/agc044/tasks/agc044_a"; 4 /////②HTMLテキストの取得///// 5 var response = UrlFetchApp.fetch(url); 6 var html = response.getContentText('UTF-8'); 7 /////③タイトルタグの抽出///// 8 //開始文字列の指定 9 var start_str = "<section>"; 10 var start_num = html.indexOf(start_str)+start_str.length; 11 //終了文字列の指定 12 var end_str = "</section>"; 13 var end_num = html.indexOf(end_str); 14 //タイトルタグをスクレイピング 15 var title = html.substring(start_num, end_num); 16 17 //ここに文字列をきれいにする処理を書く 18 19 //結果の出力 20 console.log(title); 21}
試したこと
該当の文字列を順番に見ていき、**"<"と">"**で囲まれている部分を順番に削除して行こうと思いましたが、厳密でなく、時間もかかるので、何かいい方法があれば教えていただきたいです。
補足情報
ちなみに、AtcoderのURLから、問題文を出力するというプログラムです。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2020/06/02 12:48
2020/06/02 12:49
2020/06/02 13:22
2020/06/03 10:23