###前提・実現したいこと
・現在、Google apps scriptを利用して、自信のWebサイトをスクレイピングを試みています。
・h2タグから次のh2タグまでをブロックとして複数取得したいです。
//ここから <h2>見出し</h2> <p>テキストテキストテキストテキストテキスト</p> //ここまでと //ここから <h2>見出し</h2> <p>テキストテキストテキストテキストテキスト</p> //ここまでを抽出したい。
・ソースコードをスクレイピングするために以下を参考にして<h2><h2>に囲まれたソースコードの抽出を試しましたが、なぜか奇数のh2タグしか取得できません。原因がわかる方、ご教示いただけないでしょうか?
http://qiita.com/murapon/items/5c7ec6568bc56799da99
###該当のソースコード
1function myFunction() { 2 var response = UrlFetchApp.fetch("http://xxx.jp"); 3 var myRegexp = /<h2>([\s\S]*)<\h2>/gi; 4 var elems = response.getContentText().match(myRegexp); 5 6 for(var i in elems) { 7 var title = elems[i] 8 title = title.replace(/(^\s+)|(\s+$)/g, ""); 9 title = title.replace(/<\/?[^>]+>/gi, ""); 10 } 11}
###試したこと
以下のサイトを参考にしています。
http://yoshiyuki-hirano.hatenablog.jp/entry/2015/10/02/104750
http://os0x.g.hatena.ne.jp/os0x/20080213/1202900650
http://qiita.com/inamoth/items/23248b7290d8140f53fc
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。