🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中!

\teratail特別グッズやAmazonギフトカード最大2,000円分が当たる!/

詳細はこちら
Google Apps Script

Google Apps ScriptはGoogleの製品と第三者のサービスでタスクを自動化するためのJavaScriptのクラウドのスクリプト言語です。

JavaScript

JavaScriptは、プログラミング言語のひとつです。ネットスケープコミュニケーションズで開発されました。 開発当初はLiveScriptと呼ばれていましたが、業務提携していたサン・マイクロシステムズが開発したJavaが脚光を浴びていたことから、JavaScriptと改名されました。 動きのあるWebページを作ることを目的に開発されたもので、主要なWebブラウザのほとんどに搭載されています。

正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

コードレビュー

コードレビューは、ソフトウェア開発の一工程で、 ソースコードの検査を行い、開発工程で見過ごされた誤りを検出する事で、 ソフトウェア品質を高めるためのものです。

Q&A

解決済

1回答

1932閲覧

GASのPasrserでaタグの中からリンクを抽出したいが、偶数番だけ失敗する

teeeeeeeel

総合スコア1

Google Apps Script

Google Apps ScriptはGoogleの製品と第三者のサービスでタスクを自動化するためのJavaScriptのクラウドのスクリプト言語です。

JavaScript

JavaScriptは、プログラミング言語のひとつです。ネットスケープコミュニケーションズで開発されました。 開発当初はLiveScriptと呼ばれていましたが、業務提携していたサン・マイクロシステムズが開発したJavaが脚光を浴びていたことから、JavaScriptと改名されました。 動きのあるWebページを作ることを目的に開発されたもので、主要なWebブラウザのほとんどに搭載されています。

正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

コードレビュー

コードレビューは、ソフトウェア開発の一工程で、 ソースコードの検査を行い、開発工程で見過ごされた誤りを検出する事で、 ソフトウェア品質を高めるためのものです。

0グッド

1クリップ

投稿2021/03/17 00:57

編集2021/03/17 02:13

前提・実現したいこと

GASのParserと正規表現を使って、aタグの中からリンクとテキストを抽出したい。

発生している問題

liタグの中のaタグを抽出しようとすると、偶数番のli要素だけ抜け出せません。
試しに全く同じliとaタグにしてテストしたのですが、どうしても偶数番だけnullになってしまいます。

該当のソースコード

function extractLink() { const str = ` <li><a href="https://example.com/">テスト1</a></li> <li><a href="https://example.com/">テスト2</a></li> <li><a href="https://example.com/">テスト3</a></li> <li><a href="https://example.com/">テスト4</a></li> ` const lists = Parser.data(str).from('<li>').to('</li>').iterate() const linkRegExp = /<a.*?href="(.*?)".*>(.*?)</a>/g for (let list of lists) { const linkUrl = linkRegExp.exec(list) console.log(linkUrl) } }

↓ 結果
奇数番のテスト1とテスト3は成功しますが、テスト2とテスト4が抽出できません。

9:51:49 情報 [ '<a href="https://example.com/">テスト1</a>', 'https://example.com/', 'テスト1', index: 0, input: '<a href="https://example.com/">テスト1</a>', groups: undefined ] 9:51:49 情報 null 9:51:49 情報 [ '<a href="https://example.com/">テスト3</a>', 'https://example.com/', 'テスト3', index: 0, input: '<a href="https://example.com/">テスト3</a>', groups: undefined ] 9:51:49 情報 null

試したこと

テスト2/テスト4のリンクのタグの書き方に問題があるかと思い、テスト2だけで抽出してみると、問題なく抽出可能です。
偶数番の所だけ抽出できない原因が分かれば教えて下さい。。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

RegExpオブジェクトlinkRegExpに、今回の処理では不要なg(global)フラグが設定されているため。

JavaScript の RegExp オブジェクトは、 global または sticky フラグが設定されている場合 (例えば /foo/g や /foo/y) はステートフルになります。これは前回の一致位置を lastIndex に格納します。これを内部的に使用することで、 exec() はテキストの文字列内で (キャプチャグループのある) 複数の一致を反復処理することができます。これは単なる文字列の一致を取得する String.prototype.match() とは対照的です。

RegExp.prototype.exec() - JavaScript | MDN

1回目のexecでは、lastIndexの値が0なので、検索対象となる文字列の先頭からマッチを試み、想定する部分にマッチする。このとき、lastIndexの値は「次に検索を開始する位置」に設定される(今回だと39)。

2回目のexecでは、検索対象となる文字列がリストの次の要素に代わっていたとしても、execlastIndex以降からマッチを試みる。今回のデータでは、検索対象となる文字列の長さが統一されており、インデックス39以降には文字がないため、このマッチはかならず失敗することになる。すると、lastIndexの値は0に設定される。

というわけで、これ以降も「奇数回目のexecでは、lastIndexが0なので想定される部分にマッチ」し、「偶数回目のexecでは、lastIndexが39なのでマッチに失敗」する、という動作が繰り返される。

対処方法としては、言うまでもなくlinkRegExpgフラグを付けない(前回の状態を引き継ぐステートフル動作をさせない)こと。

投稿2021/03/17 03:15

編集2021/03/17 03:34
Daregada

総合スコア11990

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

teeeeeeeel

2021/03/17 09:31

回答ありがとうございます! めっちゃスッキリしました! 今回<li>~</li>の中が走査対象だったというのと、RegExpオブジェクトがlastIndexを保持し、次回はそこから走査し、かつ見つからなかったら `0` になる。 というので今回の偶数回だけ抽出できなかったんですね、、 ありがとうございます!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問