R言語：sub()で正規表現を使って文字列置換したときの問題

以下のような文字列があったとして、カンマ以降の文字列（「20, 30」の部分だけ）を抜き出したいのですが

R
1a <- "10, 20, 30"

sub()と正規表現を使って文字列置換を行い、欲しい部分だけ切り出そうとすると

R
1> sub(".*,", "", a)
2[1] " 30"

↑このようになってしまい上手くいきませんでした。
sub() は条件に合ったもののうち最初の 1 つだけを置換する関数ですが、正規表現を入れるとダメなのでしょうか。
なおライブラリのstringr::str_replace()を使っても同様の問題が起きました。

substr()のように○○番目の文字列切り出しとかではなく、
特定の文字列に挟まれた文字列の抜き出し方法を探しているのですが
何かご存知の方がいらっしゃいましたら、どうぞよろしくお願いします。

行動規範の内容に同意します

回答1件

ベストアンサー

正規表現には最左最長の法則というのがあります。マッチする文字列の候補が複数考えられるときは、もっとも左にあって最も長いものを採用するというルールです。

本件の場合、.*,にマッチする最長の文字列は10,20,なので、置換の結果は質問のとおりとなります。

対処としては、

というところでしょうか。

投稿2019/11/08 12:03

総合スコア13692

2019/11/08 12:25

正規表現を正しく理解していないことが原因で思うような結果が出なかったんですね。最左最長の法則、最小マッチオプションなど初めて知り勉強になりましたφ(..)メモメモ今回、教えていただいた最小マッチオプションで解決できました。ありがとうございました！

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問