日本語を弾く正規表現について

Question

正規表現について
Javaのjava.lang.String.matchesを用いて、文字列に日本語が含まれるとエラーとしたいのですがうまくいきません。
例えば、下記のソースでひらがな、カタカナ、漢字があると弾く想定なのですが、想定通りに行かずです...
if (str.matches("^[ぁ-んーァ-ヶー一-龠]+$")){
  System.out.println("日本語は使用しないでください");
}

①あああ
②あああaa
③aaaあああ
④aaaあああaaa

①だとうまく弾いてくれるのですが、②③④だと弾いてくれません。
+$を*$にしても同様の事象です。
原因と正しい記述法を教えていただきたいです。

Accepted Answer

> 文字列に日本語が含まれるとエラーとしたいのですが「日本語ってなに?」というはなしになりませんか。`\u3000`は日本語でしょうか? `ﾆﾎﾝ`は日本語でしょうか? `π`は? 使用を許可する文字にマッチさせるほうがよっぽど簡単なのでわ。 ```java import org.junit.jupiter.api.Test; import java.util.Arrays; public class Hoge { @Test public void hoge() { final String pattern = "^[\u0000-\u007f]*$"; Arrays.asList( "あああ", "あああaa", "aaaあああ", "aaaあああaaa", "", "aaa", "aa bbb", "aa nbbb", "aa\u3000bbb", "1234567890", "*&^*#^!(!*&", "[]{}..,,<>", " ", "ﾆﾎﾝ", "π" ).stream().forEach(text -> { final String message = text.matches(pattern) ? "OK" : "日本語は使用しないでください"; System.out.println(String.format("<%s> %s", text, message)); }); } } ``` ``` <あああ> 日本語は使用しないでください <あああaa> 日本語は使用しないでください日本語は使用しないでください日本語は使用しないでください <> OK OK OK OK 日本語は使用しないでください <1234567890> OK <*&^*#^!(!*&> OK <[]{}..,,<>> OK < > OK <ﾆﾎﾝ> 日本語は使用しないでください <π> 日本語は使用しないでください ```

Answer

> if (str.matches("^[ぁ-んーァ-ヶー一-龠]+$")){

^は先頭
$は最後
を表します。
なので、この表記では、先頭から最後まで[ぁ-んーァ-ヶー一-龠]が連続するという意味になります。

したがって、単純に以下で十分です。[ぁ-んーァ-ヶー一-龠]が１文字でも含まれればという意味

```java
if (str.matches("[ぁ-んーァ-ヶー一-龠]")){
```

ただし、言語やライブラリによって、先頭からマッチする関数だったりしなかったりするので、そこはちゃんと調査してください。

まあ、momon-gaさんのいうとおり、ホワイトリストにしたほうが良いかと思います。

Answer

> if (str.matches("^[ぁ-んーァ-ヶー一-龠]+$")){
> System.out.println("日本語は使用しないでください");
> }

書いてある内容を、ちょっと変えますが・・・

if (str.matches("^[0-9]+$")){

と、書いた場合、判定しているのは**数字だけ**でstrが構成されているかです。

つまり、書いた通り
> ①だとうまく弾いてくれるのですが、②③④だと弾いてくれません。
の挙動になっています。

私もホワイトボックスの方が楽じゃないかと思いますが、そもそもその正規表現が日本語全部なのか知らないですし・・・

もとの正規表現を生かすなら

```java
if (str.matches(".*[ぁ-んーァ-ヶー一-龠].*")){
    System.out.println("日本語は使用しないでください");
}
```
みたいな感じじゃなかろうかと

関連した質問