一文字違いで同一文字数で部分一致させる方法

Question

以下のような文字列がございます。

"立候補者の高橋太郎です！"
"明日は一緒に行く方は、渡辺花子"

これに対して、
髙橋太郎// 旧漢字の髙
渡邉花子//旧漢字の邉
は一致するような正規表現を検討しております。

これに対して
```
pattern ="/.橋太郎|高.太郎|高橋.郎|高橋太./"
```
では名前の前後の1文字は名前でなくても認識されてしまうため、
立候補者の橋太郎です！
も一致してしまいます。


名前の文字数も含めてその名前の中で1文字だけ異なっても一致するようにさせる正規表現は考えられますでしょうか。

名前かであるのか、名前でないのかという点については、なんらの判断基準を設けることはできません。
前後の文脈があるのかまたはないのかも不明で、前後に特定の文字や空白等があるという規則もありません。
敷いて申し上げれば、例でいえば、
/.橋太郎|高.太郎|高橋.郎|高橋太./
のいずれかに当てはまる特定の文字数の外側にあるものは名前以外であると言うだけです。
したがって、
37歳の高橋太は衆議院議員です。
と言う文字列は"高橋太は"が/高橋太./に一致してしまいます。
質問の趣旨としては
1)これに対応するような正規表現の考え方はありますか？
2)それがない場合には、そもそも不特定の文脈の中にある特定数の文字列でその中の1文字だけが異なるような方法で良い方法が一般的にあるのでしょうか？

と言うことを申し上げたく、上記の2例をあげさせていただきました。
実務的に文脈の中で名前を正規表現で検索する際に、旧漢字等を簡体字で使用されているケースもあるので
1文字だけが間違っている部分一致検索をする場合どのような方法をとっていらっしゃるのかと言うアドバイスをいただきたいと言う趣旨でした。


宜しくお願い申し上げます

Accepted Answer

### 旧漢字体

> 髙橋太郎// 旧漢字の髙
> 渡邉花子//旧漢字の邉
> は一致するような正規表現を検討しております。

旧漢字体を文字クラスで指定すればいいでしょう。

```JavaScript
/[高髙]橋太郎/.test('高橋太郎');
/[高髙]橋太郎/.test('髙橋太郎');
/渡[辺邉]花子/.test('渡辺花子');
/渡[辺邉]花子/.test('渡邉花子');
```

### 名前の中で1文字だけ異なっても一致

> 名前の文字数も含めてその名前の中で1文字だけ異なっても一致するようにさせる正規表現は考えられますでしょうか。

何度もいいますが、「名前」と「名前でない文字」を定義しなければ正規表現は作れません。
そして、あなたが想像しているように**完全な方法はない**ので、あなたがあなたの責任において定義しなければなりません。

あえて、いい加減にかくなら、こうです。

```JavaScript
function takahashi (string) {
  return /^(?:立候補者の|明日は一緒に行く方は、)(?:.橋太郎|高.太郎|高橋.郎|高橋太.)(?:です！)?$/.test(string);
}

function watanabe (string) {
  return /^(?:立候補者の|明日は一緒に行く方は、)(?:.邉花子|渡.花子|渡邉.子|渡邉花.)(?:です！)?$/.test(string);
}
```

あなたはおそらく、こう思うでしょう。

「でも、`.` は『名前でない文字』にもマッチしてしまいますよね」

その通りですね。
では、『名前でない文字』とは何でしょうか。
あなたはそれを定義できますか。

---

そして、あなたはこうも思うでしょう。

「"立候補者の～です！" に限らず、前後の文章が何であってもマッチしてほしいんです。」

はい。そうですね。それが理想ですね。

では、前後の文章が何で合ったらマッチせず、何であったらマッチさせたいですか。
「名前でない文字」ならマッチさせず、「名前の一部」ならマッチさせたいですよね。
では、どんな文字が「名前の一部」として扱われたいですか。

---

> 名前でない文字の定義はなく区別不能です。

では、「任意の一文字」の表記揺れ対策としては、誤爆を防ぐ方法はありません。
新旧漢字体のリストを作って対応すべきでしょう。

### 日本の戸籍法における、人名に使用可能な文字

- [戸籍法施行規則](http://elaws.e-gov.go.jp/search/elawsSearch/elaws_search/lsg0500/detail?lawId=322M40000010094#302)

> **第六十条**　戸籍法第五十条第二項の常用平易な文字は、次に掲げるものとする。
> 一　常用漢字表（平成二十二年内閣告示第二号）に掲げる漢字（括弧書きが添えられているものについては、括弧の外のものに限る。）
> 二　別表第二に掲げる漢字
> 三　片仮名又は平仮名（変体仮名を除く。）

まとめると、次のように。

- 漢字 ([常用漢字表](http://www.bunka.go.jp/kokugo_nihongo/sisaku/joho/joho/kijun/naikaku/pdf/joyokanjihyo_20101130.pdf), [別表第二](http://elaws.e-gov.go.jp/search/html/322M40000010094_20170925_429M60000010032/pict/S22F00501000094-001.pdf) に記載されている文字に限る)
- 平仮名 (ひらがな)
- 片仮名 (カタカナ)

### 日本語の文法

正規表現とは、特定の文法に則った文字列から特定の文字列を検索するものです。

「URL文字列」を抽出するなら、URLの文法規則を知っていなければなりません。
「HTMLタグ」を抽出するなら、HTMLの文法規則を知っていなければなりません。
「人名」を抽出するなら、「人名」の文法規則を知っていなければなりません。

では、人名の文法とは何なのか。
[ぐぐれば](https://www.google.co.jp/search?q=%E6%97%A5%E6%9C%AC+%E4%BA%BA%E5%90%8D+%E8%A6%8F%E5%89%87)、戸籍法に則っていることが分かります(前節参照)。
日本の人名に使える文字は「漢字」「ひらがな」「カタカナ」の三種ですが、他に規則性を表すものはありません。
姓名が必要な都合上、フルネームで2文字以上という制約はありますが、それだけです。

日本語は英語と違い、単語の区切りを識別しづらい言語です。例えば、次の日本語を考えてみましょう。

```
「JavaScript愛を感じます」(JavaScriptへの深い愛情を感じます)
「加藤愛を感じます」(加藤さんへの深い愛情を感じます or 加藤愛さんを感じます)
```

後者は2つの解釈が成り立ちますが、この文章だけでは判断することは出来ません。
前後の文脈から想像するわけですが、それでも100%正しいとはいえません。

また、「漢字だけで構成される人名」に限り、漢字の連続を名前と見なす事は可能ですが、

```
「加藤様」(加藤 + 様)
「佐藤殿」(佐藤 + 殿)
```

このように「敬称」が付くと、「名前」と「敬称」を区別することが出来ません。
「様」「殿」は常用漢字表に載っており、名前に使用される可能性がありますので、末尾にそれがあるからといって、除外することは出来ません。
敬称に限らず、名前の前後に関する漢字が来るケースは他にもあるでしょう。
それに対して完璧に名前以外と判断する術を私は持ちません。

Re: SugiuraY さん

Answer

「1文字だけ異なっても」という部分が気になりました。例えば「渡辺龍一郎」さんという方がいらっしゃった場合、「渡邊竜一郎」でもマッチさせたくなるかと思いますが、2文字以上は想定しないで大丈夫でしょうか。

---

事前にMeCabなどで形態素解析をしておいて、人名と思われる部分を切り出しておくというアプローチもありそうです。

---

他の方も回答されていますが、やはり適合率（間違ったものをヒットさせない）と再現率（取りこぼさない）の話になるかと思います。

開発されているシステムの要件がわかりませんが、もしヒトの目が入る作業（例えばGoogleのネット検索のように、検索結果の一覧の中から「ヒト」が目的のものを選ぶといった作業）なのであれば、再現率が高い方法と適合率が高い方法を組み合わせるのも手です。

例えばSugiuraYさんが考えられた「1文字違いを拾う」という方法は取りこぼしを減らす方法なので再現率を高めるアプローチになります。一方、文字の対応表を用意する方法は間違いを減らしますので適合率を高くするアプローチです。これらを両方実行して結果をマージすれば、まず取りこぼしが減らせます。また、両方にマッチしたものを結果リストの上位に並べて、片方にしかマッチしなかったものを下位に並べれば、「ヒト」にとっては適合率が上がるため、いいところ取りができる感じです。

Answer

> 名前かであるのか、名前でないのかという点については、なんらの判断基準を設けることはできません。

なら無理でしょうね。
ひらがな混じりの名前はどうしましょう、名前の前後に漢字が来ればどうなる？と考えれば自明のことと思います

現実的には、名前とはどういうものかを定義しないと／できないとどーしようもないです

Answer

どうしても分けたいというのであれば、言語解析を行う方法はあるかと思います。
MeCabなどの形態素解析を行うライブラリがあります。
ただ、この場合でも完全とは言えませんし、ここまでコストをかけるべきなのかもあります。

旧新字の違いのみを許容するのであれば、他の方も言っている通りリスト化して対応するのがよいと思います。
また、旧新字の違いではなく一字違いを許容するのであれば、「高橋太郎さんと高畑太郎さん」と別人を同一と判断する形になったりしますが、これはよいのかなど問題点もあるかと思います。

Answer

> 1文字だけが間違っている部分一致検索をする場合どのような方法をとっていらっしゃるのか

表記揺れへの対応であれば、間違いうる文字の対応表を作っておいて、`/渡辺/`を`/渡[辺邉邊]/`のように置き換える、というのが現実解ではないかと思います