preg_replaceの挙動について

Question

### 前提・実現したいこと

ローマ字をひらがなに変換するプログラムを作成したいです。
「あ行」と「い行」のみを扱います。

(例)　aki → あき　　ki → き　


### 発生している問題

aki → あkい　　ki → kい

のように「あ行」しか正しく表示されない。「か行」は始まりの子音kがそのままで、
終わりの母音の部分が「あ行」として表示されてしまう。

### 該当のソースコード

```PHP
$kana = [
    'あ', 'い', 'う', 'え', 'お',
    'か', 'き', 'く', 'け', 'こ',
];

$romaji = [
    'a', 'i', 'u', 'e', 'o',
    'ka', 'ki', 'ku', 'ke', 'ko',
];


$str = "aki"; // あき  

$str = to_kana($str, $romaji, $kana);
echo $str;
```

```PHP
function to_kana($str, $romaji, $kana){

    $patterns = [];
    foreach($romaji as $value){
        $patterns[] = '/' . $value . '/';
    }

    $str = preg_replace($patterns, $kana, $str);
    return $str;

}
```
結果
```
あkい
```

### 疑問
preg_replece　マニュアルより
```

pattern および replacement のいずれもが配列の場合、
各 pattern は 対応する replacement に置換されます。
```

この場合、配列のインデックス番号順「a」「i」「ki」の順番で置換するので、
aki　→　あki　→　あkい
となってしまうのでしょうか？

preg_replace の挙動としては以下の認識で正しいでしょうか？

```
1.「aki」の「a」を置換
2.「あki」として先頭の文字からパターンを探す
3.「あ」、「k」は一致せず「i」で初めて一致し置換
4.「あkい」として先頭の文字からパターンを探す

```

### 試したこと

'aki' を 'a' と 'ki' に分割して置換するために、まず 'a', 'k', 'i' のように文字を分割して配列に入れる。
配列を回して、子音の時には次の要素と連結させる。(kだったら次のiと連結してkiにする)

これを実装してみましたが、結局「ki」と連結されても preg_replace で最初にiが置換されるので「kい」となってしまいます。

当然ですが実装後の結果は「あkい」で変化ありませんでした。

※あまり意味ないと思いますが実装後のコードも下に記載します。(汚いコードですみません。)

###
「ki」を「き」に置換させるためにはどうすれば良いでしょうか？
　preg_replaceでは難しい場合、他の方法では可能でしょうか？

どうか教えていただけると幸いです。

###実装後のコード

```PHP
function to_kana($str, $romaji, $kana){

  $a = str_split($str);
  
    $patterns = [];
    foreach($romaji as $value){
        $patterns[] = '/' . $value . '/';
    }

    $tmp ="";

    foreach ($a as $key => $word) {

      if($key != 0){
        $pre = $key-1;
        $w = $a[$pre];
        $rep = preg_replace($patterns, $kana, $w);
        //もし１つ前の要素が置換されていなかったら(子音だったら)
        if($rep === $w){
          continue;
        }

      }

        $append ="";

        $replaced = preg_replace($patterns, $kana, $word);
        //もし置換されなかったら(子音だったら)
        if($replaced === $word){ 
          $append = $a[$key].$a[$key+1]; 
          $replaced = preg_replace($patterns, $kana, $append);
        }

        $tmp .= $replaced;
      }
      return $tmp;

}
```

Accepted Answer

なんか間違った回答を投稿した気がするけど、見直しました。
あ行の置き換えを最後に回すしか無いと考えます。
kaのaを先に置き換えてしまうとkなど子音のみ残ってしまうのは当たり前です。

```php
<?php

function to_kana($str, $romaji, $kana){

    $patterns = [];
    foreach($romaji as $value){
        $patterns[] = '/' . $value . '/';
    }

    $str = preg_replace($patterns, $kana, $str);
    return $str;

}

$kana = [
    'か', 'き', 'く', 'け', 'こ',
    'あ', 'い', 'う', 'え', 'お',  // あ行は最後！
];

$romaji = [
    'ka', 'ki', 'ku', 'ke', 'ko',
    'a', 'i', 'u', 'e', 'o',  // あ行は最後！
];


$str = "aki"; // あき  

$str = to_kana($str, $romaji, $kana);
echo $str;
```
《実行結果》
![イメージ説明](e222f7a8254dd0ac901d095cb18ca6b3.png)

正規表現パターンを駆使しないので、
preg_replace()でなくstr_replace()の方が少しでも処理が早くなる。

```php
<?php

function to_kana($str, $romaji, $kana){

    //$patterns = [];
    //foreach($romaji as $value){
    //    $patterns[] = '/' . $value . '/';
    //}

    //$str = preg_replace($patterns, $kana, $str);
    $str = str_replace($romaji, $kana, $str);
    return $str;

}

$kana = [
    'か', 'き', 'く', 'け', 'こ',
    'あ', 'い', 'う', 'え', 'お',
];

$romaji = [
    'ka', 'ki', 'ku', 'ke', 'ko',
    'a', 'i', 'u', 'e', 'o',
];


$str = "aki"; // あき  

$str = to_kana($str, $romaji, $kana);
echo $str;
```

もしもこの先ローマ字領域全体に拡張するとなると、
'pya'みたいな3文字使うものを配列の先の方に置いて、
'n'はあ行らといっしょでいいかもしれません。
（「ん」をnnとするかnとするか、kaniを「かに」にせず「かんい」にするためのローマ字の工夫とか、検討事項はまだあるけども。）

Answer

正規表現の否定的後読みを使えば、簡単にあ行の抽出ができます。下記は前方に子音となるアルファベットがない a,i,u,e,o を抽出するパターンです。 `/(? 'あ', 'i' => 'い', 'u' => 'う', 'e' => 'え', 'o' => 'お', 'ka' => 'か', 'ki' => 'き', 'ku' => 'く', 'ke' => 'け', 'ko' => 'こ', ]; $input = 'aki'; // あ行の変換 $result = preg_replace_callback('/(?

前提・実現したいこと

発生している問題

該当のソースコード

疑問

試したこと

関連した質問