質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

Q&A

解決済

1回答

1044閲覧

正規表現で必要な文字を抜き出し、ひらがなをローマ字に変換

naberius

総合スコア11

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

0グッド

0クリップ

投稿2018/10/10 02:48

前提・実現したいこと

PHPで必要な文字だけを取り出し、ひらがなをローマ字に変換するシステムを作成しました。ですが置換が全く行われず、web表示が文字化けします。
正規表現を変えてみたりしたのですがどうすればいいかわかりません。

ファイルの中のデータはこのような感じです
~~~~
赤土 あかつち、あかど
上妻 あがつま→こうづま
我妻 あがつま→わがつま
赤根 あかね
茜ヶ久保 あかねがくぼ
赤羽 あかは(あかはね、あかばね)
赤波江 あかばえ
~~~~

よろしくお願いします。

発生している問題・エラーメッセージ

グーグルクロームでシステムを実行すると表示されるときに文字化けします。
また正規表現の置換がされずにそのままファイルに書き込まれます。

該当のソースコード

PHP

1<?php 2 3$filename = 'kanahenkan.txt'; 4 5function kana_replace($datas){ 6$kana = array( 7 'きゃ', 'きぃ', 'きゅ', 'きぇ', 'きょ', 8 'ぎゃ', 'ぎぃ', 'ぎゅ', 'ぎぇ', 'ぎょ', 9 'くぁ', 'くぃ', 'くぅ', 'くぇ', 'くぉ', 10 'ぐぁ', 'ぐぃ', 'ぐぅ', 'ぐぇ', 'ぐぉ', 11 'しゃ', 'しぃ', 'しゅ', 'しぇ', 'しょ', 12 'じゃ', 'じぃ', 'じゅ', 'じぇ', 'じょ', 13 'ちゃ', 'ちぃ', 'ちゅ', 'ちぇ', 'ちょ', 14 'ぢゃ', 'ぢぃ', 'ぢゅ', 'ぢぇ', 'ぢょ', 15 'つぁ', 'つぃ', 'つぇ', 'つぉ', 16 'てゃ', 'てぃ', 'てゅ', 'てぇ', 'てょ', 17 'でゃ', 'でぃ', 'でぅ', 'でぇ', 'でょ', 18 'とぁ', 'とぃ', 'とぅ', 'とぇ', 'とぉ', 19 'にゃ', 'にぃ', 'にゅ', 'にぇ', 'にょ', 20 'ヴぁ', 'ヴぃ', 'ヴぇ', 'ヴぉ', 21 'ひゃ', 'ひぃ', 'ひゅ', 'ひぇ', 'ひょ', 22 'ふぁ', 'ふぃ', 'ふぇ', 'ふぉ', 23 'ふゃ', 'ふゅ', 'ふょ', 24 'びゃ', 'びぃ', 'びゅ', 'びぇ', 'びょ', 25 'ヴゃ', 'ヴぃ', 'ヴゅ', 'ヴぇ', 'ヴょ', 26 'ぴゃ', 'ぴぃ', 'ぴゅ', 'ぴぇ', 'ぴょ', 27 'みゃ', 'みぃ', 'みゅ', 'みぇ', 'みょ', 28 'りゃ', 'りぃ', 'りゅ', 'りぇ', 'りょ', 29 'うぃ', 'うぇ', 'いぇ', 30 'あ', 'い', 'う', 'え', 'お', 31 'か', 'き', 'く', 'け', 'こ', 32 'さ', 'し', 'す', 'せ', 'そ', 33 'た', 'ち', 'つ', 'て', 'と', 34 'な', 'に', 'ぬ', 'ね', 'の', 35 'は', 'ひ', 'ふ', 'へ', 'ほ', 36 'ま', 'み', 'む', 'め', 'も', 37 'や', 'ゆ', 'よ', 38 'ら', 'り', 'る', 'れ', 'ろ', 39 'わ', 'ゐ', 'ゑ', 'を', 'ん', 40 'が', 'ぎ', 'ぐ', 'げ', 'ご', 41 'ざ', 'じ', 'ず', 'ぜ', 'ぞ', 42 'だ', 'ぢ', 'づ', 'で', 'ど', 43 'ば', 'び', 'ぶ', 'べ', 'ぼ', 44 'ぱ', 'ぴ', 'ぷ', 'ぺ', 'ぽ' 45 ); 46 47 $romaji = array( 48 'kya', 'kyi', 'kyu', 'kye', 'kyo', 49 'gya', 'gyi', 'gyu', 'gye', 'gyo', 50 'qwa', 'qwi', 'qwu', 'qwe', 'qwo', 51 'gwa', 'gwi', 'gwu', 'gwe', 'gwo', 52 'sya', 'syi', 'syu', 'sye', 'syo', 53 'ja', 'jyi', 'ju', 'je', 'jo', 54 'cha', 'cyi', 'chu', 'che', 'cho', 55 'dya', 'dyi', 'dyu', 'dye', 'dyo', 56 'tsa', 'tsi', 'tse', 'tso', 57 'tha', 'ti', 'thu', 'the', 'tho', 58 'dha', 'di', 'dhu', 'dhe', 'dho', 59 'twa', 'twi', 'twu', 'twe', 'two', 60 'nya', 'nyi', 'nyu', 'nye', 'nyo', 61 'va', 'vi', 've', 'vo', 62 'hya', 'hyi', 'hyu', 'hye', 'hyo', 63 'fa', 'fi', 'fe', 'fo', 64 'fya', 'fyu', 'fyo', 65 'bya', 'byi', 'byu', 'bye', 'byo', 66 'vya', 'vyi', 'vyu', 'vye', 'vyo', 67 'pya', 'pyi', 'pyu', 'pye', 'pyo', 68 'mya', 'myi', 'myu', 'mye', 'myo', 69 'rya', 'ryi', 'ryu', 'rye', 'ryo', 70 'wi', 'we', 'ye', 71 'a', 'i', 'u', 'e', 'o', 72 'ka', 'ki', 'ku', 'ke', 'ko', 73 'sa', 'shi', 'su', 'se', 'so', 74 'ta', 'chi', 'tsu', 'te', 'to', 75 'na', 'ni', 'nu', 'ne', 'no', 76 'ha', 'hi', 'fu', 'he', 'ho', 77 'ma', 'mi', 'mu', 'me', 'mo', 78 'ya', 'yu', 'yo', 79 'ra', 'ri', 'ru', 're', 'ro', 80 'wa', 'wyi', 'wye', 'wo', 'n', 81 'ga', 'gi', 'gu', 'ge', 'go', 82 'za', 'ji', 'zu', 'ze', 'zo', 83 'da', 'ji', 'du', 'de', 'do', 84 'ba', 'bi', 'bu', 'be', 'bo', 85 'pa', 'pi', 'pu', 'pe', 'po' 86 ); 87 88 $datas = str_replace($kana, $romaji, $datas); 89 return $datas; 90} 91 92$datas = file($filename, FILE_IGNORE_NEW_LINES | FILE_SKIP_EMPTY_LINES); 93 94foreach($datas as $item){ 95 $pattern1 = "/^(.*)(?= ) /"; 96 $pattern2 = "/(().*())/"; 97 $pattern3 = "/、|→/"; 98 99 $item = preg_replace($pattern1, "", $item); 100 $item = preg_replace($pattern2, "", $item); 101 if(preg_match($pattern3, $item)){ 102 $split = preg_split($pattern3, $item); 103 for($ = 1;$ < count($split);$i++){ 104 $datas[] = $split[$i]; 105 } 106 }else{ 107 $datas[] = $item; 108 } 109} 110 111 112 113$datas = kana_replace($datas); 114array_unique($datas); 115var_dump(count($datas)); 116 117file_put_contents($filename, $datas); 118 119readfile($filename); 120

試したこと

・文字化け
php.iniやphpの中に直接コードを書いたりしたのですが文字化けします。
php.iniの中はutf-8でそろえています。phpの中に書いてみたのもutf-8にするものです

・置換ができない
色々調べて正規表現を変えました。載せたものが一番最適かと思います。下記のサイトだと問題なくマッチします。
http://okumocchi.jp/php/re.php

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

テキストファイルとPHPの文字コードが違うからだと思われます。
Windowsであれば何もなくtxtを作ればshift-jisだと思います。
ファイルから取得時にmb_convert_encodingをかますと良いです。

投稿2018/10/10 03:04

m.ts10806

総合スコア80850

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

naberius

2018/10/10 03:14

ありがとうございます!ファイルからデータ取得時にエンコードしたところ置換も問題なく行われました! 文字コードの違いが原因だったようです。
m.ts10806

2018/10/10 04:42

はい、その通りです。 問題になるのはファイル自体の文字コードです。 phpでもini_setがutf8になっていてもプログラムファイル自体の文字コードが違うと容赦なく文字化けします。 DBを扱うときも注意してくださいね。 ファイルもすべて関わる情報全て同じにする必要があります。 プログラムは指示した通りにしか動かないので朱に交わっても赤くならないのです…
naberius

2018/10/10 05:09

DBでなった時を考えるとゾッとしますね… ひょっとして基本的にデータを引っ張ってくるときはエンコードした方がいい感じですかね?
m.ts10806

2018/10/10 05:35

確実ではありますが、そもそもutf8で扱いたいならutf8でデータを保管しておけばエンコード地獄にはならないと思います。 DB接続についてもDB側の定義さえしっかりとutf8でしておけばコーディングに集中できますしpdoという仕組みもあるので http://php.net/manual/ja/book.pdo.php データを扱う際の面倒な手続きもだいぶ減りました。 文字コードによる問題が懸念されるなら問題が起きないような構造を用意するのも技術的な手口です
naberius

2018/10/10 05:52

なるほど。ありがとうございます。 まだまだ細かいところがわからないので勉強します。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問