前提・実現したいこと
初めて質問させていただきます。
cshで以下のようなバッチを作成したいと考えております。
datファイル(sjis)を読み込み、機種依存文字があったら適当な文字に変換するといったものです。
[例]
・aaa.dat
⑳(文字コード 0x8753)
↓
**(文字コード 0x2a)
このような場合どうしたらよいでしょうか?
試したこと
perl -pi -e 's/[①-⑳]/*/g' ファイル名
を実行したところ
⑳ ㍑ ㈱ Ⅶ
鉄道
↓
** *梶@*Z
・道
となってしまい、指定した⑳以外も変換されてしまいました。
また他にも正規表現で
perl -pi -e 's/[\x87\x40-\x87\x53]/*/g' ファイル名
などもやってみましたが、正規表現した箇所以外が変換されてしまいうまくいきませんでした。
補足情報(言語/FW/ツール等のバージョンなど)
サーバのOSはSunOS 5.10です。
システムの関係上シェルはcshしか利用できません。
また、sedコマンドはオプションiが使用できないため、perlコマンド(言語のperlではないです)を使用しています。
以上です。
宜しくお願い致します。
-
気になる質問をクリップする
クリップした質問は、後からいつでもマイページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
クリップを取り消します
-
良い質問の評価を上げる
以下のような質問は評価を上げましょう
- 質問内容が明確
- 自分も答えを知りたい
- 質問者以外のユーザにも役立つ
評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。
質問の評価を上げたことを取り消します
-
評価を下げられる数の上限に達しました
評価を下げることができません
- 1日5回まで評価を下げられます
- 1日に1ユーザに対して2回まで評価を下げられます
質問の評価を下げる
teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。
- プログラミングに関係のない質問
- やってほしいことだけを記載した丸投げの質問
- 問題・課題が含まれていない質問
- 意図的に内容が抹消された質問
- 広告と受け取られるような投稿
評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。
質問の評価を下げたことを取り消します
この機能は開放されていません
評価を下げる条件を満たしてません
質問の評価を下げる機能の利用条件
この機能を利用するためには、以下の事項を行う必要があります。
- 質問回答など一定の行動
-
メールアドレスの認証
メールアドレスの認証
-
質問評価に関するヘルプページの閲覧
質問評価に関するヘルプページの閲覧
checkベストアンサー
+2
案1:Perlで日本語にちゃんと対応したプログラムにする。utf-8に変換して処理してcp932に変換して出力。ソース中に日本語を書くので、use utf-8;
も必要。
案2:範囲指定を使わない。
`perl -pi -e 's/①|②|・・・|⑲|⑳]/*/g' ファイル名
案3:Rubyなどマルチリンガルな言語を使う
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
+2
[\x87\x40-\x87\x53]
の正規表現は [\x40-\x87]
と等価なので、期待する挙動になりません。
今回やりたいことは、\x87[\x40-\x53]
が近そうです。
しかし、SJIS だと、\x87[\x40-\x53]
でもまだ他の文字にマッチして文字化けしそう。援@
とか。たぶん。
Perl を使うなら、Encode モジュールで CP932 から他の文字コードに変換してから置換する必要がありそう。
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
+1
参考になりそうなページがあったのでURLを貼っておきます。
[Perl] SJISの機種依存文字が文字化け
ここに書かれているように、SJISデータをperlの「内部コード」に変換しながら読み込み、いろいろ必要な加工処理など行って最終的にSJISに戻して出力するのが、定石かと思います。必要ならマル1→(1)みたいな変換をここでやってもいいでしょう。
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
0
cshでperlコマンドを用いて変換することにしました。
perl -pi -e 's/①|②|・・・|⑲|⑳]/*/g' ファイル名
その中で「〟」「㏍」「㍽」「∮」のみ文字化けしてしまい、対象外とすることで一応の解決としました。
回答してくださった方、ありがとうございました。
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
15分調べてもわからないことは、teratailで質問しよう!
- ただいまの回答率 89.99%
- 質問をまとめることで、思考を整理して素早く解決
- テンプレート機能で、簡単に質問をまとめられる
2017/09/12 13:33
>案2:範囲指定を使わない。
丸数字、ローマ数字は変換できましたが「㍻」「㈱」などで文字化けが起きてしまいました
>案1:Perlで日本語にちゃんと対応したプログラムにする。utf-8に変換して処理してcp932に変換して出力。ソース中に日本語を書くので、use utf-8;も必要。
文字コードの変換も試してはみたのですが、うまくいきませんでした。
・iconv
datファイルに文字化けがあり、文字化け箇所でエラーになってしまう。
(同時に正規表現でSJISの範囲外の文字も変換するという修正もやっています)
cオプションを付けているのですが、エラー箇所をスキップしませんでした。(man iconvでcオプションがあることは確認済み)
・sjtoeuc→euctosj
IBM拡張文字(梯子高など)が文字化けしてしまう(cp932に変換していないため)
・nkf
現環境には入っていないため使用できません
>案3:Rubyなどマルチリンガルな言語を使う
シェルで作成してほしいとのことなのでほかの言語での作成は考えておりません
このような状況なのですが、どうしたらよいでしょうか?
2017/09/12 14:31
こちらではうまく行きますね。SJISでやるためにWindowsでやりましたがバージョンは、
This is perl 5, version 24, subversion 1 (v5.24.1) built for i686-msys-thread-multi-64int
です。
2017/09/12 14:33
どううまく行かなかったのでしょうか。 基本を押さえれば難しい話ではないはずですし、SJISでの範囲指定などで悩む労力をencode/decodeを使ったperlの書き方習得にかけたほうが絶対に効率がいいと思います。