質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

csh

cshは、C言語スタイルの構文を持つUNIX系OSのシェルの1つのことです。

Q&A

解決済

4回答

1993閲覧

cshでファイルを読み込み、機種依存文字を変換する

saitama

総合スコア7

正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

csh

cshは、C言語スタイルの構文を持つUNIX系OSのシェルの1つのことです。

0グッド

0クリップ

投稿2017/09/12 01:25

編集2017/09/12 05:52

###前提・実現したいこと
初めて質問させていただきます。
cshで以下のようなバッチを作成したいと考えております。

datファイル(sjis)を読み込み、機種依存文字があったら適当な文字に変換するといったものです。

[例]
・aaa.dat
⑳(文字コード 0x8753)

**(文字コード 0x2a)

このような場合どうしたらよいでしょうか?
###試したこと
perl -pi -e 's/[①-⑳]/*/g' ファイル名
を実行したところ
⑳ ㍑ ㈱ Ⅶ
鉄道

** *梶@*Z
・道
となってしまい、指定した⑳以外も変換されてしまいました。

また他にも正規表現で
perl -pi -e 's/[\x87\x40-\x87\x53]/*/g' ファイル名
などもやってみましたが、正規表現した箇所以外が変換されてしまいうまくいきませんでした。

###補足情報(言語/FW/ツール等のバージョンなど)
サーバのOSはSunOS 5.10です。
システムの関係上シェルはcshしか利用できません。

また、sedコマンドはオプションiが使用できないため、perlコマンド(言語のperlではないです)を使用しています。

以上です。
宜しくお願い致します。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答4

0

ベストアンサー

案1:Perlで日本語にちゃんと対応したプログラムにする。utf-8に変換して処理してcp932に変換して出力。ソース中に日本語を書くので、use utf-8;も必要。
案2:範囲指定を使わない。
`perl -pi -e 's/①|②|・・・|⑲|⑳]/*/g' ファイル名
案3:Rubyなどマルチリンガルな言語を使う

投稿2017/09/12 04:08

otn

総合スコア84557

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

saitama

2017/09/12 04:33

回答ありがとうございます。 >案2:範囲指定を使わない。 丸数字、ローマ数字は変換できましたが「㍻」「㈱」などで文字化けが起きてしまいました >案1:Perlで日本語にちゃんと対応したプログラムにする。utf-8に変換して処理してcp932に変換して出力。ソース中に日本語を書くので、use utf-8;も必要。 文字コードの変換も試してはみたのですが、うまくいきませんでした。 ・iconv datファイルに文字化けがあり、文字化け箇所でエラーになってしまう。 (同時に正規表現でSJISの範囲外の文字も変換するという修正もやっています) cオプションを付けているのですが、エラー箇所をスキップしませんでした。(man iconvでcオプションがあることは確認済み) ・sjtoeuc→euctosj IBM拡張文字(梯子高など)が文字化けしてしまう(cp932に変換していないため) ・nkf 現環境には入っていないため使用できません >案3:Rubyなどマルチリンガルな言語を使う シェルで作成してほしいとのことなのでほかの言語での作成は考えておりません このような状況なのですが、どうしたらよいでしょうか?
otn

2017/09/12 05:31

> 「㍻」「㈱」などで文字化けが起きてしまいました こちらではうまく行きますね。SJISでやるためにWindowsでやりましたがバージョンは、 This is perl 5, version 24, subversion 1 (v5.24.1) built for i686-msys-thread-multi-64int です。
KojiDoi

2017/09/12 05:33

>文字コードの変換も試してはみたのですが、うまくいきませんでした。 どううまく行かなかったのでしょうか。 基本を押さえれば難しい話ではないはずですし、SJISでの範囲指定などで悩む労力をencode/decodeを使ったperlの書き方習得にかけたほうが絶対に効率がいいと思います。
guest

0

[\x87\x40-\x87\x53] の正規表現は [\x40-\x87] と等価なので、期待する挙動になりません。

今回やりたいことは、\x87[\x40-\x53] が近そうです。

しかし、SJIS だと、\x87[\x40-\x53] でもまだ他の文字にマッチして文字化けしそう。援@ とか。たぶん。

Perl を使うなら、Encode モジュールで CP932 から他の文字コードに変換してから置換する必要がありそう。

投稿2017/09/12 02:14

kawanet

総合スコア12

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

saitama

2017/09/12 02:55

回答ありがとうございます。 教えていただいた正規表現を行ったところ、丸数字(\x87[\x40-\x53])、ローマ数字([\x87][\x5f-\x75])は変換できましたが [\x87][\x7e-\x9c](「㍻」「㈱」など)でkawanetさんが予想していたように文字化けが起きました・・・ >Perl を使うなら、Encode モジュールで CP932 から他の文字コードに変換してから置換する必要がありそう。 この修正の最初のほうで文字コードの変換も試してはみたのですが、うまくいきませんでした。 ・iconv datファイルに文字化けがあり、文字化け箇所でエラーになってしまう。 (同時に正規表現でSJISの範囲外の文字も変換するという修正もやっています) cオプションを付けているのですが、エラー箇所をスキップしませんでした。(man iconvで確認済み) ・sjtoeuc→euctosj IBM拡張文字(梯子高など)が文字化けしてしまう(cp932に変換していないため) ・nkf 現環境には入っていないため使用できません このような状況なのですが、どうしたらよいでしょうか?
guest

0

参考になりそうなページがあったのでURLを貼っておきます。
[Perl] SJISの機種依存文字が文字化け

ここに書かれているように、SJISデータをperlの「内部コード」に変換しながら読み込み、いろいろ必要な加工処理など行って最終的にSJISに戻して出力するのが、定石かと思います。必要ならマル1→(1)みたいな変換をここでやってもいいでしょう。

投稿2017/09/12 05:46

KojiDoi

総合スコア13671

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

cshでperlコマンドを用いて変換することにしました。

perl -pi -e 's/①|②|・・・|⑲|⑳]/*/g' ファイル名

その中で「〟」「㏍」「㍽」「∮」のみ文字化けしてしまい、対象外とすることで一応の解決としました。
回答してくださった方、ありがとうございました。

投稿2017/09/12 07:10

saitama

総合スコア7

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問