回答編集履歴

3

追記

2021/09/19 23:49

投稿

KojiDoi
KojiDoi

スコア13727

test CHANGED
@@ -83,3 +83,113 @@
83
83
  perl test.pl < input_utf8.txt > output_sjis.txt
84
84
 
85
85
  ```
86
+
87
+
88
+
89
+ # 2021-09-20追記
90
+
91
+
92
+
93
+ ## 複数文字対応の置換
94
+
95
+
96
+
97
+ tr演算子は1文字対応の変換しかできません。複数文字対複数文字の置換にはs演算子を使います。
98
+
99
+
100
+
101
+ コーディングスタイルはいろいろ考えられると思いますが、変換表のメンテンナンスがしやすいであろうスタイルで参考コードを書いてみました。
102
+
103
+
104
+
105
+ ```
106
+
107
+ #test.pl
108
+
109
+
110
+
111
+ use strict;
112
+
113
+ use warnings;
114
+
115
+ use utf8;
116
+
117
+
118
+
119
+ binmode STDOUT, ":utf8";
120
+
121
+
122
+
123
+ my %t; # 変換表を持たせるハッシュ
124
+
125
+ while(<DATA>){ # 末尾の変換表を読み込む
126
+
127
+ my($from, $to) = split; # 各行のスペースの前が変換前、後ろが変換後の文字列
128
+
129
+ $t{$from} = $to; # $t{'林檎'}='りんご';
130
+
131
+ }
132
+
133
+
134
+
135
+ # サンプル文字列
136
+
137
+ my $a="林檎と蜜柑。夏蜜柑。姫林檎。";
138
+
139
+
140
+
141
+ print "原文: $a\n";
142
+
143
+ foreach my $from (keys %t){
144
+
145
+ $a=~s/$from/$t{$from}/g;
146
+
147
+ }
148
+
149
+ print "改訂: $a";
150
+
151
+
152
+
153
+ __DATA__
154
+
155
+ 林檎 りんご
156
+
157
+ 蜜柑 みかん
158
+
159
+ 柿 かき
160
+
161
+ 桃 もも
162
+
163
+ 木通 あけび
164
+
165
+ 西瓜 すいか
166
+
167
+ ```
168
+
169
+
170
+
171
+ ```
172
+
173
+ $ perl test.pl
174
+
175
+ ```
176
+
177
+
178
+
179
+ ## 参考文献
180
+
181
+
182
+
183
+ 実は[Perlの公式ドキュメント、モジュールドキュメントを日本語に翻訳したもの](https://perldoc.jp/)が無償公開されており、これをチェックするのが一番確実だったりします。バージョンごとの違いをすぐに比較できるのもありがたいところです。
184
+
185
+
186
+
187
+ 書籍では『リャマ本』と通称される『[O'Reilly Japan - 初めてのPerl 第7版](https://www.oreilly.co.jp/books/9784873118246/)』を挙げておきます。
188
+
189
+
190
+
191
+ バイブル視されている本に、同じ出版社から出ている『ラクダ本』こと[『プログラミングPerl』](https://amzn.to/3EwEAmA)というのがありますが、やや古くなっていることと、内容がそれなりに難しく、perl初心者には少し面倒な部分があるようにあるうえ、結構お高いため、積極的にはお勧めしません。
192
+
193
+
194
+
195
+ ほんとうは本屋に行って波長に合いそうなものを立ち読みして読み比べてみるのが一番なんですが。

2

注釈

2021/09/19 23:49

投稿

KojiDoi
KojiDoi

スコア13727

test CHANGED
@@ -46,27 +46,29 @@
46
46
 
47
47
  # test.pl
48
48
 
49
- use utf8;
49
+ use utf8; # コード中にUTF-8のリテラル(平たく言えば全角の文字列)を直接書き込むときは指定しなければならない。それらの文字を「内部コード」化して取り扱うことを指示するもの
50
50
 
51
- use strict;
51
+ use strict; # おまじないとして必ず書く
52
52
 
53
- use warnings;
53
+ use warnings; # おまじないとして必ず書く
54
54
 
55
55
 
56
56
 
57
- binmode STDOUT, ':encoding(cp932)';
57
+ binmode STDOUT, ':encoding(cp932)'; # 標準出力は内部コードからシフトJISに変換される
58
58
 
59
- binmode STDIN, ':utf8';
59
+ binmode STDIN, ':utf8'; # 標準入力はUTF-8から内部コードに変換される
60
60
 
61
61
 
62
62
 
63
63
  while(<>){
64
64
 
65
- tr{俠俱剝吞啞}
65
+ # 標準入力から1行読み取って$_に代入する
66
66
 
67
- {侠倶剥呑唖};
67
+ tr{俠俱剝吞啞} # 変換前の非互換な文字たち
68
68
 
69
+ {侠倶剥呑唖}; # 上記それぞれに対応する「安全な」文字。tr{abc}{ABC}はtr/abc/ABC/と同義。2行に渡って書けるので読みやすい。$_を対象に、trの最初の引数に列挙された文字を後ろの引数に指定された文字にすべて置換する。
70
+
69
- print;
71
+ print; # 標準出力に出力。最初のbincode設定により、シフトjisで出力される。
70
72
 
71
73
  }
72
74
 
@@ -76,6 +78,8 @@
76
78
 
77
79
  ```
78
80
 
81
+ # フィルタコマンドとして機能する
82
+
79
83
  perl test.pl < input_utf8.txt > output_sjis.txt
80
84
 
81
85
  ```

1

追記

2021/09/10 01:25

投稿

KojiDoi
KojiDoi

スコア13727

test CHANGED
@@ -33,3 +33,49 @@
33
33
 
34
34
 
35
35
  巷にあふれる解説(とくに個人ブログ)は、古い情報に基づいていたり明らかに誤解していたりのいい加減なものばかりなので、あまり当てにしないほうがいいです。ブログで信用に足ると安心しておすすめできるのはDan Kogaiさんの記事ぐらいのものです。
36
+
37
+
38
+
39
+ # サンプルコード
40
+
41
+ とりあえずサンプルコードを示します。utf-8で書かれているテキストを標準入力から読み込み、cp932非対応な文字の幾種類かをとりあえず「大丈夫な」文字に変換した上で、cp932に変換して出力するというものです。
42
+
43
+
44
+
45
+ ```
46
+
47
+ # test.pl
48
+
49
+ use utf8;
50
+
51
+ use strict;
52
+
53
+ use warnings;
54
+
55
+
56
+
57
+ binmode STDOUT, ':encoding(cp932)';
58
+
59
+ binmode STDIN, ':utf8';
60
+
61
+
62
+
63
+ while(<>){
64
+
65
+ tr{俠俱剝吞啞}
66
+
67
+ {侠倶剥呑唖};
68
+
69
+ print;
70
+
71
+ }
72
+
73
+ ```
74
+
75
+
76
+
77
+ ```
78
+
79
+ perl test.pl < input_utf8.txt > output_sjis.txt
80
+
81
+ ```