回答編集履歴
2
sedスクリプト本文にコードマークアップを使う
test
CHANGED
@@ -10,31 +10,37 @@
|
|
10
10
|
|
11
11
|
GNU sedでマルチバイト文字処理が無効の場合:
|
12
12
|
|
13
|
+
```
|
13
|
-
|
14
|
+
s/0/0/g
|
14
|
-
|
15
|
+
s/1/1/g
|
15
|
-
|
16
|
+
…中略…
|
16
|
-
|
17
|
+
s/9/9/g
|
17
|
-
|
18
|
+
s/A/A/g
|
18
|
-
|
19
|
+
…中略…
|
19
|
-
|
20
|
+
s/Z/Z/g
|
20
|
-
|
21
|
+
…後略…
|
22
|
+
```
|
21
23
|
|
22
|
-
GNU sedでマルチバイト文字処理が有効の場合
|
24
|
+
GNU sedでマルチバイト文字処理が有効の場合:
|
23
25
|
|
26
|
+
```
|
24
|
-
|
27
|
+
y/0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz/0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz/
|
28
|
+
```
|
25
29
|
|
26
30
|
##### 1.1. 文字毎の置換ですまない場合
|
27
31
|
|
28
32
|
半角形の片仮名については、濁点・半濁点の処理が必要なので文字毎の置き換えだけではできませんね。濁点・半濁点を含む置き換えをひとつひとつやってから、文字毎の置き換えをすればいいでしょう。
|
29
33
|
|
34
|
+
```
|
30
|
-
|
35
|
+
s/ガ/ガ/g
|
31
|
-
|
36
|
+
…中略…
|
32
|
-
|
37
|
+
s/ボ/ボ/g
|
33
|
-
|
38
|
+
s/パ/パ/g
|
34
|
-
|
39
|
+
…中略…
|
35
|
-
|
40
|
+
s/ポ/ポ/g
|
36
|
-
|
41
|
+
s/ヴ/ヴ/g
|
37
|
-
|
42
|
+
…このあと、残りの半角形の文字を文字毎に置き換え
|
43
|
+
```
|
38
44
|
|
39
45
|
#### 2. 文字種による削除
|
40
46
|
|
@@ -42,9 +48,11 @@
|
|
42
48
|
|
43
49
|
たとえば次のようにすれば、「<h1>」や「</h1>」は残したまま、その間に現れる半角英数字を削除できそうです (繰り返しになりますが、半角の「記号」の削除処理ははぶいています)。
|
44
50
|
|
51
|
+
```
|
45
|
-
|
52
|
+
:loop
|
46
|
-
|
53
|
+
s|\(<h1>.*\)[0-9A-Za-z][0-9A-Za-z]*\(.*</h1>\)|\1\2|
|
47
|
-
|
54
|
+
tloop
|
55
|
+
```
|
48
56
|
|
49
57
|
- 「:」、「t」の意味はsedのマニュアルを見て下さい。
|
50
58
|
- 「s」については通常、パターンや置換結果の前後を「/」で囲みますが、ここでは「|」を使っています。
|
1
yコマンドの誤記を修正
test
CHANGED
@@ -21,7 +21,7 @@
|
|
21
21
|
|
22
22
|
GNU sedでマルチバイト文字処理が有効の場合 (実際には1行で書きます):
|
23
23
|
|
24
|
-
> y/0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz/0123456789
|
24
|
+
> y/0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz/0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz/
|
25
25
|
|
26
26
|
##### 1.1. 文字毎の置換ですまない場合
|
27
27
|
|