###テキスト処理で文字化けをなくしたい
<tr align="right"> <td 任意の文字列>ここに存在する文字列</td> <td 任意の文字列>ここに存在する文字列</td> <td 任意の文字列>ここに存在する文字列</td> <td 任意の文字列>ここに存在する文字列</td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列>ここに存在する文字列</td> <td 任意の文字列></td> <td 任意の文字列>ここに存在する文字列</td> <td 任意の文字列></td> <td 任意の文字列></td> </tr> <tr align="right"> <td 任意の文字列>ここに存在する文字列</td> <td 任意の文字列>ここに存在する文字列</td> <td 任意の文字列>ここに存在する文字列</td> <td 任意の文字列>ここに存在する文字列</td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列>ここに存在する文字列</td> <td 任意の文字列></td> <td 任意の文字列>ここに存在する文字列</td> <td 任意の文字列></td> <td 任意の文字列></td> </tr> <tr align="right"> ~上と同じため省略~ </tr> ~以下同じため省略~
というhtmlファイルから
<tr align="right"> より1行から4行下 と <tr align="right"> より 16行下 と <tr align="right"> と 18行下 の <td 以降任意の文字列> と </td> の間に存在する すべての任意の文字列(半角・全角・数字などは問わない)だけを抽出する ということをやっています。###試したこと
cat web_file
では、
ここに存在する文字列
が日本語の時
ここに存在する文字列
が文字化けしていて
��
でした。
vi web_file ``` では ここにここに存在する文字列 が日本語でも数字でも きちんと表示されていました。 ```cat web_file | nkf -Sw -Lu | cat web_file```では、 ��が ニ鏆鋿セ になりました。 どのようにすれば文字化けを防ぐことができるでしょうか。 また、必要な文字列だけを切り取るにはどうしたらいいでしょうか。 よろしくお願いいたします。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。