テキスト処理で文字化けしてしまいます。どなたか助けてください。

###テキスト処理で文字化けをなくしたい

<tr align="right">
<td 任意の文字列>ここに存在する文字列</td>
<td 任意の文字列>ここに存在する文字列</td>
<td 任意の文字列>ここに存在する文字列</td>
<td 任意の文字列>ここに存在する文字列</td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列>ここに存在する文字列</td>
<td 任意の文字列></td>
<td 任意の文字列>ここに存在する文字列</td>
<td 任意の文字列></td>
<td 任意の文字列></td>
</tr>

<tr align="right">
<td 任意の文字列>ここに存在する文字列</td>
<td 任意の文字列>ここに存在する文字列</td>
<td 任意の文字列>ここに存在する文字列</td>
<td 任意の文字列>ここに存在する文字列</td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列>ここに存在する文字列</td>
<td 任意の文字列></td>
<td 任意の文字列>ここに存在する文字列</td>
<td 任意の文字列></td>
<td 任意の文字列></td>
</tr>

<tr align="right">
～上と同じため省略～
</tr>
～以下同じため省略～

というhtmlファイルから

<tr align="right"> より１行から４行下と <tr align="right"> より１６行下と <tr align="right"> と１８行下の <td 以降任意の文字列> と </td> の間に存在するすべての任意の文字列（半角・全角・数字などは問わない）だけを抽出するということをやっています。

###試したこと

cat web_file

では、
ここに存在する文字列
が日本語の時
ここに存在する文字列
が文字化けしていて
��
でした。

vi web_file
``` では
ここにここに存在する文字列
が日本語でも数字でも
きちんと表示されていました。

```cat web_file | nkf -Sw -Lu ｜ cat web_file```では、
��が
ニ鏆鋿セ
になりました。


どのようにすれば文字化けを防ぐことができるでしょうか。
また、必要な文字列だけを切り取るにはどうしたらいいでしょうか。
よろしくお願いいたします。

行動規範の内容に同意します

回答2件

とりあえず使い方はこんな感じで。
(シフトJISを入力してUTF-8を出力で間違いないですね?)

nkf -Sw -Lu web_file

あと、どういった文字がうまく表示されないかがわかると
もっと具体的なアドバイスがあると思います。

投稿2016/07/17 06:42

takasima20

総合スコア7460

ターミナルで SJIS の文字化けを避ける
http://qiita.com/egg_chicken/items/521808bb0668d18159bd

これでどうですか？
「cat 文字化け」で検索しました。

ちなみにhtmlタグだけを除きたいなら正規表現で<.*>を削除すれば行けそうな気がします。

投稿2016/07/17 06:16

lightwill

総合スコア962

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.47%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

テキスト処理で文字化けしてしまいます。どなたか助けてください。

関連した質問