はじめまして。
初心者です。何卒よろしくお願いします。
###ワンライナーテキスト処理をしたいと考えています
ワンライナーテキスト処理をしたいと考えています。どのようなコマンドがあり、どれを使えばいいのか、どのようなコマンドになるのかなどを教えていただけませんでしょうか?
###やりたいこと
<tr align="right"> より1行から4行下 と <tr align="right"> より 16行下 と <tr align="right"> と 18行下 の <td 以降任意の文字列> と </td> の間に存在する すべての任意の文字列(半角・全角・数字などは問わない)だけを抽出する です。 すなわち、 ``` <tr align="right"> <td 任意の文字列>ここに存在する文字列</td> <td 任意の文字列>ここに存在する文字列</td> <td 任意の文字列>ここに存在する文字列</td> <td 任意の文字列>ここに存在する文字列</td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列>ここに存在する文字列</td> <td 任意の文字列></td> <td 任意の文字列>ここに存在する文字列</td> <td 任意の文字列></td> <td 任意の文字列></td> </tr> <tr align="right"> <td 任意の文字列>ここに存在する文字列</td> <td 任意の文字列>ここに存在する文字列</td> <td 任意の文字列>ここに存在する文字列</td> <td 任意の文字列>ここに存在する文字列</td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列></td> <td 任意の文字列>ここに存在する文字列</td> <td 任意の文字列></td> <td 任意の文字列>ここに存在する文字列</td> <td 任意の文字列></td> <td 任意の文字列></td> </tr> <tr align="right"> ~上と同じため省略~ </tr> ~以下同じため省略~ ``` といったテキストがあった場合、ここに存在する文字列と書いてある部分は どうすれば抽出できるかということです。 「ここに存在する文字列」は全角、半角、数字、アルファベット何であるかは分かりません。 親切な方がいらっしゃいましたら 何卒、よろしくお願いいたします。###追記(意図)
ワンライナーでスクリプトを作成しようと考えていました。
現在Webサイトからデータを保存するスクリプトをbashで書いています。
データの取得・保存まではできたのですが、欲しい部分以外のところも取得・保存されていたためです。
また、Linux初心者から少しでも上達するにはテキスト処理の知識・技術が不可欠だと思ったからです。
わかりにくい質問で申し訳ありませんでした。
何卒よろしくお願いいたします。
###追記(現状)
cat web_file では
��でした。
vi web_file では
きちんと表示されていました。
cat web_file | nkf -Sw -Lu | cat web_fileでは、
��がニ鏆鋿セ
でした。
まだ文字化けしているようです。
###追記(7/19)
nkf -g web_file
の結果は
EUC-JP
echo $LANG
の結果は
ja_JP.UTF-8
cat webfile | nkf -e > hoge.txt
で作成された
hoge.txt
を
vi hoge.txt
だと
文字化けしていませんでしたが、
cat hoge.txt
だと
文字化けしていました。
でした。
cat web_file | nkf -w > hoge.txt
cat hoge.txt
で
うまく行きました。
回答4件
あなたの回答
tips
プレビュー