Linuxでワンライナーテキスト処理をしたいと考えています。どなたか力を貸していただけませんか？

Question

はじめまして。初心者です。何卒よろしくお願いします。 ###ワンライナーテキスト処理をしたいと考えていますワンライナーテキスト処理をしたいと考えています。どのようなコマンドがあり、どれを使えばいいのか、どのようなコマンドになるのかなどを教えていただけませんでしょうか？ ###やりたいことより１行から４行下とより１６行下とと１８行下のとの間に存在するすべての任意の文字列（半角・全角・数字などは問わない）だけを抽出するです。すなわち、 ``` ここに存在する文字列ここに存在する文字列ここに存在する文字列ここに存在する文字列ここに存在する文字列ここに存在する文字列ここに存在する文字列ここに存在する文字列ここに存在する文字列ここに存在する文字列ここに存在する文字列ここに存在する文字列～上と同じため省略～～以下同じため省略～ ``` といったテキストがあった場合、ここに存在する文字列と書いてある部分はどうすれば抽出できるかということです。「ここに存在する文字列」は全角、半角、数字、アルファベット何であるかは分かりません。親切な方がいらっしゃいましたら何卒、よろしくお願いいたします。 ###追記（意図）ワンライナーでスクリプトを作成しようと考えていました。現在Webサイトからデータを保存するスクリプトをbashで書いています。データの取得・保存まではできたのですが、欲しい部分以外のところも取得・保存されていたためです。また、Linux初心者から少しでも上達するにはテキスト処理の知識・技術が不可欠だと思ったからです。わかりにくい質問で申し訳ありませんでした。何卒よろしくお願いいたします。 ###追記（現状） cat web_file では ��でした。 vi web_file ではきちんと表示されていました。 cat web_file | nkf -Sw -Lu ｜ cat web_fileでは、 ��がニ鏆鋿セでした。まだ文字化けしているようです。 ###追記（7/19） nkf -g web_file の結果は EUC-JP echo $LANG の結果は ja_JP.UTF-8 cat webfile | nkf -e > hoge.txt で作成された hoge.txt を vi hoge.txt だと文字化けしていませんでしたが、 cat hoge.txt だと文字化けしていました。でした。 cat web_file | nkf -w > hoge.txt cat hoge.txt でうまく行きました。

Accepted Answer

bashの場合は、webから食わせる前に実行環境の日本語環境に合わせて置く必要があります。
通常nkf等を使って変換します。(UTF8)
cat web_file | nkf -Sw -Lu >hogehoge.txt

perlの場合内部文字コードへの変換する方法があります。

Answer

web_fileがEUC-JPで端末がUTF-8だったのですね。
上記のコマンドは最後のcatな要らないと思います。cat web_file | nkf -w
入力に半角ｶﾅが有る場合を想定すると-xオプションを入れた方が良いかと。
また-E（明示指定）を加えると自動判断による変換ミスも少なくなります。
cat web_file | nkf -Ew -x

Answer

途中までbashで書かれているならそのまま抽出まで行う事も可能かと思い作成しました
（＃は半角です。）

＃!/bin/sh
while read tt; do
echo $tt | grep -q '<tr align="right">'
if [ $? -eq 0 ]; then
CN=0
continue
fi
if [ $(echo $tt |sed 's/ //g' | wc -c) -le 1 ]; then continue; fi
CN=$(( $CN + 1 ))
if [ $CN -ge 1 ] && [ $CN -le 4 ] || [ $CN -eq 16 ] || [ $CN -eq 18 ]; then
echo $tt | cut -d> -f2 | cut -d< -f1
fi
done<hogehoge.txt

一応ワンライナーperlですが　空白行はsedで逃げました、perlでも出来ますが。

cat hogehoge.txt |perl -nle'($=~/<tr align="right">/)? $i=0:$i++;if($i>=1 && $i<=4 || $i==16 || $i==18){print substr($,index($,">",2)+1,index($,"</td")-index($_,">",2)-1)}' |sed /^$/d

Answer

使用するコマンドとしては、cat, head, tail, sed, awk, grep などが考えられます。ワンライナーの場合、複数のコマンドを組み合わせるのが普通です。

まず、サンプルとして提示されているテキストが input.html に入っているとします。

たとえば sed を使うのであれば、
https://hydrocul.github.io/wiki/commands/sed.html
によると、"<tr align="right">" から５行（その行も含む）を表示するのは

sed
1$ sed -n -e '/<tr align="right">/,+4p' < input.html
2<tr align="right">
3<td 任意の文字列>ここに存在する文字列</td>
4<td 任意の文字列>ここに存在する文字列</td>
5<td 任意の文字列>ここに存在する文字列</td>
6<td 任意の文字列>ここに存在する文字列</td>
7（以下略）

のようになります。

このままでは "<tr" の行が邪魔なので、この行を取り去るには、たとえば以下のようにします。

sed
1$ cat input.html | sed -n -e '/<tr align="right">/,+4p' | grep -v 'tr align="right"'
2<td 任意の文字列>ここに存在する文字列</td>
3<td 任意の文字列>ここに存在する文字列</td>
4<td 任意の文字列>ここに存在する文字列</td>
5<td 任意の文字列>ここに存在する文字列</td>
6（以下略）

こんな感じで、地道に１つずつ攻略して、求める解に近づけていきます。

なお、ワンライナーは基本的に使い捨てです。同じ処理を何度も実行して実運用に載せていくのであれば、bash/perl/php/ruby/python 等でスクリプト化するのが普通だと思います。

関連した質問