テキストファイルから複数指定した条件での抽出と加工

Question

```text
#start
#
#
#
#
#
#


ID: 11223344556677
NAME: XXXX-XXX
MAIL: xxxxx@xxxx.ne.jp


ID: 112233445566
NAME: XXXXXX-XX
MAIL: xxxxx@xxxx.ne.jp


ID: 1122
NAME: XXX-XXX
MAIL: xxxxx@xxxx.ne.jp


ID: 1234567
NAME: XX-XXXXX
MAIL: xxxxx@xxxx.ne.jp


ID: 1122334455
NAME: XXXXX-XXX
MAIL: xxxxx@xxxx.ne.jp


# search result
search: 5
result: 5

#
#end
```

上記のような形式のファイルから以下のような条件で抽出するにはどのような記述をすれば良いでしょうか？
先頭から7列目以降という条件は awk -F '=' 'NR > 8 {print $0}'" で出来そうかと思いますがその他の方法が分かっておりません。

① 先頭から7列目以降～末尾から8列目以前

② ①を除いたものから2列おきに3列ずつ取得

③ 取得した3列から改行を削除し1列にする
例：ID: 1122334455NAME: XXXXX-XXXMAIL: xxxxx@xxxx.ne.jp

④ID/NAME/MAILを抽出し別々のファイルに出力
※ID/NAME/MAILの文字数は定まっていないです。

Accepted Answer

「列」と「行」を間違えてますね。

`sed`や`awk`のようにフィルター的に処理するコマンドでは、「最後の8行を除外」は困難です。
案1：まず全体の行数を調べてから、処理を始める
案2：複数行をメモリ上に保存しながら処理する
のどちらか。

```sh
awk -v LINE=`wc -l < data.txt` 'NR>7 && NR<LINE-7 {～～～}' data.txt
```

```sh
awk '{data[NR]=$0}END{for(i=8;i<NR-7;i++){～data[i]の処理～}}'  data.txt
```

ファイル全体がメモリに乗る量なら、案2が楽そうです。
```sh
awk '{data[NR]=$0}END{
  for(i=8;i<NR-7;i+=5){ print data[i+2] data[i+3] data[i+4]}
}' data.txt
```

Answer

ファイル形式が確定しているのであれば
複数行レコードととらえて、改行をフィールドセパレータにすれば
すっきりしていいんじゃないかな。
各ファイルにレコードインデックスを添えると、のちのち便利かも。

```awk
#foo.awk

BEGIN {
	RS = "

";
	FS = "
";
}

/^ID:/ {
	sub(/ID: /, "", $1);
	sub(/NAME: /, "", $2);
	sub(/MAIL: /, "", $3);
	printf("%04d %s
", ++c, $1) >> "id.txt";
	printf("%04d %s
", c, $2) >> "name.txt";
	printf("%04d %s
", c, $3) >> "mail.txt";
}

```

```awk
awk -f foo.awk data.txt

実行結果

id.txt
0001 11223344556677
0002 112233445566
0003 1122
0004 1234567
0005 1122334455

name.txt
0001 XXXX-XXX
0002 XXXXXX-XX
0003 XXX-XXX
0004 XX-XXXXX
0005 XXXXX-XXX

mail.txt
0001 xxxxx@xxxx.ne.jp
0002 xxxxx@xxxx.ne.jp
0003 xxxxx@xxxx.ne.jp
0004 xxxxx@xxxx.ne.jp
0005 xxxxx@xxxx.ne.jp

```


----------------------------------
補足解釈およびコメントをいただいて
----------------------------------

```awk
#foo2.awk

BEGIN {
	RS = "

";
	FS = "
";
}

/^ID:/ {
	sub(/ID: /, "", $1);
	sub(/NAME: /, "", $2);
	sub(/MAIL: /, "", $3);
	recfile = "rec" sprintf("%04d", ++c) ".txt"
	printf("%s
", $1 "/" $2 "/" $3) > recfile;
}
```
```awk
awk -f foo2.awk data.txt

実行結果
rec0001.txt
11223344556677/XXXX-XXX/xxxxx@xxxx.ne.jp
rec0002.txt
112233445566/XXXXXX-XX/xxxxx@xxxx.ne.jp
rec0003.txt
1122/XXX-XXX/xxxxx@xxxx.ne.jp
rec0004.txt
1234567/XX-XXXXX/xxxxx@xxxx.ne.jp
rec0005.txt
1122334455/XXXXX-XXX/xxxxx@xxxx.ne.jp
```

こんなんでいいのでしょうか。読解力なくてすみません。

Answer

まあすべての条件を満たすとなるとperlが一番ラクじゃないでしょうかね
ちゃんとテストしてませんが、こんな感じで。

```
#!/usr/bin/env perl
use strict;
use warnings;

my @data;
while(<>){
  chomp;
  push(@data, $_);
}

my $id=0;
my $fho;
foreach my $d (@data[7..$#data-8]){
  if($d=~/^ID/){
    $id++;
    open($fho, '>', "out$id.txt");
    print {$fho} "$d
";
  }elsif($d=~/^NAME/ or $d=~/^MAIL/){
    print {$fho} "$d
";
  }
}
close $fho;
```

Answer

別ファイルってことなので grep 使ってみました。
```
awk '/ID: /{id=$0} /NAME: /{name=$0} /MAIL: / {print id name $2}' hoge.txt
grep 'ID' hoge.txt | sed 's/ID: //' >id.txt
grep 'NAME' hoge.txt | sed 's/NAME: //' >name.txt
grep 'MAIL' hoge.txt | sed 's/MAIL: //' >mail.txt
```
--- 追記 ---
仕様が違ったようなので
```
awk '/ID: /{id=$0} /NAME: /{name=$0} /MAIL: / {print id name $2}' hoge.txt
grep -e 'ID' -e 'NAME' -e 'MAIL' hoge.txt | split -l 3
```

Answer

とりあえず③まで(`,`などのセパレーターは付けないでいいのかな?)
```AWK
awk '/^(ID|NAME):/ {printf $0 } /^MAIL:/ {print $0}' 
```

補足解釈およびコメントをいただいて

関連した質問