シェルスクリプト格納されてるファイルの指定の行に重複してる文字列があるかないかの結果を出したい

Question

fooファイルで行いたい処理フロー


手順1.対処のフォルダにhogeファイルがあるかfooで確認する（以降はあった場合の手順となる）
　　.IDの初回登録の場合　受け取ったhogeファイルのの内容は以下になります。
```
1行目から20行目まではID以外の内容が記載されている。
IDがある行は21-23行に存在

# aaaaa = txxxxx,txxxxx
# bbbbb = txxxxx,txxxxx
# ccccc = txxxxx,txxxxx

24行以下にはID以外の内容が記載されている
```

手順2.fooで初回のID登録か判断する(先頭に#があるとき初回登録扱い)
　・先頭に#があればtrue

手順3.追加するIDがあるか確認する（手順2がfalseのときの処理）
　・hogeファイルのグループとIDの行を取得
　　  * IDを追加する場合　追加するIDがあるかの確認
　　　・IDがリストにあればtrue
   
     * IDを削除する場合　削除するIDがあるかの確認
　　　・IDがリストになければtrue

手順4.手順2.3でファイルの内容を確認して内容を変更していくか判断する
　・手順2がtrueもしくは 手順3がfalseの場合以降の手順を進める
　・内容の変更がない場合はwarningを表示させて終了

手順5.hogeファイルの内容を変更する前に hoge.yyyyMMddHHmmSS.sssの形で同じ階層にバックアップを作成

手順6.手順2でtrueだった場合初回登録とみなす
　・IDを追加する前に先頭にある#と半角スペース　=後ろにある txxxxx,txxxxxを削除し　aaaaa=の状態にする

手順7.ここでIDリストの追加と重複削除処理を行う
    * 手順3で受け取ったIDリストを配列に変更（カンマを半角スペースに変える）
      * 変更した配列で削除追加処理を行う
        * 追加削除した配列をカンマ区切りの文字列に戻す。
          * 追加削除し終えた行をhogeファイルの元の行に置き換える 


以上のフローを実行できればと思っています。 

ーーーーーーーーーーーーーーーーーーーー


※初回登録かそうではないかのtrue falseは確認できる状態です※


hogeが更新されるごとにグループが持つのIDが追加される
稀に重複したIDが追加されるため重複してるかしていないかの確認処理をfooで行いたい。


・使用するファイルは２つあります。
①テキストファイルhoge（グループとIDが追加されていく）
②テキストファイルfoo（重複があるかないかを確認、あった場合hogeのバックアップを作成し、その後重複の処理を行う）

・テキストファイルhogeの内容は以下(初回登録ではない場合)になります。
（例）グループ名 = ID,ID,ID,ID

```
aaaaa = t11111,t22222,t33333,t44444,t55555
bbbbb = t11111,t22222,t33333,t44444,t55555
ccccc = t11111,t22222,t33333,t44444,t11111
```


以下は修正前と修正後のhogeファイルの内容となります。
IDリスト記載の行のみ抜粋(修復するIDを増やしています)

修正前hogeファイル(重複がある場合)

```
aaaaa = t11111,t22222,t33333,t44444,t55555
bbbbb = t11111,t22222,t33333,t44444,t55555
ccccc = t11111,t22222,t33333,t44444,t11111,t22222,t99999
```


修正後hogeファイル

```
aaaaa = t11111,t22222,t33333,t44444,t55555
bbbbb = t11111,t22222,t33333,t44444,t55555
ccccc = t11111,t22222,t33333,t44444,t99999
```
















経験が浅く見当違いな質問でしたら申し訳ございません。
説明不足かとは思いますが、、、
ご意見、ご回答教えていただきますととても助かります。
宜しくお願い致します。

Accepted Answer

補足コメントを見ても、どのようにfooを使いたいのかが全く理解できませんが、要は、hogeにIDの重複がある場合はそれを解消する方向に修正したいということでしょうか。

```
cp hoge hoge.bak
awk -F " *[=,] *" '{delete n; printf "%s=%s", $1,$2; n[$2]=1; for(i=3;i<=NF;i++){n[$i]++; if(n[$i]<=1) printf ",%s",$i;} printf "
"}' hoge.bak > hoge
```

# 追記

だいぶん話が違っていたことがわかってきたので、改めて。

hoge.txt     

```                                                                                                                                                                          
 # aaaaa = t11111,t22222,t33333,t44444,t55555
aaaaa = t11111,t22222,t33333,t44444,t55555
bbbbb = t11111,t22222,t33333,t44444,t55555
ccccc = t11111,t22222,t33333,t44444,t11111,t22222,t99999
```

test.awk                                                                                                                                                                                 
```
BEGIN{
    FS = " *[=,] *";
}
/^#/{
    sub(/^# */, "", $1);
    printf "%s=
", $1;
    next;
}
{
    delete n;
    printf "%s=%s", $1, $2;
    n[$2]=1;
    for(i=3; i<=NF; i++){
        n[$i]++; 
        if(n[$i]<=1) printf ",%s", $i;
    }
    printf "
";
}
```

実行

```
$ awk -f test.awk hoge.txt                                                                                                                                                     
aaaaa=
aaaaa=t11111,t22222,t33333,t44444,t55555
bbbbb=t11111,t22222,t33333,t44444,t55555
ccccc=t11111,t22222,t33333,t44444,t99999
```

Answer

やろうとしている処理がよく分からなくて一部こちらで勝手に問題設定している感じではありますが、
以下のようなスクリプトを使用すればhogeからID重複しないようにしたファイルを出力することは出来ます。

↓「idfilter.awk」というファイル名で保存してください。
```awk
#! /usr/bin/awk -f 
BEGIN {
        # これはデフォルト値と同じだが、この値でないと正常動作しないため明示的に指定する。
        FS = " "
}
{
        # この時点で $1=(グループ) $2="=" $3=ID,ID,ID,...

        # IDをカンマで分割する。
        split( $3, in_ids, "," )

        # in_ids から重複を取り除いた ids を取り出す。
        delete dupid
        delete ids
        j = 0
        for ( i in in_ids ) {
                id = in_ids[ i ]

                # まだ登場していないID？
                if ( dupid[ id ] == "" ) {
                        ++dupid[ id ]

                        # まだ登場していないIDの場合 idsへコピーする。
                        ids[ ++j ] = id;
                }
                else {
                        # 重複を検出したら標準エラー出力へ出力する。
                        print "重複検出: グループ名=" $1 " ID=" id > "/dev/stderr"
                }
        }

        # 処理した結果を出力
        printf $1 " " $2 " "
        f = 0
        for ( id in ids ) {

                if ( f == 0 ) {
                        f = 1
                }
                else {
                        printf ","
                }

                printf ids[ id ]

        }
        print ""
}
```

```
$ cat hoge
aaaaa = y11111,y22222,y33333,y44444,y55555
bbbbb = u11111,u22222,u33333,u44444,u55555
ccccc  = t11111,t22222,t33333,t44444,t11111 
$ awk -f idfilter.awk hoge >hoge.new 2>hoge.err
$ cat hoge.new
aaaaa = y11111,y22222,y33333,y44444,y55555
bbbbb = u11111,u22222,u33333,u44444,u55555
ccccc = t11111,t22222,t33333,t44444
$ cat hoge.err
重複検出: グループ名=ccccc ID=t11111
```

Answer

hogeとfooの関係が質問文ではゴチャゴチャして不明です。

とりあえず、IDが英数字からなる前提で、重複のある行を抜き出すのは、
```sh
egrep '=.*\b(\w+)\b.*\b\1\b' hoge
```
です。

追記

関連した質問