linuxコマンドで各列の重複単語を削除したい

Question

Linuxコマンドでcsvファイルの各列を洗って重複する単語があれば片方を削除したいです。
考えているのは各行ループの中で、`cut -d ,`等でカンマを区切り文字として重複単語を見つけ、削除したいです。
具体的には以下のような感じです。

```
kingyo,panda,pig,pig
neko,inu,sakana,penguin
sea,see,sea,mountain
taro,taro,taro1,taro2
kanji,hiragana,katakana,eigo,kanji
```

を
```
kingyo,panda,pig
neko,inu,sakana,penguin
sea,see,mountain
taro,taro1,taro2
kanji,hiragana,katakana,eigo
```
のように変換したいです。

何か解決策はございますでしょうか？

【以降追記】

解凍していただいた皆様、ありがとうございます。

追加で各単語の行末についている数字を削除する必要が出てきたので以下のように`datamash transpose`を用いてループの中で一行ずつやりました。
$1に元のファイル、$2に書き出し先のファイル名を指定しています。

```shell
while read row; do
    echo $row |

    sed -e 's/,/	/g' |  # , =>tab
    datamash transpose | # transpose
  
    # 行末についている1〜2桁の数字を削除
    sed -e "s/[0-9]*$//" |
    sed -e "s/[0-9][0-9]*$//" |
    
    sort -u | # 重複行削除
    tr '
' ',' | # 改行をカンマにして一列へ戻す
    sed "s/^,//g"  >> $2 # 行頭のカンマ削除
done < $1
```

こちらのやり方で何かよくない点等ありましたらご意見いただけるとありがたいです。

P.S. このデータは元データの5カラム目以降を`cut`して作業しています。作業後元のファイルに結合する必要がありますが、`paste`コマンドで結合したところ数カ所で一つのセルに複数の行・列が格納されてしまいました。なので元のデータを切り取って作業するのではなく元のデータのままで`sed`コマンドなどを「〜列目以降のモノに対してだけ」使いたいと思ってます。これに関して何か良い方法はありますか？

Accepted Answer

```
while read row; do
  echo "Executing commands in $count th row ..."
  echo "..."
  echo "..."
  count=$(( count + 1))
    echo $row |
    cut -d, -f 5- | # 5列目以降を
    
    nkf -X --overwrite | # 半角カナを全角カナに    
    
    sed -e 's/,/	/g' |  # , =>tab
    datamash transpose | # transpose
    
    sort -u | # 重複行削除
    tr '
' ',' | # 改行をカンマにして一列へ戻す
    sed 's/^"//g' | # 行頭のクオーテーション削除
    sed "s/^,//g"  >> $2 # 行頭のカンマ削除
  echo  >> $2
done < $1
```

Answer

perlを使い少し趣向を変えて、正規表現だけでやってみました。

```bash
$ perl -ple 's/(,?)([^,]+)(?{$`!~$2?$1.$2:""})/$^R/g' file.csv
```

Answer

`awk`で書こうとするとちょっと長くなりそうだったのでやめて、`sed`で。
```sh
cat <<EOF |
kingyo,panda,pig,pig
neko,inu,sakana,penguin
sea,see,sea,mountain,sea
taro,taro,taro1,taro2
kanji,hiragana,katakana,eigo,kanji
EOF
sed -r ':x;s/(^|,)([^,]+)(.*),\2(,|$)/\1\2\3\4/g;t x'
```
同じ単語が3つ以上あるかもしれないので、同じ単語が無くなるまで`t `でループします。

Answer

take88さんの回答と発想は同じですが、

* 作業用ハッシュをmy指定しておかないと同じ単語が別の行に再登場したときに問題が発生する。
* -F,aオプションを使うとさらにシンプルにワンライナーが書ける。

というわけで、
```
 perl -F, -anle 'my %x; print join(",", grep {!$x{$_}++} @F)' file.csv
```

質問の追加に伴う追記

単に各項の数字を削除したいだけなのにわざわざ行列の入れ替えを行なうとは、あまりに無駄すぎると思います。
sedを使うなら、`s/[0-9]*,/,/g; s/[0-9]*$//;`で済みます。

追加事項に対応してみたスクリプト。さすがにワンライナーは辛くなってきたのでスクリプトファイルにしてみます。
```
$ cat coluniq.pl
while(<>){
  chomp;
  my %d;
  my @F=split(/,/, $_);
  my($from, $to) = (4, $#F);
  foreach my $x (@F[$from..$to]){
    $x=~s/[0-9]+$//;
    $d{$x}=0;
  }
  print join(",", @F[0..($from-1)], keys %d);
}

$ cat in.csv
1,1,1,1,kingyo,panda,pig,pig
1,1,1,1,neko,inu,sakana,penguin
1,1,1,1,sea,see,sea,mountain
1,1,1,1,taro,taro,taro1,taro2

$ perl ~/work/coluniq.pl in.csv
1,1,1,1,panda,kingyo,pig
1,1,1,1,inu,penguin,sakana,neko
1,1,1,1,see,mountain,sea
```

Answer

Perlのワンライナーでやってみました。

```shell
$ cat file.csv
kingyo,panda,pig,pig
neko,inu,sakana,penguin
sea,see,sea,mountain
taro,taro,taro1,taro2
kanji,hiragana,katakana,eigo,kanji

$ perl -nle 'print join ",", grep {!$buf{$_}++} split ",",$_;' file.csv
kingyo,panda,pig
neko,inu,sakana,penguin
sea,see,mountain
taro,taro1,taro2
kanji,hiragana,katakana,eigo

```

関連した質問