回答率: 85.29%

質問するログイン新規登録

トップ 35に関する質問 linuxコマンドで各列の重複単語を削除したい

編集履歴

質問編集履歴

1

自分の解決法＋質問の追記

2019/11/22 04:55

投稿

スコア18

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -20,4 +20,32 @@
 ```
 のように変換したいです。
-何か解決策はございますでしょうか？
+何か解決策はございますでしょうか？
+【以降追記】
+解凍していただいた皆様、ありがとうございます。
+追加で各単語の行末についている数字を削除する必要が出てきたので以下のように`datamash transpose`を用いてループの中で一行ずつやりました。
+$1に元のファイル、$2に書き出し先のファイル名を指定しています。
+```shell
+while read row; do
+    echo $row |
+    sed -e 's/,/\t/g' |  # , =>tab
+    datamash transpose | # transpose
+    # 行末についている1〜2桁の数字を削除
+    sed -e "s/[0-9]*$//" |
+    sed -e "s/[0-9][0-9]*$//" |
+    sort -u | # 重複行削除
+    tr '\n' ',' | # 改行をカンマにして一列へ戻す
+    sed "s/^,//g"  >> $2 # 行頭のカンマ削除
+done < $1
+```
+こちらのやり方で何かよくない点等ありましたらご意見いただけるとありがたいです。
+P.S. このデータは元データの5カラム目以降を`cut`して作業しています。作業後元のファイルに結合する必要がありますが、`paste`コマンドで結合したところ数カ所で一つのセルに複数の行・列が格納されてしまいました。なので元のデータを切り取って作業するのではなく元のデータのままで`sed`コマンドなどを「〜列目以降のモノに対してだけ」使いたいと思ってます。これに関して何か良い方法はありますか？

35 101 125 541 832