回答率: 85.29%

質問するログイン新規登録

トップ AWKに関する質問 awkで重複行の削除及びカウントを実施したい

編集履歴

回答編集履歴

3

回答追加

2017/02/24 07:09

投稿

スコア7920

answer CHANGED Viewed

@@ -13,6 +13,9 @@
 wawa,zzz1
 bac,vvv1
 wawa,www1
+```
+```
 $ cat sample.txt |awk -F, '!colname[$1]++{print $0}END{print "\nduplicate column 1";for (i in colname){if (colname[i]>1) print i":"colname[i];}}'
 aaa,vvv1
 wawa,www1
@@ -24,6 +27,21 @@
 aaa:2
 ```
+```
+$ cat sample.txt |awk -F, '!colname[$2]++{print $0}END{print "\nduplicate column 2";for (i in colname){if (colname[i]>1) print i":"colname[i];}}'
+aaa,vvv1
+wawa,www1
+bbb,xxx1
+aaa,yyy1
+wawa,zzz1
+duplicate column 2
+vvv1:2
+www1:2
+```
+----
 単に以下のようなtxtファイルから重複行を排除、重複した行の数を表示するなら
 awkではなく`sort` `uniq`で可能です。

2

回答追加：awkでの処理を追加（入力ファイルの形式は想像で追加しています）

2017/02/24 07:09

投稿

スコア7920

answer CHANGED Viewed

@@ -1,6 +1,29 @@
 質問からはcsvがどう関係するのかわからないです。
 **質問へのコメントを記載しました。
+awk でやるならこんな感じです。
+sample.txtの１カラム目の値で重複判定しています。重複数の出力はENDブロックで行っています。
+`$1`を`$2`にすると2カラム目の値で重複判定します。
+```awk
+$ cat sample.txt
+aaa,vvv1
+wawa,www1
+bbb,xxx1
+aaa,yyy1
+wawa,zzz1
+bac,vvv1
+wawa,www1
+$ cat sample.txt |awk -F, '!colname[$1]++{print $0}END{print "\nduplicate column 1";for (i in colname){if (colname[i]>1) print i":"colname[i];}}'
+aaa,vvv1
+wawa,www1
+bbb,xxx1
+bac,vvv1
+duplicate column 1
+wawa:3
+aaa:2
+```
 単に以下のようなtxtファイルから重複行を排除、重複した行の数を表示するなら
 awkではなく`sort` `uniq`で可能です。

1

回答編集：コードブロックを分割

2017/02/24 07:04

投稿

スコア7920

answer CHANGED Viewed

@@ -1,9 +1,10 @@
 質問からはcsvがどう関係するのかわからないです。
 **質問へのコメントを記載しました。
-単に以下のようなtxtファイルから重複行を排除、重複した行の数を表示するなら。
+単に以下のようなtxtファイルから重複行を排除、重複した行の数を表示するなら
+awkではなく`sort` `uniq`で可能です。
-```
+```bash
 $ cat sample.txt
 aaa
 wawa
@@ -12,13 +13,19 @@
 wawa
 bac
 wawa
+```
-$ # 重複を排除したのもの表示
+# 重複を排除したのもの表示
+```bash
 $ sort sample.txt | uniq
 aaa
 bac
 bbb
 wawa
+```
-$ # 重複行のカウントを表示
+# 重複行のカウントを表示
+```bash
 $ sort sample.txt  | uniq -d -c
       2 aaa
       3 wawa