質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
bash

bash(Bourne-again-Shell)は sh(Bourne Shell)のインプリメンテーションに様々な機能が追加されたシェルです。LinuxやMac OS XではBashはデフォルトで導入されています。

Linux

Linuxは、Unixをベースにして開発されたオペレーティングシステムです。日本では「リナックス」と呼ばれています。 主にWebサーバやDNSサーバ、イントラネットなどのサーバ用OSとして利用されています。 上位500のスーパーコンピュータの90%以上はLinuxを使用しています。 携帯端末用のプラットフォームAndroidは、Linuxカーネル上に構築されています。

シェル

シェル(shell)はUnix や Linux 系のOSで使用されるコマンドインタプリタを指します。

sh

shは、UNIX系OSのシェル操作の1つであり、最も基本的なシェルのことです。

Red Hat Enterprise

Red Hat Enterpriseは、レッドハット社により開発・サポートが行われている業務向けLinuxディストリビューションです。オープンソースで無償で利用することができ、バイナリ版の入手・サポートは有償です。商用ディストリビューションとして人気が高く、代表的なLinuxの選択肢の一つです。

Q&A

解決済

4回答

804閲覧

重複行の抽出と削除方法

natsu25

総合スコア46

bash

bash(Bourne-again-Shell)は sh(Bourne Shell)のインプリメンテーションに様々な機能が追加されたシェルです。LinuxやMac OS XではBashはデフォルトで導入されています。

Linux

Linuxは、Unixをベースにして開発されたオペレーティングシステムです。日本では「リナックス」と呼ばれています。 主にWebサーバやDNSサーバ、イントラネットなどのサーバ用OSとして利用されています。 上位500のスーパーコンピュータの90%以上はLinuxを使用しています。 携帯端末用のプラットフォームAndroidは、Linuxカーネル上に構築されています。

シェル

シェル(shell)はUnix や Linux 系のOSで使用されるコマンドインタプリタを指します。

sh

shは、UNIX系OSのシェル操作の1つであり、最も基本的なシェルのことです。

Red Hat Enterprise

Red Hat Enterpriseは、レッドハット社により開発・サポートが行われている業務向けLinuxディストリビューションです。オープンソースで無償で利用することができ、バイナリ版の入手・サポートは有償です。商用ディストリビューションとして人気が高く、代表的なLinuxの選択肢の一つです。

1グッド

1クリップ

投稿2017/06/30 04:30

日次でアクセスを集計し、以下のようにタブ区切りでtsvファイルに出力するスクリプトをbashで作っています。
下記のように取得を失敗した際に再実行し日付が重複した場合、収集失敗と出力されている行を削除して上書きする機能を追加したいのですが
どのような方法が有りますでしょうか?
sedやuniqを使えば良いのかとは思うのですがどうやって日付部分のみで列を抽出し削除すれば良いのかが分かりません

test.tsv 日付 リクエスト数 最大QPS 2017-06-01 1332 2 2017-06-02 1332 2 2017-06-03 1328 1 2017-06-04 収集失敗 2017-06-04 1321 1 2017-06-05 1369 2 2017-06-06 1320 1 2017-06-06 収集失敗 2017-06-06 1320 1 2017-06-07 1369 2 2017-06-08 1374 2 2017-06-09 1319 1 2017-06-10 1346 2
DrqYuto👍を押しています

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答4

0

ベストアンサー

ご期待と違うと思いますがご参考として(運用ログ用かな)
後に上がって来るものが同日であれば上書き(スキップ)するにしております。
1Mファイルは厳しいかもしれません。

bash

1#!/bin/sh 2cat <<EOF >test.tsv 3日付 リクエスト数 最大QPS 42017-06-01 1332 2 52017-06-02 1332 2 62017-06-03 1328 1 72017-06-04 収集失敗 82017-06-04 1321 1 92017-06-05 1369 2 102017-06-06 1320 1 112017-06-06 収集失敗 122017-06-06 1320 1 132017-06-07 1369 2 142017-06-08 1374 2 152017-06-09 1319 1 162017-06-10 1346 2 172017-06-11 収集失敗 182017-06-12 1346 2 19EOF 20 21 22TB=$'\t' 23while read -a ar 24do 25 if [ "${ar[1]}" == "収集失敗" ]; then 26 bf=("${ar[@]}") 27 continue 28 fi 29 if [ ! -z "${bf[0]}" ]; then 30 if [ "${ar[0]}" != "${bf[0]}" ]; then 31 echo ${bf[0]} "$TB" ${bf[1]} 32 fi 33 fi 34 echo ${ar[0]} "$TB" ${ar[1]} "$TB" ${ar[2]} 35 bf=() 36done<test.tsv 37if [ ! -z "${bf[0]}" ]; then 38 echo ${bf[0]} "$TB" ${bf[1]} 39fi

投稿2017/06/30 06:28

A.Ichi

総合スコア4070

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

uniq -w で文字数が指定出来ます。
複数件あった時に、最後の行を取るのだとすると、

Bash

1tac test.tsv | 2uniq -w 10 | 3tac

ですかね。

投稿2017/06/30 04:49

otn

総合スコア84505

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

あまり難しく考えず、行単位で必要か不必要かで考えてます。
uniqを初めて使ったので正しくないかもしれませんが、
ローカル環境では確認できました。

cat test.tsv | grep -v 収集失敗 | uniq > test.tsv

grepのvオプションは任意の文字列を含む行を対象外にします。
最初にcatをかませるのは、同じファイルをgrepしてリダイレクトするとダメっぽいからです。

投稿2017/06/30 04:46

szk.

総合スコア1400

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

otn

2017/06/30 04:53

これは、パイプバッファ(+catのバッファ)を超えるサイズのファイルだと駄目ですね。上書きされます。 パイプバッファを超えないサイズでもタイミングによっては駄目だと思います。
szk.

2017/06/30 05:07

ご指摘ありがとうございます。 パイプバッファ超えるとダメですね。 環境依存だと思いますが、試した感じ1Mくらいのファイルでダメでした。 ただ何日分が対象になるかで問題ないこともあるかと思います。 タイミングによると言われると ファイルなりコマンドを分けてもらうのが得策になるかと思っています。
guest

0

$ sed -ie "/収集失敗/d" test.tsv

ただ、2017-06-06は収集失敗でない行が2つあるようで、そこは残ってしまいますが。

投稿2017/06/30 04:46

kunai

総合スコア5405

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問