シェルスクリプトでテキストの更新処理

###前提・実現したいこと
初心者です。

TXT01　と　TXT02　という2つのファイルがあります。

TXT01は下記のDATAが入っています
ID　　　　　status
0001　　　　 A
0002　　　　 A
0003　　　　 A
0004　　　　 A
0005　　　B

TXT02には下記のDATAです。
ID　　　　　status
0001　　　　B
0002　　　　B
0003　　　　A

TXT02のレコードをTXT01に更新したいのですが、
状態の異なる0001と0002はA→Bに更新し、
0003は同じAでstatusが同じなのでエラーコードか
statusが同じですという戻り値を返したいということです。

bashかAWKでと思いますが、コードサンプルをご教授いただけると
大変助かります。

行動規範の内容に同意します

回答1件

ベストアンサー

仕様が曖昧な点がありますが、適当に想像して書いてみました。

更新後のTXT01をTXT01.newへ次のように出力したいと仮定します。(awkにせよ何にせよTXT01を同時に入力と出力の対象とすることはできませんので出力は一旦TXT01.newへ行うわけです)

ID status
0001 B
0002 B
0003 ERROR
0004 A <--TXT02に出現しないデータはそのまま
0005 B

bash
1(
2  echo '-s-'
3  cat TXT2
4  echo '-e-'
5  cat TXT1
6) | awk '
7/-s-/,/-e-/ { m[$1]=$2; next }
8/^ID/ { print; next }
9{ print $1" "((m[$1] != $2) ? $2 : "ERROR") }' > TXT1.new

いろいろ行儀が悪い点があります。(-s-,-e-を辞書mに登録してしまう点など・・・)

追記：

otnさんにコメントいただいたので平易と思われる方法を追記させていただきます。

bash
1awk '
2!F { m[$1]=$2; next }
3/^ID/ { print; next }
4{ print $1" "((m[$1] != $2) ? $2 : "ERROR") }
5' TXT2 F=1 TXT1 > TXT1.new

断然分かり易いですね！（まだイケテナイ部分は残っているだろうとは思いますが・・・）

投稿2017/11/23 09:03

編集2017/11/23 11:34

KSwordOfHaste

総合スコア18394

退会済みユーザー

2017/11/23 09:31

大変ありがとうございます。もっとわかりやすく質問できるよう工夫します。参考にやってみます。

otn

2017/11/23 11:20

awkで複数ファイルに別々の処理をしたいとき、普通はこうします。 awk '!F{ m[$1]=$2; next }～～' TXT2 F=1 TXT1

KSwordOfHaste

2017/11/23 11:25 編集

そんな技が！コメントありがとうございます。 --- If a filename on the command line has the form var=val it is treated as a variable assignment. この一文を長年気づかずに使ってきました・・・感謝です。

退会済みユーザー

2017/11/23 11:33

ありがとうございます。実は質問の仕方が悪く、TXT01の同一キー（ID)のstatusをファイル名そのままで TXT02のレコードと比較してA→Bに書き換えられないかという、質問でした。 TXT02のレコードとTXT01のレコードを比較して、異なっていたらUPDATEするということですが、DBならなんということはないのですが、ファイルでやろうとすると良くわからず KSさんの回答から、無理かなと思いましたが、もし別解があるなら、アドバイスいただけるとありがたいです。 sedでということかもと調べていましたが、辿りつけません。

KSwordOfHaste

2017/11/23 11:42 編集

一旦TXT01.newに出力した後で、 mv TXT01.new TXT01 とすればよいだけでは？ --- もし他のファイルへ一時的に出力したくないなら、通常のLinuxコマンドではなくCで専用のコードを書く必要がある気がします。テキスト処理が得意なUnix/Linuxですが、特定のファイルを直接書き換えるようなコマンドはパイプラインで繋げにくく、使い勝手が悪くなるため大抵のコマンドはstdinからstdoutへのフィルターとして設計されている気がします。

退会済みユーザー

2017/11/23 12:01

ありがとうございます。勉強になります。どうもDBの発想が抜けず、TXT01のレコードが数千とかの時のパフォーマンスを気にしました。頭の切り替えが必要だなと思いました。 .newから元のTXT01に戻すとき差分だけとか（意味ないかも、とも思いますが）いくつか試してみます、ありがとうございました。

KSwordOfHaste

2017/11/23 12:06 編集

> DBの発想が抜けずその気持ちはなんとなくわかる気がします。すごく巨大なテキストファイルならもう少し専用のプログラム・論理で立ち向かわなければならないかも知れませんが、例えば10万行ぐらいのものをバッチ処理すると考えると専用のプログラムを作るよりはフィルターの組み合わせ＋最後にmvでも充分なパフォーマンスが出る気がします。色々試してみるとLinuxがすごく軽いOSであることを実感される気がします。

takasima20

2017/11/23 22:41

横から失礼「どうしても」元ファイルを直接更新したいのなら vi の操作を作って与えればいけると思いますが数千行とかいう話なら一時的にでもdatabaseを経由して処理しちゃう方がいいんじゃないのかなあという気がしました

退会済みユーザー

2017/11/24 06:33

貴重なご意見ありがとうございます。更新となるとDBは楽だと思います。ゆえあって、脱DBに挑戦中でして、やってみたところ1万行程度なら、NEWファイル一瞬で終わりましたので、パフォーマンス気にすることはないと思いました。ファイルのデータ量を必要最低限に抑えるためどのようにデータを分割保持するかが、肝だと思っていますがシェルコマンドに不慣れで、今後ともご指導お願いします。

行動規範の内容に同意します