質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
シェルスクリプト

シェルスクリプトは、UNIX系のOSもしくはコマンドラインインタプリタ向けに記述されたスクリプト。bash/zshといったシェルによって実行されるため、このように呼ばれています。バッチ処理などに使用されており、テキストファイルに書かれた命令を順に実行します。

Ubuntu

Ubuntuは、Debian GNU/Linuxを基盤としたフリーのオペレーティングシステムです。

AWK

AWKは、UNIX 上で開発されたプログラミング言語で、CSVファイルなどのテキストファイルの処理を目的にデザインされています。

Q&A

解決済

2回答

1132閲覧

シェルスクリプトでCSVファイルのフィールドを出力したい

siroutouser

総合スコア2

シェルスクリプト

シェルスクリプトは、UNIX系のOSもしくはコマンドラインインタプリタ向けに記述されたスクリプト。bash/zshといったシェルによって実行されるため、このように呼ばれています。バッチ処理などに使用されており、テキストファイルに書かれた命令を順に実行します。

Ubuntu

Ubuntuは、Debian GNU/Linuxを基盤としたフリーのオペレーティングシステムです。

AWK

AWKは、UNIX 上で開発されたプログラミング言語で、CSVファイルなどのテキストファイルの処理を目的にデザインされています。

0グッド

0クリップ

投稿2022/11/30 06:54

前提

シェルスクリプトでCSVファイルを読み込み、awkコマンドで各フィールドを出力したいのですがうまくいきません。
上記についてアドバイスをいただきたく、お手数をおかけしますがよろしくお願いします。

○読み込むCSVファイルの形式
対象のファイルは,で区切られていますが各フィールドの要素は"で囲われています。
"データ①","データ②","データ③","データ④"

発生している問題・エラーメッセージ

一部のデータに「,」含まれている場合があり、
そのようなデータを処理した場合にデータの出力がずれてしまいます。

実現したいこと

データの中に「,」が含まれてしまうことは避けれないので、
awkで「",」を区切り文字としてデータを分割したいと考えております。

該当のソースコード

#!/bin/bash for file in `\find ./log/ -name '*.csv'`; do cat $file | awk 'BEGIN{FS="","}{print $1,$4}' >> Output.csv #以下の書き方でもうまくいきませんでした。 #cat $file | awk -F '",' -v OFS="," ' {print $1,$4}' >> Output.csv done

以上です。よろしくお願いします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

melian

2022/11/30 07:01

> 「",」を区切り文字としてデータを分割したい こちらで処理すると、 cat $file | awk -F '",' -v OFS="," ' {print $1,$4}' 以下の様に出力されます。 "データ①,"データ④" 実際には、「データ①,データ④」の様にダブルクォートを除去して出力したいのではないでしょうか?
siroutouser

2022/11/30 07:05

コメントをいただきありがとうございます。 上記ご認識の通りです。 「データ①,データ④」の様にダブルクォートを除去して出力したいです。
guest

回答2

0

ベストアンサー

awk -F '","|^"|"$' '{print $2}'でも可能ですが、番号が1つずれます。第1項が$2

投稿2022/11/30 08:51

otn

総合スコア84499

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

siroutouser

2022/12/01 02:58 編集

コメントをありがとうございます。 上記では意図した動作にかなり近い動きとなりました。 今時点で列がずれている問題にぶつかっているのですが、-Fの部分を調整することでうまく対処できそうな感じがしました。 ※,,,,のようなデータがおかしくなっているような感じがしています。
otn

2022/11/30 15:07

> 各フィールドの要素は"で囲われています。 という前提に基づいた回答です。 この前提が正しければ、 ,,, のような、区切りのカンマの連続は、あり得ないのですが、(,"", のように空を引用符で囲んだ物になるはず) > 各フィールドの要素は"で囲われています。 という前提が間違っていたと言うことでしょうかね。
otn

2022/11/30 15:23

引用符に囲まれない要素、引用符に囲まれない空もあるなら、セパレーターだけの指定では無理なので、 FPATを使って、 gawk -v FPAT='"[^"]*"|[^,]*' でしょうか。
siroutouser

2022/12/01 03:44

遅い時間までありがとうございました。 上記いただいたFPATの指定で動作させることができました。 また、前提条件が見たがっており大変申し訳ありませんでした。 フィールドが空のものについては””はありませんでした。
siroutouser

2022/12/01 23:45

上記の補足です。 最終的にcsvで吐き出す際にフィールド内に「,」がある場合は、別のツールなどで読み込む際に区切り文字として認識されるので、ご教示いただいたgawkの後に「,」が含まれるフィールドについて「,」→「,(全角)」にして最終対応しました。 cat $file | gawk -v FPAT='("[^"]*")|([^,]*)' 'OFS="," { gsub(/,/ , ",", $2); print $1,$2,$3,$4}' | sed -e 's/\"//g' | nkf -Ws >> Output.csv
guest

0

BEGIN{FS="","}

まずこれは文法的に間違っています。FS="\","のようにエスケープが必要です。

また、前後に余計な引用符がくっついたままになるので、これを必要に応じて除去する処理が必要です。

gnu awkだと、組み込み変数FPATというのを使えば楽に解決できるようです。

gawk -v FPAT='([^,]+)|(\"[^\"]+\")' '{print $1,$4}'

投稿2022/11/30 07:17

編集2022/11/30 07:40
KojiDoi

総合スコア13671

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

siroutouser

2022/11/30 13:56

コメントをありがとうございます。 CSVの仕様で,を含むフィールドがある場合は""で区切るということを初めて知りました。 その上でgawkが有効だと思いました。 ただ、以下のようにコマンドを修正して実行したところ,,,,のような空白行をうまく処理できず、列がずれて表示される課題にぶつかりました。 cat $file | gawk -v FPAT='(,?[\"\"])|([^,]+)|(\"[^\"]+\")' 'OFS="," {print $1,$4}' | sed -e 's/\"//g' >> Output.csv
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問