質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.50%

  • Linux

    4444questions

    Linuxは、Unixをベースにして開発されたオペレーティングシステムです。日本では「リナックス」と呼ばれています。 主にWebサーバやDNSサーバ、イントラネットなどのサーバ用OSとして利用されています。 上位500のスーパーコンピュータの90%以上はLinuxを使用しています。 携帯端末用のプラットフォームAndroidは、Linuxカーネル上に構築されています。

  • SQL

    3020questions

    SQL(Structured Query Language)は、リレーショナルデータベース管理システム (RDBMS)のデータベース言語です。大きく分けて、データ定義言語(DDL)、データ操作言語(DML)、データ制御言語(DCL)の3つで構成されており、プログラム上でSQL文を生成して、RDBMSに命令を出し、RDBに必要なデータを格納できます。また、格納したデータを引き出すことも可能です。

  • bash

    808questions

    bash(Bourne-again-Shell)は sh(Bourne Shell)のインプリメンテーションに様々な機能が追加されたシェルです。LinuxやMac OS XではBashはデフォルトで導入されています。

bash:for文でSELECT文をgrepする方法について教えてください。

解決済

回答 4

投稿 編集

  • 評価
  • クリップ 1
  • VIEW 1,825

Royec0619

score 40

前提・実現したいこと

シェルスクリプトで、SQLが記載されたあるログファイルから各SELECT文の割合を算出したいです。
簡易的な割合のため、where句以降は省略してユニーク化させています。
仕組みとしては、ログファイルのSELECT文をユニーク化し、それを元にログファイルから各SELECT文の割合を算出したいと思っています。

期待する結果。

例 <SQL>,<行数>

SELECT cid, name, address FROM test1;,3
SELECT class, school FROM test2;,3
SELECT company, train, station FROM test3;,3

上記のような形で、対象のSQLとそのSQLがファイル内に存在する行数が表示されるようにしたいです。

発生している問題・エラーメッセージ

セミコロンを区切り文字にしているのでクエリ毎に変数へ格納できているのですが
grepがうまくいかず、wc -lの結果で全行が返ってきてしまいます。
grep内の変数をダブルクォーテーションでくくってみた入りもしましたがうまくいきませんでした。(スペースがあるからでしょうか…

ソースコード

使用例:./test.sh(以下のスクリプト) <ログファイル>

#!/bin/bash
IFS_BACKUP=$IFS
IFS=$';'   ←セミコロンで区切り、for文の変数に格納しています。
for n in $(sort ${1} | uniq | grep -i select | awk -F'\t' '{print $ 3}')
do
  echo "${n},$(grep ${n} ${1} | wc -l)"
done
IFS=$IFS_BACKUP
### ログファイル
1       162015  SELECT cid, name, address FROM test1;
2       162015  SELECT class, school FROM test2;
3       162015  SELECT company, train, station FROM test3;
1       162015  SELECT cid, name, address FROM test1;
2       162015  SELECT class, school FROM test2;
3       162015  SELECT company, train, station FROM test3;
1       162015  SELECT cid, name, address FROM test1;
2       162015  SELECT class, school FROM test2;
3       162015  SELECT company, train, station FROM test3;

補足情報(言語/FW/ツール等のバージョンなど)

OS:CentOS6.7

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • otn

    2016/02/16 22:22 編集

    他人が再現できるように入力データを示してください。
    あと、期待する出力結果も。
    また、awkでタブを区切りに指定していますが、データ中にタブがあると言うことですか?

    キャンセル

  • Royec0619

    2016/02/17 01:15

    色々と情報不足ですみません。ご推察の通りデータ中にタブが存在します。

    キャンセル

回答 4

check解決した方法

0

夜分にご覧いただいたのにすみません。
一応結果だけで言うと自己解決いたしましたので、その内容とともにご報告させていただきます。

まず、うまくgrepで抽出できていなかった原因ですが、改行がその原因のようでした。
よくよくデバッグ出力の結果を見ると、grepの直後に改行されていました。

++ grep '"  ←ここで改行
SELECT cid, name, address FROM test1;,3


そのため、スクリプトの区切り文字を';'→改行に変更することにしました。

*** wariai.sh.org       2016-02-16 08:25:52.855007303 -0800
--- wariai.sh.org2      2016-02-16 08:28:00.410006453 -0800
***************
*** 1,6 ****
  #!/bin/bash
  IFS_BACKUP=$IFS
! IFS=$';'
  for n in $(sort ${1} | uniq | grep -i select | awk -F'\t' '{print $ 3}')
  do
    echo "${n},$(grep "${n}" ${1} | wc -l)"
--- 1,7 ----
  #!/bin/bash
  IFS_BACKUP=$IFS
! IFS=$'
! '
  for n in $(sort ${1} | uniq | grep -i select | awk -F'\t' '{print $ 3}')
  do
    echo "${n},$(grep "${n}" ${1} | wc -l)"


しかし、区切り文字の変更が想定外の動作となりました。
<SQL>,<行数>という結果を期待していましたが、,<行数><SQL>という結果となり、しかもSQLの一部に侵食するように形が崩れていました。その結果が、以下です。

SELECT cid, name, address FROM test1;,3 ←期待する結果
,3ELECT cid, name, address FROM test1;  ←今回の結果


そこで、echoで出力する順番を以下のように変更しました。

*** wariai.sh   2016-02-16 08:06:21.895007284 -0800
--- wariai.sh.org2      2016-02-16 08:28:00.410006453 -0800
***************
*** 4,9 ****
  '
  for n in $(sort ${1} | uniq | grep -i select | awk -F'\t' '{print $ 3}')
  do
!   echo "$(grep "${n}" ${1} | wc -l),${n}"
  done
  IFS=$IFS_BACKUP
--- 4,9 ----
  '
  for n in $(sort ${1} | uniq | grep -i select | awk -F'\t' '{print $ 3}')
  do
!   echo "${n},$(grep "${n}" ${1} | wc -l)"
  done
  IFS=$IFS_BACKUP


その結果、当初の期待する結果の形とは違いますが、目的である、対象のSQLのそのログファイル内での割合(何行存在するか?)を割り出すことができました。

3,SELECT cid, name, address FROM test1;


しかし、この理屈を理解できていず、結果オーライの状態になってしまっています。改行が影響していることはわかるのですが……

もし、この仕組みに心当たりある方がいらっしゃいましたらご教示いただけますと幸いです。

以上、よろしくお願いいたします。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2016/02/18 04:38 編集

    ちょっと長くなったので回答へ…

    キャンセル

0

はじめに
もしかして、ログファイルはWindows上で作成されたものでは?
そして、スクリプトはCentOS上で作成していませんか?

説明
Windows上での改行コードは「CR+LF(\r\n)」になります。
対してCentOS(Linux)での改行コードは「LF(\n)」になります。
IFSへは直接改行を入力されているので「LF(\n)」が区切り文字になっていると思います。

結果として抽出したSQL分の;の後に「CR(\r)」が残ったままとなり、
"${n}"を出力後、行頭に移動して",$(grep "${n}" ${1} | wc -l)"の出力になるので
行頭から上書きする状態でカンマ以降が出力されるのだと思います。

ログファイルに対して以下のコマンドを実行すると確認できます。

$file sample.log
sample.log: ASCII text, with CRLF line terminators

結果が上記の通りなら、これが原因かと思われます。

IFSの設定を以下のように変更すれば対応できると思います。
手元の環境(vagrantで構築したCentOS 6.7)での確認しました。

IFS=$'\r\n'
# 制御コードを含めるときに$を付けます。
# 2つ指定してますが個別に判定されるので、CR+LF、LFのどちらでも対応できます。
# 区切り文字として読み捨てられる感じに。

あとは、実際のログファイルを確認できないので上記の状態でなければ不明です。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

-1

重複して回答してしまいましたので、こちらは削除しました。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2016/02/16 23:59

    最近回答ボタンを押しても反応が無い事が多く、時折二重にボタンを押してしまうことがあります。。。すみません。

    キャンセル

-1

セパレータがセミコロン ; なのでしたら、

IFS=$';'


IFS=';'


としてみるとどうなりますか?

otnさまがご質問を出されている通り、情報が不足しているので正しい回答かどうかわからないまま手探りの回答となってしまいすみません。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2016/02/17 00:15

    bashでは ';' と $';' は同じですよ。つまり $ を付ける意味は無いのですが、取っても同じです。

    キャンセル

同じタグがついた質問を見る

  • Linux

    4444questions

    Linuxは、Unixをベースにして開発されたオペレーティングシステムです。日本では「リナックス」と呼ばれています。 主にWebサーバやDNSサーバ、イントラネットなどのサーバ用OSとして利用されています。 上位500のスーパーコンピュータの90%以上はLinuxを使用しています。 携帯端末用のプラットフォームAndroidは、Linuxカーネル上に構築されています。

  • SQL

    3020questions

    SQL(Structured Query Language)は、リレーショナルデータベース管理システム (RDBMS)のデータベース言語です。大きく分けて、データ定義言語(DDL)、データ操作言語(DML)、データ制御言語(DCL)の3つで構成されており、プログラム上でSQL文を生成して、RDBMSに命令を出し、RDBに必要なデータを格納できます。また、格納したデータを引き出すことも可能です。

  • bash

    808questions

    bash(Bourne-again-Shell)は sh(Bourne Shell)のインプリメンテーションに様々な機能が追加されたシェルです。LinuxやMac OS XではBashはデフォルトで導入されています。