質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.49%

  • PostgreSQL

    1062questions

    PostgreSQLはオープンソースのオブジェクトリレーショナルデータベース管理システムです。 Oracle Databaseで使われるPL/SQLを参考に実装されたビルトイン言語で、Windows、 Mac、Linux、UNIX、MSなどいくつものプラットフォームに対応しています。

  • データベース

    702questions

    データベースとは、データの集合体を指します。また、そのデータの集合体の共用を可能にするシステムの意味を含めます

大量データ 挿入 削除 の繰り返しについて

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 1,129

riddle

score 3

前提・実現したいこと

大量データを扱う場合においての正常なDB動作を実現したいと考えております。

発生している問題・エラーメッセージ

2万件のPDFデータを今回はOIDにしてDBに取り込みたく考えていますが、下記のルーチンで困ったことがおきています。

1.PDFをOID化してDBに取り込む
2.取り込み終了

//20170211 20:35 更新
3.drop table test   --コマンドよりテーブルを削除

//20170211 20:35 更新
4.create table test     --テーブルとカラム等を生成

運用前に色々テストしたく、取り込みが完了したら一度テーブルを削除して、作成しなおして、再度取り込み、を繰り返しております。

ここで、何度か実行しているうちに、PDF(2万件)とデータ挿入後のデータ数が一致しなくなってきました。

この事象が発生したあとに、tableを作成しなおし、カウントをとったところ、0件でしたが、再度2万件のデータを取り込むと、29000件程度の挿入結果となり、データ数が一致しませんでした。

該当のソースコード

テーブル test
カラム id(int 自動連番)、name(text)、pdfobj(oid)
id・・・自動連番
name・・・ファイル名
pdfobj・・・取り込んだPDFのデータ

上記テーブル構造で

insert文でpdfをDBに格納し、
全てのデータが挿入しおわったら、drop table test で
testテーブルを削除しておりました。

//20170211 23:15 更新

/*事前に$dbhにてコネクトしております*/
$dir = "/tmp/";
if( is_dir( $dir ) && $handle = opendir( $dir ) ) {

   /*指定フォルダの中にあるファイル毎にループしています*/
   while( ($file = readdir($handle)) !== false ) {

         /*ファイルであればif内に入ります*/
         if( filetype( $path = $dir . $file ) == "file" ) {

             //ファイル名の取得 → $filenameに格納
             //取得したファイルのoid化したもの → $oidに格納

             $dbh->beginTransaction(); 
             $dbh->exec("insert into test(name, pdfobj) values ('$filename', '$oid')");

             if($dbh){//成功
                $dbh->commit();
             }else{//失敗
                $dbh->rollBack();
             }

          }

    }

}

補足1

drop table では完全にデータが削除されずゴミが裏で残っていたりするのでしょうか?
普通はdelete文でレコードを削除するものなのでしょうか。

大量データとOIDを今まで扱ったことがなく、どうしてこのような現象が起きているのか検討がつきません。

//20170211 20:35 更新
oidはpg_lo系の関数で作成しDBに格納してあります。

補足2

言語:php 5.4
DB:postgres 9.4

もしかしたら質問として、初歩的なことを伺ってることになるかもしれませんが、どうぞ宜しくお願い致します。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • ikedas

    2017/02/11 21:21

    いえいえ。あと、実行中にサーバログには何か出力されていませんか。あれば示していただけませんか。

    キャンセル

  • ikedas

    2017/02/11 21:34

    また、実行しているプログラムのソースコードも示していただいたほうがいいと思います。

    キャンセル

  • riddle

    2017/02/11 23:32

    ご丁寧にありがとうございます。ログとソースコードが社内の為情報の持ち出しができない状態です。ログは会社で確認しなければなりませんが、ソースコードを可能な範囲で思い出し書き出しました。

    キャンセル

回答 1

checkベストアンサー

0

$dir = "/tmp/";

ファイル数が29000個有るのではないでしょうか?
もしLinuxで/tmpをお使いであれば、他のファイルも混合し存在する可能性が有ります。
O/S系の処理でもつかいますので。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/02/13 19:49

    解決しました。

    原因はラージオブジェクトは単にテーブルをdropするだけでは表面上でしか消えず、裏でラージオブジェクトの領域が残るようです。

    ですので、vacuumlo等でバキューム処理したり、lo_unlink等で削除したりする必要があるみたいです。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.49%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • PostgreSQL

    1062questions

    PostgreSQLはオープンソースのオブジェクトリレーショナルデータベース管理システムです。 Oracle Databaseで使われるPL/SQLを参考に実装されたビルトイン言語で、Windows、 Mac、Linux、UNIX、MSなどいくつものプラットフォームに対応しています。

  • データベース

    702questions

    データベースとは、データの集合体を指します。また、そのデータの集合体の共用を可能にするシステムの意味を含めます