Python - Pickleの使い方について

Question

pickleモジュールを使うと、バイナリデータとしてデータを保存することができますが、
複数データの取り扱いについての情報が少ないので、求めています。

例えば

py3
1with open("test.pickle","wb") as f:
2        for i in range(10):
3            data = {i:"<<<data%d>>>" % i}
4            pickle.dump(data,f)

このtest.pickleファイルには以下の情報が格納されたわけですが。

pickle
1{0: '<<<data0>>>'}
2{1: '<<<data1>>>'}
3{2: '<<<data2>>>'}
4{3: '<<<data3>>>'}
5{4: '<<<data4>>>'}
6{5: '<<<data5>>>'}
7{6: '<<<data6>>>'}
8{7: '<<<data7>>>'}
9{8: '<<<data8>>>'}
10{9: '<<<data9>>>'}

こいつらをload()するには、

py3
1with open("test.pickle","wb") as f:
2        for i in range(10):
3            yield pickle.load(f)

とかなんとかやってやりゃあいいんですが、

たとえば、3番目のでーただけ欲しいぜ！って時は上から読み込まなきゃいけないのかな。
そこら辺の使い方がどうも転がっていない様子。

だれかご存知でしたら、ご教授ください。

追記

一応、以下のようにして1行ずつ読み込んでいるのかは知らないけれど、目的の行のでーたのみ取得は可能

def get():
    with open("test.pickle","rb") as f:
        while True:
            try:
                yield pickle.load(f)
            except:
                break

data = get()
    d = list(data)[3]
    print(d)

Accepted Answer

Python 標準ライブラリの [shelve](https://docs.python.jp/3/library/shelve.html) が目的にあうと思います。内部では pickle が使われます。 > “シェルフ (shelf, 棚)” は辞書に似た永続性を持つオブジェクトです。 “dbm” データベースとの違いは、シェルフの値 (キーではありません！) は実質上どんな Python オブジェクトにも — pickle モジュールが扱えるなら何でも — できるということです。これにはほとんどのクラスインスタンス、再帰的なデータ型、沢山の共有されたサブオブジェクトを含むオブジェクトが含まれます。キーは通常の文字列です。 ```Python import shelve # Write with shelve.open('test.shelve', 'c') as db: for i in range(10): db[str(i)] = {i:"<<>>" % i} # Read with shelve.open('test.shelve', 'r') as db: data9 = db['9'] print(data9) # -> {9: '<<>>'} ```

Answer

pickleでは、複数回に分けてオブジェクトを対象ファイルに書き出すということは想定されていないと思います。

pickle.dump() 1回の呼び出しで出力されるデータは、pickleのフォーマットとして完結しています。このため、複数回実行した場合、ファイル上では追記されていくので「複数のpickleデータを並べた状態」になっています。そのようなフォーマットを直接的に扱う便利な機能はpickleモジュールにはなさそうです。

（これは、同等のインターフェースをもつjsonモジュールでも同じ事が言えます）

Databaseにpickleデータを保存する、という手法は時々見掛けます。
他には、pickleをDB的まとめて扱うZODBというのがあったりします。探せばそういった便利なライブラリが他にもあるかも知れません。

Answer

シリアライズしてシーケンシャルなファイルに保存してるわけですから、少なくとも内部的には先頭から読んでいくしかないと思います。省略的な記法はあるのかもしれませんが、知りません。
ご承知の上で書いているとは思いますが、例に上がっているコードならリスト型かひとつの辞書型にした方がいいと思います。

Answer

pickle.dump するところで、複数回dumpしていますが、うまく保存されていますか？

私なら以下のように保存し、呼び出す側で取得しやすいようにします。

python
1>>> with open('test.pickle', 'wb') as f:
2...     data = []
3...     for i in range(10):
4...         data.append({i:"<<<data%d>>>" % i})
5...     pickle.dump(data,f)
6... 
7>>> with open('test.pickle', 'rb') as f:
8...     obj = pickle.load(f)
9... 
10>>> print(obj)
11[{0: '<<<data0>>>'}, {1: '<<<data1>>>'}, {2: '<<<data2>>>'}, {3: '<<<data3>>>'}, {4: '<<<data4>>>'}, {5: '<<<data5>>>'}, {6: '<<<data6>>>'}, {7: '<<<data7>>>'}, {8: '<<<data8>>>'}, {9: '<<<data9>>>'}]
12>>> obj[2]
13{2: '<<<data2>>>'}

例えば

追記

関連した質問