ハッシュデータを１度ファイルを経由して再構築するできるだけ早い方法

Question

ruby 上に {long => {long => [long,long,float]}}
というデータ形式で末端が約 30 万件のデータ構造があって
これを以下のようなコードでバイナリにしてファイルに書き出したところ
1 秒もかからずに書き込みできました

```
puts "#{Time.now.to_i - start_time}	write result start"
File.open("results.txt", mode = "wb"){|f|
  results.each{|d,tmp|
    tmp.each{|a,v|
      f.write [d,a,v[0],v[1],v[2]].pack('QQQQf')
      #puts "#{[d,a,v[0],v[1],v[2]]},"
    }
  }
}
puts "#{Time.now.to_i - start_time}	write result complete"
```


これをもう１度 ruby のハッシュに再構築しようと
```
data = {}
start_time = Time.now.to_i
puts "reading result start"

File.open("results.txt", mode = "rb"){|f|
  src = f.read 
  puts "#{Time.now.to_i - start_time}	read result complete: #{src.length}"

  i = 0
  while i < src.length 
    puts i / 36 if i % 36000 == 0
    row = src[i...(i+36)].unpack('QQQQf')
    i += 36

    data[row[0]] = {} unless data[row[0]]
    data[row[0]][row[1]] = row[4]
  end
}

puts "#{Time.now.to_i - start_time}	data cinstruct complete"
```
というコードで読もうとしたんですが
なかなかおわらないので1000件ごとにプログレスを表示したところ
1000件ごとに約 3 秒ぐらいかかってしまいます
（ペース的に30万件 1000 秒で約 20 分かかる計算)

書き込みが 1 秒もかからなかったのに
読み込みでなぜこれほど時間がかかるんでしょうか

ディスクからメモリ上(src という変数) には一瞬で読み込めていて
hash を作るループ部分で時間がかかってるようなのです
どうすれば高速に hash データを構築できるでしょうか？

コードのまずいところがあったら指摘していただけると助かります

書き込み形式自体を変更しても構わないです
ファイルサイズや書き込み時間は多少落ちてもいいので
とにかく再構築時間を最速にしたいです

---

[https://qiita.com/Ishotihadus/items/6b48e7606423b714210f](https://qiita.com/Ishotihadus/items/6b48e7606423b714210f)
このサイトにいろいろなバイナリの扱いの比較が行われていて
bin_utils がはやいとかかれてるんですが
[ funny-falcon /
bin_utils ](https://github.com/funny-falcon/bin_utils)
を読む限り連続した同じ型の配列にはできるんですが
pack('QQQQf')
でパックした(36バイトずつの)データを配列に戻す方法がわからず断念しました

---

ちなみに書き込みはその前の処理の関係で ruby でないとだめなんですが
読み込むほうが同じデータ構造を扱えるなら何でもいいので
ruby でパックしたバイナリが読めるのであれば python とか node.js とかでも大丈夫です

Accepted Answer

高速にしたいのならば[`Marshal`](https://docs.ruby-lang.org/ja/latest/class/Marshal.html)を用います。


```ruby
# 書き込み
puts "#{Time.now.to_i - start_time}	write result start"
File.open("results.txt", mode = "wb"){|f|
  Marshal.dump(results, f)
}
puts "#{Time.now.to_i - start_time}	write result complete"

# 読み込み
start_time = Time.now.to_i
puts "reading result start"

data = File.open("results.txt", mode = "rb"){|f| Marshal.load(f) }

puts "#{Time.now.to_i - start_time}	data cinstruct complete"
```

なお、他言語との受け渡しを考えるのならばMessagePackやらCBORを用いる事を考えます。(そっちの方が速いというベンチ結果も見られる)

Answer

ハッシュとは違いますが、Pythonなら下記のようになります。
```python
import numpy as np
import pandas as pd

# Q: unsigned long long (little endian, 64bit long long)
# f: IEEE754, little endian, 32bit single precision
# pack('QQQQf')
my_type = [('d', '<u8'), ('a', '<u8'), ('v', ('<u8, <u8, <f4'))]
rows = np.fromfile('results.txt', dtype=my_type)
df= pd.DataFrame(rows)

print(df)
```

試験用に次のようなスクリプトを書きました。
```ruby
File.open("results.txt", mode = "wb"){|f|
  500.times {|d|
    500.times {|a|
        f.write [d, a, 1, 2, d * 500 + a].pack('QQQQf')
    }
  }
}
```
上記のPythonスクリプトを実行すると下記のように表示されます。
```terminal
          d    a                 v
0         0    0       (1, 2, 0.0)
1         0    1       (1, 2, 1.0)
2         0    2       (1, 2, 2.0)
3         0    3       (1, 2, 3.0)
4         0    4       (1, 2, 4.0)
...     ...  ...               ...
249995  499  495  (1, 2, 249995.0)
249996  499  496  (1, 2, 249996.0)
249997  499  497  (1, 2, 249997.0)
249998  499  498  (1, 2, 249998.0)
249999  499  499  (1, 2, 249999.0)
```
例えばdが1でaが2の場合は
```python
mask = (df.d == 1) & (df.a == 2)
```
として
```python
df[mask]
```
とすれば取り出すことができます。

上記を応用すると、下記のようにHashライクにアクセスできるクラスを定義できます。実際に辞書を作っている訳ではありませんので、使用時のアクセスは遅いと思います。
```python
import numpy as np
import pandas as pd


class HashLikeObject:
    class Inner:
        def __init__(self, filename):
            _my_type = [
                ("d", "<u8"),
                ("a", "<u8"),
                ("v", "<u8, <u8, <f4"),
            ]
            self._df = pd.DataFrame(np.fromfile(filename, dtype=_my_type))

        def __getitem__(self, second_index):
            mask1 = self._df.d == self._first_index
            mask2 = self._df.a == second_index
            return self._df[mask1 & mask2].v.values[0][2]

    def __init__(self, filename):
        self._inner = self.Inner(filename)

    def __getitem__(self, first_index):
        self._inner._first_index = first_index
        return self._inner


def main():
    data = HashLikeObject("results.txt")
    print(data[1][2])


if __name__ == "__main__":
    main()

```

関連した質問