Ruby CSVファイル読み込み後のデータ検索に時間がかかる

前提・実現したいこと

CSVファイルの読み込み後の処理を早くしたいです。

保存してあるCSVファイル(ファイル名:kudamono.csv)

no, date, kakaku, name
1, 20190101, 300yen, ichigo,
2, 20190102, 310yen, mikan,
3, 20190102, 315yen, budou,
4, 20190102, 310yen, ringo,
5, 20190103, 308yen, suika,
・
・
50000, 20191230, 304yen, orenge

といった50000行のcsvのファイルの、
2列目のdateにある特定の日付が入っている行のみを出力したいと考えています。

*例えば、20190102のデータが欲しい時には次の３つが表示されるようにする。
2, 20190102, 310yen, mikan,
3, 20190102, 315yen, budou,
4, 20190102, 310yen, ringo,

いまのコードでは時間がかかってしまうので、何か良い方法はないでしょうか？
実際にはこれら作業を２列目の日付を変え繰り返し行うので、いまのコードだと非常に遅いです。皆様の知恵を貸して頂けますと幸いです。

発生している問題・エラーメッセージ

処理に時間がかかる

該当のソースコード

Ruby
1kakaku = CSV.read("data/kudamono.csv", headers: true)
2k = 0
350000.times{
4　if kakaku[k]["date/time"] == 　”検索したい日付を入力”
5　　puts csv[k]
6　end
7　k += 1
8}

補足情報（FW/ツールのバージョンなど）

使用しているソフトはRubyMineです。全て独学なので基礎が抜けているかもしれません。

jun68ykt

2018/07/16 16:11

前提を確認させてください。kudamono.csv のデータ行は、左から２カラム目の日付（date）の昇順で、あらかじめソートされているものと考えてよいでしょうか？ご質問に書かれている、「保存してあるCSVファイル(ファイル名:kudamono.csv)」を見る限りでは、そのように思えたのですが、念のための確認です。

otn

2018/07/16 16:33

ファイルから一度読み込んだデータに対して、検索を何度も繰り返したいということでしょうか？

退会済みユーザー

2018/07/16 23:44

jun68ykt >はい。左から２カラム目の日付（date）の昇順です。ちなみに２カラム目の日付で同じ日付が複数ある場合の次の優先順位は特にありません。 otn> ファイルを一度読み込んでも、その都度ファイルを読み込んでもかまいません。日付の検索は日付を変えて何度も(数千回)するので、その都度ファイルを読み込むより一旦読み込んだ方が早いかなと思い今の処理です。

行動規範の内容に同意します

回答2件

ベストアンサー

ファイルを一度読み込んでも、その都度ファイルを読み込んでもかまいません。日付の検索は日付を変えて何度も(数千回)するので、その都度ファイルを読み込むより一旦読み込んだ方が早いかなと思い今の処理です。

検索を速くするには、前準備が必要です。
同じデータで多数回検索を行うのであれば、前準備に割く時間は無視できるようになります。
1回あたりの検索時間＝1検索の処理に掛かる時間＋前準備時間÷検索回数

という意図で質問しました。
あとは、データがメモリに乗り切るかどうかですね。

メモリに乗り切らないのであれば、DBMSに入れる必要があります。Rubyだけで出来る簡易DBMSみたいなものもあります(DBMクラス)。
メモリに載り切る量であれば、ハッシュが簡単でしょう。

Ruby
1data = Hash.new{|h,k| h[k]=[]}
2CSV.foreach("data/kudamono.csv", headers: true) do |row|
3    data[row["date"]] << row
4end
5
6search = "20190101"
7p data[search]
8
9search = "20190102"
10p data[search]

投稿2018/07/17 00:50

otn

総合スコア84555

退会済みユーザー

2018/07/17 15:35

ありがとうございます！ご教授頂いたハッシュの方法で処理スピードが格段に速くなりました。しかしなぜハッシュにするとスピードが速くなるのでしょうか？配列だと一つ一つ検索するが、ハッシュだとキーのみ検索するからでしょうか？それだとしても、キーのみの場合と、配列一つ一つの場合のデータ個数はさほどかわりません。速くなったはいいものの、理由がわかりません。。。

katoy

2018/07/17 22:56

ハッシュテーブルの解説をよんでみてください。 https://ja.wikipedia.org/wiki/%E3%83%8F%E3%83%83%E3%82%B7%E3%83%A5%E3%83%86%E3%83%BC%E3%83%96%E3%83%AB などを参照してみてください。質問にあるコードでは、配列の要素を先頭から最後までアクセスしています。ハッシュゲーブルを使うと、配列の要素へのアクセス数が格段にすくなくなります。