質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.52%

  • Ruby

    7653questions

    Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

  • CSV

    635questions

    CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Ruby CSVファイル読み込み後のデータ検索に時間がかかる

解決済

回答 2

投稿

  • 評価
  • クリップ 0
  • VIEW 216
退会済みユーザー

退会済みユーザー

 前提・実現したいこと

CSVファイルの読み込み後の処理を早くしたいです。

保存してあるCSVファイル(ファイル名:kudamono.csv)

no, date, kakaku, name
1, 20190101, 300yen, ichigo,
2, 20190102, 310yen, mikan, 
3, 20190102, 315yen, budou,
4, 20190102, 310yen, ringo,
5, 20190103, 308yen, suika,


50000, 20191230, 304yen, orenge

といった50000行のcsvのファイルの、
2列目のdateにある特定の日付が入っている行のみを出力したいと考えています。

*例えば、20190102のデータが欲しい時には次の3つが表示されるようにする。
2, 20190102, 310yen, mikan, 
3, 20190102, 315yen, budou,
4, 20190102, 310yen, ringo,

いまのコードでは時間がかかってしまうので、何か良い方法はないでしょうか?
実際にはこれら作業を2列目の日付を変え繰り返し行うので、いまのコードだと非常に遅いです。皆様の知恵を貸して頂けますと幸いです。

 発生している問題・エラーメッセージ

処理に時間がかかる

 該当のソースコード

kakaku = CSV.read("data/kudamono.csv", headers: true)
k = 0
50000.times{
 if kakaku[k]["date/time"] ==  ”検索したい日付を入力”
  puts csv[k]
 end
 k += 1
}

 補足情報(FW/ツールのバージョンなど)

使用しているソフトはRubyMineです。全て独学なので基礎が抜けているかもしれません。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • jun68ykt

    2018/07/17 01:11

    前提を確認させてください。kudamono.csv のデータ行は、左から2カラム目の日付(date)の昇順で、あらかじめソートされているものと考えてよいでしょうか?ご質問に書かれている、「保存してあるCSVファイル(ファイル名:kudamono.csv)」を見る限りでは、そのように思えたのですが、念のための確認です。

    キャンセル

  • otn

    2018/07/17 01:33

    ファイルから一度読み込んだデータに対して、検索を何度も繰り返したいということでしょうか?

    キャンセル

  • 退会済みユーザー

    退会済みユーザー

    2018/07/17 08:44

    jun68ykt >はい。左から2カラム目の日付(date)の昇順です。ちなみに2カラム目の日付で同じ日付が複数ある場合の次の優先順位は特にありません。 otn> ファイルを一度読み込んでも、その都度ファイルを読み込んでもかまいません。 日付の検索は日付を変えて何度も(数千回)するので、その都度ファイルを読み込むより一旦読み込んだ方が早いかなと思い今の処理です。

    キャンセル

回答 2

checkベストアンサー

+1

ファイルを一度読み込んでも、その都度ファイルを読み込んでもかまいません。 日付の検索は日付を変えて何度も(数千回)するので、その都度ファイルを読み込むより一旦読み込んだ方が早いかなと思い今の処理です。 

検索を速くするには、前準備が必要です。
同じデータで多数回検索を行うのであれば、前準備に割く時間は無視できるようになります。
1回あたりの検索時間=1検索の処理に掛かる時間+前準備時間÷検索回数

という意図で質問しました。
あとは、データがメモリに乗り切るかどうかですね。

メモリに乗り切らないのであれば、DBMSに入れる必要があります。Rubyだけで出来る簡易DBMSみたいなものもあります(DBMクラス)。
メモリに載り切る量であれば、ハッシュが簡単でしょう。

data = Hash.new{|h,k| h[k]=[]}
CSV.foreach("data/kudamono.csv", headers: true) do |row|
    data[row["date"]] << row
end

search = "20190101"
p data[search]

search = "20190102"
p data[search]

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/07/18 00:35

    ありがとうございます!ご教授頂いたハッシュの方法で処理スピードが格段に速くなりました。
    しかしなぜハッシュにするとスピードが速くなるのでしょうか?
    配列だと一つ一つ検索するが、ハッシュだとキーのみ検索するからでしょうか?
    それだとしても、キーのみの場合と、配列一つ一つの場合のデータ個数はさほどかわりません。
    速くなったはいいものの、理由がわかりません。。。

    キャンセル

  • 2018/07/18 07:56

    ハッシュテーブルの解説をよんでみてください。
    https://ja.wikipedia.org/wiki/%E3%83%8F%E3%83%83%E3%82%B7%E3%83%A5%E3%83%86%E3%83%BC%E3%83%96%E3%83%AB
    などを参照してみてください。

    質問にあるコードでは、配列の要素を先頭から最後までアクセスしています。
    ハッシュゲーブルを使うと、配列の要素へのアクセス数が格段にすくなくなります。

    キャンセル

  • 2018/07/18 09:04

    group_byでいいような気がします

    キャンセル

  • 2018/07/18 18:09

    > group_byでいいような気がします

    そうですね。
    data = CSV.read("data/kudamono.csv", headers: true).group_by{|x| x["date"]}
    どうも富豪的プログラミングならぬ、貧乏人プログラミングが染みついています。

    キャンセル

  • 2018/07/21 13:18

    参考になりました。ありがとうございます!

    キャンセル

+1

いくつかのアイデアがあります。

1. {日付け => [行データの配列]}のような hash をつくる。

2. csv の内容を DB に登録する。日付けに index を張る。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/07/17 08:40

    1. {日付け => [行データの配列]}のような hash をつくる。
    これを作り具体的にどのようにすると検索が早くなるのでしょうか?
    ちなみに実際に日付が重なっているデータは多くても5つ程で、平均は1〜2かと思うので、ハッシュの数は40000個程出来ると思います。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.52%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

  • 解決済

    rubyのクラスについて

    いつもお世話になっています 今回は、rubyのライブラリの[tk]を使ってファイルダイアログを作成し、CSVファイルを読みたいこませ、表示したいと思っています。 実際プ

  • 解決済

    csvから数値を読み取って計算結果をcsvに出力する方法

    name,score1,socore2 A,40,69 B,19,18 C,20,12 D,70,41 E,77,78,77.5 このcsvファイルからscore1とscore2

  • 解決済

    RubyでCSVを読み込みつつ書き込む方法

    RubyでCSVを読み込みつつ書き込む方法が分かりません。 前提・実現したいこと Rubyで下記のようなCSVを読み込みつつ書き込もうとしています。 a,1 b,2

  • 解決済

    csvへの出力

    実現したいこと 下記のような内容のcsvファイルを出力させたいと思っています。 "name","score1","socore2","average" "A","40","

  • 解決済

    ruby JsonをCSVに変換して、行と列を入れ替えたい

    今、手元にJsonファイルがあり、そのJsonファイルをCSVに変換するコードでエラーが出て困っております。 sample.json { "A":1, "B":2, "

  • 解決済

    rubyで複数列のデータを1行に列ごとにつなげるコードを知りたいです

    rubyを用いたプログラムで、複数列のデータを1行にまとめる方法を知りたいです。 rubyというプログラムの勉強中です。 テキストファイルの出力に関してなのですが、質問させてく

  • 解決済

    rubyを用いてcsvファイルの特定列(複数)の抽出

    RUBY言語での質問です。 巨大なカンマ区切りテキストデータを処理する必要がありまして、 不要な行はRUBYのコードにより削除できたのですが、不要な列を削除するためのコード

  • 解決済

    RubyでCSVファイルを空にしたい

     前提・実現したいこと 既存CSVファイルの中身を空にしたいのですがどのようにやればよいかわかりません。  試したこと ファイルの削除⇒作成はできましたが、空にできません。

同じタグがついた質問を見る

  • Ruby

    7653questions

    Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

  • CSV

    635questions

    CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。