質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.32%

C++におけるCSVファイルの読み込みの高速化

受付中

回答 4

投稿

  • 評価
  • クリップ 1
  • VIEW 559

k.s.t

score 2

前提・実現したいこと

C++でCSV形式のファイルの読み込みを行いたいです。

ファイルの中身は下記のように各行に合計で5つの数字をカンマ区切りで並べており、全部で300万行ほどのデータが並んでいるファイルになります。イタリックテキスト
2130414,2009,1444,1914,1075
下記のようなコードで実装をしたのですが読み込みに5分ほどかかってしまうため、高速化をしたいと考えています。
アドバイスよろしくお願いします。

該当のソースコード

#include <iostream>
#include <fstream>
#include <sstream>
#include <string>
#include <istream>
#include <vector>
#include <unordered_map>
#include <algorithm>

using namespace std;

struct C2P
{
    int cx;
    int cy;
    int px;
    int py;

    C2P(int camera_x, int camera_y, int proj_x, int proj_y)
    {
        cx = camera_x;
        cy = camera_y;
        px = proj_x;
        py = proj_y;
    }
    C2P()
    {
        cx = 0;
        cy = 0;
        px = 0;
        py = 0;

    };

};

//
//  split関数の定義
//
vector<string> split(string& input, char delimiter)
{
    istringstream stream(input);
    string field;
    vector<string> result;
    while (getline(stream, field, delimiter))
    {
        result.push_back(field);
    }
    return result;
}

//
//  main関数
//
int main()
{
    //
    //  データの読み込み
    //
    unordered_multimap<int, C2P> c2p;
    ifstream ifs("c2pMap.csv");
    string line;
    while (getline(ifs, line))
    {
        vector<string> strvec = split(line, ',');
        int key = stoi(strvec[0]);
        int cx = stoi(strvec[1]);
        int cy = stoi(strvec[2]);
        int px = stoi(strvec[3]);
        int py = stoi(strvec[4]);


        c2p.insert(make_pair(key, C2P(cx, cy, px, py)));


    }
    return 0;
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 4

+1

[回答ではありません]

30[文字/行]x300万[行] のテキストファイル 3million.txt をつくり、
以下のコードで「読んでvectorに詰め込むだけ」の所要時間を計ってみました。

#include <iostream>
#include <fstream>
#include <chrono>
#include <string>
#include <vector>

int main() {
  std::ifstream stream("3million.txt");
  if ( !stream.is_open() ) { std::cerr << "oops!"; return 0; }
  std::chrono::system_clock::time_point start, stop;
  std::string line;
  std::vector<std::string> strvec;
  start = std::chrono::system_clock::now();
  while ( std::getline(stream, line) ) {
    strvec.push_back(line);
  }
  stop = std::chrono::system_clock::now();
  std::cout << std::chrono::duration_cast<std::chrono::seconds>(stop - start).count() << std::endl;
}

結果はわずか6秒。(Win10 / VC++2019 / HDD上)

あなたの環境ではどうでしょう。
これが5分ほどかかってしまうなら、まずそれを解決するのが先決。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2020/12/20 13:57

    確かにいくらなんでも5分はねーだろとは思ってた

    キャンセル

  • 2020/12/20 14:02

    マップとベクターでは単位処理時間が異なるのでベクターが使えるならば望ましいですね。

    キャンセル

  • 2020/12/20 15:18

    回答いただきありがとうございます。試してみましたがやはり数分かかってしまうので、私のPC環境が原因みたいです。根本的な原因がわかりました。ありがとうございます。

    キャンセル

  • 2020/12/20 16:08

    while-loop 内の strvec.push_back(line); をコメントアウトしたら劇的に高速になるのなら、
    メモリが足りないことが原因でしょう(おそらく)

    キャンセル

0

「300万行程度」というのが既知なので、予めreserveメソッドで領域キープしておくと良いと思います。

また、コンパイル時のオプションも重要です。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2020/12/19 21:29

    回答いただきありがとうございます。
    c2pの領域を確保してみたのですが速度は変わりませんでした。
    コンパイル時のオプションとは具体的にどのように選択すればいいのでしょうか?

    キャンセル

  • 2020/12/19 21:43

    例えばg++とかならば-Oオプションです。後はデータについての事前情報がないと厳しいですね。例えば、「キー重複がありえない」というような条件はありますか?

    キャンセル

  • 2020/12/19 21:46

    キーの重複はあり得ます。

    キャンセル

0

vector や string や istringstream や stoi を使うので、
効率が悪いのではありませんか?
もっとシンプルな次のコードはどうですか?

#include <iostream>
#include <fstream>
#include <unordered_map>

using namespace std;

struct C2P { int cx, cy, px, py; };

int main()
{
    unordered_multimap<int, C2P> c2p;
    c2p.reserve(3000000);
    ifstream ifs("c2pMap.csv");
    int key;
    char s;   // dummy variable for the separator ','
    C2P c;
    while (ifs >> key >> s >> c.cx >> s >> c.cy >> s >> c.px >> s >> c.py)
        c2p.insert({key, c});
#if 0
    for (auto& e : c2p) {
        C2P& p = e.second;
        cout << e.first <<
            ": (" << p.cx << "," << p.cy << ") (" << p.px << "," << p.py << ")\n";
    }
#endif
}

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2020/12/20 15:00

    回答いただきありがとうございます。
    こちらのコードで試してみたところかなり時間を短縮することができました。
    ここまで、シンプルな書き方ができるのですね。大変勉強になります。

    キャンセル

  • 2020/12/20 17:33

    5分が何分になったのですか?

    キャンセル

0

まず、ifstreamを使うのをやめましょう。C++のiostream系のバッファリングはあまり効率的ではありません。変わりにmemmory mapped ioを使います。Unix系ならmmap、Windowsではなんかごちゃごちゃいろいろ呼び出して実現します。

次に文字列から数値への変換にstd::from_charsを使います。iostream系のoperator >>std::stoistd::atoistd::scanfなどの数値変換できそうなものはすべてstd::strtol系関数を呼び出すことになっています。ところがこれはlocaleに依存するため高速とはいえません。C++17で追加されたstd::from_charsはlocaleに依存しないため高速に変換できます。しかも文字列の分割と同時並行で変換ができるので中間バッファのvectorなどを確保せずにすみます。


というわけでそういうコードを書いてみました。

コードが長いのでリンク先で読んでください。
https://wandbox.org/permlink/aBCCPI05GUPgenfn

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.32%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る