🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中!

\teratail特別グッズやAmazonギフトカード最大2,000円分が当たる!/

詳細はこちら
CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

C++

C++はC言語をもとにしてつくられた最もよく使われるマルチパラダイムプログラミング言語の1つです。オブジェクト指向、ジェネリック、命令型など広く対応しており、多目的に使用されています。

Q&A

解決済

4回答

8713閲覧

C++におけるCSVファイルの読み込みの高速化

k.s.t

総合スコア4

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

C++

C++はC言語をもとにしてつくられた最もよく使われるマルチパラダイムプログラミング言語の1つです。オブジェクト指向、ジェネリック、命令型など広く対応しており、多目的に使用されています。

0グッド

1クリップ

投稿2020/12/19 11:36

前提・実現したいこと

C++でCSV形式のファイルの読み込みを行いたいです。

ファイルの中身は下記のように各行に合計で5つの数字をカンマ区切りで並べており、全部で300万行ほどのデータが並んでいるファイルになります。イタリックテキスト
2130414,2009,1444,1914,1075
下記のようなコードで実装をしたのですが読み込みに5分ほどかかってしまうため、高速化をしたいと考えています。
アドバイスよろしくお願いします。

該当のソースコード

C++

1#include <iostream> 2#include <fstream> 3#include <sstream> 4#include <string> 5#include <istream> 6#include <vector> 7#include <unordered_map> 8#include <algorithm> 9 10using namespace std; 11 12struct C2P 13{ 14 int cx; 15 int cy; 16 int px; 17 int py; 18 19 C2P(int camera_x, int camera_y, int proj_x, int proj_y) 20 { 21 cx = camera_x; 22 cy = camera_y; 23 px = proj_x; 24 py = proj_y; 25 } 26 C2P() 27 { 28 cx = 0; 29 cy = 0; 30 px = 0; 31 py = 0; 32 33 }; 34 35}; 36 37// 38// split関数の定義 39// 40vector<string> split(string& input, char delimiter) 41{ 42 istringstream stream(input); 43 string field; 44 vector<string> result; 45 while (getline(stream, field, delimiter)) 46 { 47 result.push_back(field); 48 } 49 return result; 50} 51 52// 53// main関数 54// 55int main() 56{ 57 // 58 // データの読み込み 59 // 60 unordered_multimap<int, C2P> c2p; 61 ifstream ifs("c2pMap.csv"); 62 string line; 63 while (getline(ifs, line)) 64 { 65 vector<string> strvec = split(line, ','); 66 int key = stoi(strvec[0]); 67 int cx = stoi(strvec[1]); 68 int cy = stoi(strvec[2]); 69 int px = stoi(strvec[3]); 70 int py = stoi(strvec[4]); 71 72 73 c2p.insert(make_pair(key, C2P(cx, cy, px, py))); 74 75 76 } 77 return 0;

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答4

0

ベストアンサー

[回答ではありません]

30[文字/行]x300万[行] のテキストファイル 3million.txt をつくり、
以下のコードで「読んでvectorに詰め込むだけ」の所要時間を計ってみました。

C++

1#include <iostream> 2#include <fstream> 3#include <chrono> 4#include <string> 5#include <vector> 6 7int main() { 8 std::ifstream stream("3million.txt"); 9 if ( !stream.is_open() ) { std::cerr << "oops!"; return 0; } 10 std::chrono::system_clock::time_point start, stop; 11 std::string line; 12 std::vector<std::string> strvec; 13 start = std::chrono::system_clock::now(); 14 while ( std::getline(stream, line) ) { 15 strvec.push_back(line); 16 } 17 stop = std::chrono::system_clock::now(); 18 std::cout << std::chrono::duration_cast<std::chrono::seconds>(stop - start).count() << std::endl; 19}

結果はわずか6秒。(Win10 / VC++2019 / HDD上)

あなたの環境ではどうでしょう。
これが5分ほどかかってしまうなら、まずそれを解決するのが先決。

投稿2020/12/20 02:56

episteme

総合スコア16612

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

yumetodo

2020/12/20 04:57

確かにいくらなんでも5分はねーだろとは思ってた
HogeAnimalLover

2020/12/20 05:02

マップとベクターでは単位処理時間が異なるのでベクターが使えるならば望ましいですね。
k.s.t

2020/12/20 06:18

回答いただきありがとうございます。試してみましたがやはり数分かかってしまうので、私のPC環境が原因みたいです。根本的な原因がわかりました。ありがとうございます。
episteme

2020/12/20 07:08

while-loop 内の strvec.push_back(line); をコメントアウトしたら劇的に高速になるのなら、 メモリが足りないことが原因でしょう(おそらく)
guest

0

まず、ifstreamを使うのをやめましょう。C++のiostream系のバッファリングはあまり効率的ではありません。変わりにmemmory mapped ioを使います。Unix系ならmmap、Windowsではなんかごちゃごちゃいろいろ呼び出して実現します。

次に文字列から数値への変換にstd::from_charsを使います。iostream系のoperator >>std::stoi, std::atoi, std::scanfなどの数値変換できそうなものはすべてstd::strtol系関数を呼び出すことになっています。ところがこれはlocaleに依存するため高速とはいえません。C++17で追加されたstd::from_charsはlocaleに依存しないため高速に変換できます。しかも文字列の分割と同時並行で変換ができるので中間バッファのvectorなどを確保せずにすみます。


というわけでそういうコードを書いてみました。

コードが長いのでリンク先で読んでください。
https://wandbox.org/permlink/aBCCPI05GUPgenfn

投稿2020/12/20 01:53

編集2020/12/20 05:47
yumetodo

総合スコア5852

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

vector や string や istringstream や stoi を使うので、
効率が悪いのではありませんか?
もっとシンプルな次のコードはどうですか?

C++

1#include <iostream> 2#include <fstream> 3#include <unordered_map> 4 5using namespace std; 6 7struct C2P { int cx, cy, px, py; }; 8 9int main() 10{ 11 unordered_multimap<int, C2P> c2p; 12 c2p.reserve(3000000); 13 ifstream ifs("c2pMap.csv"); 14 int key; 15 char s; // dummy variable for the separator ',' 16 C2P c; 17 while (ifs >> key >> s >> c.cx >> s >> c.cy >> s >> c.px >> s >> c.py) 18 c2p.insert({key, c}); 19#if 0 20 for (auto& e : c2p) { 21 C2P& p = e.second; 22 cout << e.first << 23 ": (" << p.cx << "," << p.cy << ") (" << p.px << "," << p.py << ")\n"; 24 } 25#endif 26}

投稿2020/12/19 15:48

kazuma-s

総合スコア8224

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

k.s.t

2020/12/20 06:00

回答いただきありがとうございます。 こちらのコードで試してみたところかなり時間を短縮することができました。 ここまで、シンプルな書き方ができるのですね。大変勉強になります。
kazuma-s

2020/12/20 08:33

5分が何分になったのですか?
guest

0

「300万行程度」というのが既知なので、予めreserveメソッドで領域キープしておくと良いと思います。

また、コンパイル時のオプションも重要です。

投稿2020/12/19 11:56

HogeAnimalLover

総合スコア4830

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

k.s.t

2020/12/19 12:29

回答いただきありがとうございます。 c2pの領域を確保してみたのですが速度は変わりませんでした。 コンパイル時のオプションとは具体的にどのように選択すればいいのでしょうか?
HogeAnimalLover

2020/12/19 12:43

例えばg++とかならば-Oオプションです。後はデータについての事前情報がないと厳しいですね。例えば、「キー重複がありえない」というような条件はありますか?
k.s.t

2020/12/19 12:46

キーの重複はあり得ます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問