pandasで読み込んだcsvの行数がおかしい

前提・実現したいこと

600MB程度のcsvファイルから特定のカラムのみ取り出して別ファイルに出力したいです。
元のcsvはバックアップ用でカラムが約200あって扱いづらいので、別の用途で使用するために別ファイルを作ろうと思っています。

発生している問題・エラーメッセージ

pandasのchunksizeを使って試してみたところ、元ファイルの行数と一致していません。
chunksizeの設定値を変えると出力される行数も微妙に変化します。
元ファイルの行数は17万行あるのに出力されるのは約6万行です。

該当のソースコード

python
1
2import pandas as pd
3
4target = 'Account_original.csv'
5
6df0 = pd.read_csv(
7    target,
8    sep='\t',
9    encoding='utf-8',
10    usecols=['Name','AccountCode__c','CorporateAddress__c','CorporationNumber__c'],
11    chunksize=1000
12    )
13
14df0.get_chunk()
15df = pd.concat((r for r in df0), ignore_index=True)
16out = 'Account.csv'
17df.to_csv(out, sep='\t', encoding='utf-8', index=False)

試したこと

当初は一度に読み込もうとしたのですが、出力後の行数がおかしかったので分割してみました。
それでも解決しなかったのでchunksizeの値を変更してみたり、出力するカラムを1つにして試してみたりしましたが結果は同じでした。
また、pandasを使わずにcsv.readerを使うと正常に出力されるますが時間がかかりすぎて困っています。

バージョン

os: Windows
python: 3.8.1
pandas: 1.1.4

meg_

2021/01/28 08:27

> 600MB程度のcsvファイルその程度であれば一度に読み込めると思いますが、何か問題があるのでしょうか？

azzuro

2021/01/28 09:16

「試したこと」に加筆しました。おっしゃる通り、もともとは一度で読み込んでみたのですが思ったような結果にならなかったという経緯があります。

meg_

2021/01/28 11:19

> 当初は一度に読み込もうとしたのですが、出力後の行数がおかしかったので分割してみました。「出力後の行数がおかしかった」とは具体的にはどういうことでしょうか？

TakaiY

2021/01/28 12:19

メモリの少ないマシンとか、他に大量のプロセスが動いていて空きメモリが少ないとかでないかぎり、一度に読み込めるはずです。数GBのcsvでも実績はあります。全部読み込んでそのままcsvに出力して差分を確認してみるのがいいのではないでしょうか。

azzuro

2021/01/29 00:33

>meg_さん行数がおかしいというほは、17万行ほどあるはずが６万行程度しか出力されないということです。

meg_

2021/01/29 01:24

> 行数がおかしいというほは、17万行ほどあるはずが６万行程度しか出力されないということです。｢もともとは一度で読み込んでみたのですが思ったような結果にならなかった｣の結果が上記ですか？そのような経験はないので不思議ですね。ところで｢元ファイルの行数は17万行ある｣というのはどのように確認されたのでしょうか？

azzuro

2021/01/29 01:29

>meg_さん今までもpandasでcsvを読み込んだことはありますが今回初めてで困っています。元ファイルの行数は単純にcsvをそのまま開いて確認しました。

meg_

2021/01/29 01:43

> 元ファイルの行数は単純にcsvをそのまま開いて確認しました。それはテキストエディタで開いて行数を確認した、という意味でしょうか？

meg_

2021/01/29 01:44

ところでOSは何でしょうか？python、pandasのバージョンは何でしょうか？

azzuro

2021/01/29 01:52

>テキストエディタで開いて行数を確認した、という意味でしょうか？サクラで確認しました。 >バージョン追記しました。

TakaiY

2021/01/29 04:23

サクラエディタで表示されている行番号で数えているのでしょうか？たしか、サクラエディタは行番号の振り方が、折り返しを考慮に入れる入れないの選択ができるようになっていたはず。そのあたり問題はありませんか？

azzuro

2021/01/29 05:13

>TakaiYさん折り返しの選択については問題ありません。アドバイスいただいた差分を取ってみたところ、出力できなかったものに特有のものがあるようには見えませんでした。 read_csvで直接pandasに読ませるのではなく、いったんcsv.readerで配列に格納してから読ませてみましたがやはり全件の出力はできませんでした。同じ現象が起きている4MBで5000件のファイルがあるのですが、こちらは上記の方法で全件出力ができることが確認できました。

meg_

2021/01/29 07:25 編集

windows10でしょうか？コマンドプロンプトで｢wc Account_original.csv｣を実行すると17万と表示されますか？ wcが使えない場合には｢FIND /v /c"" Account_original.csv｣でやってください。

azzuro

2021/01/29 07:35

> meg_さん windoes10です。 powershellを使いましたが17万と表示されました

bsdfan

2021/01/29 08:35

改行を含む値がある場合(ダブルクォートで囲まれた中に改行があるケース)は、csvとしての行数とファイルの行数が一致しないですが、そこは大丈夫ですか？

TakaiY

2021/01/29 08:54

差し支えなければ、read_csvで読んでto_csvで書き出したときのソースを提示いただけませんか？いろいろ試してみるのはいいのですが、話の基準になる処理がないと、無駄な考察をすることになってしまいます。また、そのときの入力したファイルの行数と、出力したファイルの行数がわかるような、コマンドラインのログもあるといいと思います。さらに、読み込めないのか書き出せないのか確認するために、読み込んだDataFrameそのものの行数も出力すると切り分けできると思います。

azzuro

2021/02/01 05:44

>みなさまダブルクォートのあるカラムが複数あり、read_csvのオプションにquoting=1を設定することで解決しました。どうもありがとうございました。