大量のベクトルデータをCSVファイルに出力したら、途中のデータが省略されてしまう

Question

CountVectorizerで単語の出現数をカウントしたデータをCSVファイルに出力したところ、
途中のデータが省略されてしまいます。（printも同様）

全データを出力するにはどうすれば良いでしょうか？

	```python

from sklearn.feature_extraction.text import CountVectorizer
import csv

csvc_vec = CountVectorizer()
count = c_vec.fit_transform(data)
with open('count.csv', 'wt') as f:
writer = csv.writer(f)
writer.writerows(count)

以下、count.csvファイルをエディタ等で開いた表示
"  (0, 0)	29
  (0, 1)	22
    省略
  (0, 31)	6
  (0, 32)	6
  :	:
  (0, 28745)	11
  (0, 28749)	3
    省略
  (0, 28791)	1
  (0, 28793)	26"

実際のdetaは、test5.pyのサンプルにように単語がブランクで区切られた文字列の配列です。
countの型とサイズは以下の通りです。
print(type(count))：	<class 'scipy.sparse.csr.csr_matrix'>
print(count.shape)：(1, 28799)

<test5.py>
```python
from sklearn.feature_extraction.text import CountVectorizer
import csv
data =  ['Twinkle twinkle little star' 'How I wonder what you are' 'Up above the world so high' 'Like a diamond in the sky' 'Twinkle twinkle little star' 'How I wonder what you are']  
csvc_vec = CountVectorizer()
count = csvc_vec.fit_transform(data)
with open('count.csv', 'wt') as f:
      writer = csv.writer(f)
      writer.writerows(count)
print(count)	
print(type(count)) 
print(count.shape)

test5.py
(0, 1) 1
(0, 7) 1
(0, 5) 1
(0, 3) 1
(0, 4) 1
(0, 8) 1
(0, 14) 1
(0, 10) 2
(0, 0) 1
(0, 2) 1
(0, 15) 2
(0, 12) 2
(0, 13) 2
(0, 9) 2
(0, 6) 2
(0, 11) 3
<class 'scipy.sparse.csr.csr_matrix'>
(1, 16)

Accepted Answer

原因は、`print(count)`同様の出力結果を文字列としてそのまま書き込んでいるからです。

今一つやりたいことが分かりませんが、疎行列のまま、行列位置と値を`CSV`形式で出力したい場合は
[scipy.io.mmwrite](https://docs.scipy.org/doc/scipy/reference/generated/scipy.io.mmwrite.html)にて[Matrix Market](http://math.nist.gov/MatrixMarket/formats.html)形式で出力したテキストを中間ファイルとして利用すれば可能です。

参考：[Dump a sparse matrix into a file](https://stackoverflow.com/questions/6087520/dump-a-sparse-matrix-into-a-file)

```Python
from sklearn.feature_extraction.text import CountVectorizer

# Scikit learnで行う文章の特徴ベクトルの抽出
# http://nonbiri-tereka.hatenablog.com/entry/2015/06/04/070933
cv = CountVectorizer()
data = [
    'This is a pen.',
    'That is a bot.',
    'These are red document and blue document.',
]
count = cv.fit_transform(data)
print(count)

# Matrix Marketファイル(.mtx)を中間ファイルとして利用
from scipy import io
io.mmwrite( 'count', count)
with open( 'count.mtx', 'r') as t:
    lines = t.read().split('
')
    lines = lines[3:] # 不要な先頭３行を飛ばす
    print(lines)
import os
#os.remove('count.mtx') # 不要なので削除

import csv
with open('count.csv', 'wt',newline='') as f:
    writer = csv.writer(f)
    for l in lines:
        # 1 7 1
        dat = l.split()
        if len(dat) == 3:
            # 行列位置を０オリジンに
            dat[0] = int(dat[0]) - 1
            dat[1] = int(dat[1]) - 1
            writer.writerow(dat)
```

出力結果 : count.csv
```
0,6,1
0,5,1
0,10,1
1,3,1
1,8,1
1,5,1
2,2,1
2,0,1
2,4,2
2,7,1
2,1,1
2,9,1
```

あるいは自力で出力することもできます。
```Python
# 略

def to_lines(m):
    lines = []
    ip = m.indptr
    for x in range(len(ip)-1):
        s,e = ip[x], ip[x+1]
        if s != e:
            for y, v in zip( m.indices[s:e], m.data[s:e]):
                lines.append((x,y,v))
    return lines

lines = to_lines(count)
lines.sort() # 分かりやすいように

with open('ret.csv', 'w') as f:
    for l in lines:
        f.write(f'{l[0]},{l[1]},{l[2]}
')
```

関連した質問