トップに関する質問大量のベクトルデータをCSVファイルに出力したら、途中のデータが省略されてしまう

編集履歴

質問編集履歴

誤記修正

2017/09/02 05:26

投稿

okuya

スコア19

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -45,7 +45,7 @@
 print(type(count))
 print(count.shape)
 ```
->115.test5.py
+>test5.py
   (0, 1)        1
   (0, 7)        1
   (0, 5)        1

質問に情報を追加

2017/09/02 05:26

投稿

okuya

スコア19

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -16,52 +16,51 @@
 以下、count.csvファイルをエディタ等で開いた表示
 "  (0, 0)	29
   (0, 1)	22
-  (0, 2)	2
+    省略
-  (0, 4)	25
-  (0, 7)	1
-  (0, 9)	5
-  (0, 10)	10
-  (0, 11)	110
-  (0, 12)	2
-  (0, 13)	6
-  (0, 14)	40
-  (0, 15)	33
-  (0, 16)	11
-  (0, 17)	8
-  (0, 20)	28
-  (0, 22)	1
-  (0, 23)	1
-  (0, 24)	10
-  (0, 25)	13
-  (0, 26)	5
-  (0, 27)	14
-  (0, 29)	40
-  (0, 30)	7
   (0, 31)	6
   (0, 32)	6
   :	:
   (0, 28745)	11
   (0, 28749)	3
-  (0, 28750)	6
+    省略
-  (0, 28751)	1
-  (0, 28753)	5
-  (0, 28757)	1
-  (0, 28759)	10
-  (0, 28760)	1
-  (0, 28764)	2
-  (0, 28766)	6
-  (0, 28767)	93
-  (0, 28768)	1
-  (0, 28770)	12
-  (0, 28771)	25
-  (0, 28774)	2
-  (0, 28775)	7
-  (0, 28779)	58
-  (0, 28780)	21
-  (0, 28782)	2
-  (0, 28784)	13
-  (0, 28785)	7
-  (0, 28787)	1
-  (0, 28790)	2
   (0, 28791)	1
-  (0, 28793)	26"
+  (0, 28793)	26"
+実際のdetaは、test5.pyのサンプルにように単語がブランクで区切られた文字列の配列です。
+countの型とサイズは以下の通りです。
+print(type(count))：	<class 'scipy.sparse.csr.csr_matrix'>
+print(count.shape)：(1, 28799)
+<test5.py>
+```python
+from sklearn.feature_extraction.text import CountVectorizer
+import csv
+data =  ['Twinkle twinkle little star' 'How I wonder what you are' 'Up above the world so high' 'Like a diamond in the sky' 'Twinkle twinkle little star' 'How I wonder what you are']
+csvc_vec = CountVectorizer()
+count = csvc_vec.fit_transform(data)
+with open('count.csv', 'wt') as f:
+      writer = csv.writer(f)
+      writer.writerows(count)
+print(count)
+print(type(count))
+print(count.shape)
+```
+>115.test5.py
+  (0, 1)        1
+  (0, 7)        1
+  (0, 5)        1
+  (0, 3)        1
+  (0, 4)        1
+  (0, 8)        1
+  (0, 14)       1
+  (0, 10)       2
+  (0, 0)        1
+  (0, 2)        1
+  (0, 15)       2
+  (0, 12)       2
+  (0, 13)       2
+  (0, 9)        2
+  (0, 6)        2
+  (0, 11)       3
+<class 'scipy.sparse.csr.csr_matrix'>
+(1, 16)

出力の説明を補足

2017/09/02 05:25

投稿

okuya

スコア19

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -13,7 +13,7 @@
     writer = csv.writer(f)
     writer.writerows(count)
 ```
-以下、count.csvファイルを開いた内容
+以下、count.csvファイルをエディタ等で開いた表示
 "  (0, 0)	29
   (0, 1)	22
   (0, 2)	2

出力結果の説明補足

2017/09/01 06:10

投稿

okuya

スコア19

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -13,7 +13,7 @@
     writer = csv.writer(f)
     writer.writerows(count)
 ```
+以下、count.csvファイルを開いた内容
 "  (0, 0)	29
   (0, 1)	22
   (0, 2)	2

サンプルコード修正

2017/09/01 06:07

投稿

okuya

スコア19

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -4,10 +4,13 @@
 全データを出力するにはどうすれば良いでしょうか？
 		```python
+from sklearn.feature_extraction.text import CountVectorizer
+import csv
-import csvc_vec = CountVectorizer()
+csvc_vec = CountVectorizer()
 count = c_vec.fit_transform(data)
 with open('count.csv', 'wt') as f:
-   writer = csv.writer(f)
+    writer = csv.writer(f)
     writer.writerows(count)
 ```

コードのインデントを修正

2017/09/01 04:37

投稿

okuya

スコア19

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -7,7 +7,7 @@
 import csvc_vec = CountVectorizer()
 count = c_vec.fit_transform(data)
 with open('count.csv', 'wt') as f:
-  writer = csv.writer(f)
+   writer = csv.writer(f)
     writer.writerows(count)
 ```

コードをMarkdown記法を適用

2017/08/31 13:41

投稿

okuya

スコア19

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -3,12 +3,13 @@
 全データを出力するにはどうすれば良いでしょうか？
+		```python
 import csvc_vec = CountVectorizer()
 count = c_vec.fit_transform(data)
 with open('count.csv', 'wt') as f:
-    writer = csv.writer(f)
+  writer = csv.writer(f)
     writer.writerows(count)
+```
 "  (0, 0)	29
   (0, 1)	22

サンプルコードを修正

2017/08/31 13:40

投稿

okuya

スコア19

title CHANGED Viewed

File without changes

body CHANGED Viewed

File without changes

サンプルコードの入力ミスを修正

2017/08/31 13:34

投稿

okuya

スコア19

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -4,10 +4,10 @@
 全データを出力するにはどうすれば良いでしょうか？
 import csvc_vec = CountVectorizer()
-transformed = c_vec.fit_transform(data)
+count = c_vec.fit_transform(data)
-with open('data.csv', 'wt') as f:
+with open('count.csv', 'wt') as f:
     writer = csv.writer(f)
-    writer.writerows(data)
+    writer.writerows(count)
 "  (0, 0)	29