質問編集履歴

内容の変更

2019/06/12 05:48

投稿

退会済みユーザー

スコア0

test CHANGED Viewed

	@@ -1 +1 @@
1	- s~~topwordsを除去した後の~~ファイル~~の中身が~~1~~列にまとまって~~し~~まう。~~
1	+ 複数行のcsvファイルを処理して保存すると1行しか保存されない

test CHANGED Viewed

@@ -1,72 +1,12 @@
 ### 前提・実現したいこと
-処理の対象:ディレクトリ内の複数のcsvファイル
+複数行あるcsvに対して処理を行い、別ディレクトリに保存しようとしているのですが、なぜか1行しか保存されません。
-file1.csv
+csvの中身は、数値や記号が入った文字列です。
-file2.csv
+printでは行ごとにすべて表示されるのですが。。。
-file3.csv　・・・
-csvファイルの中身：1列目に文字列（数行あります。）
-file1.csv（例）
-       列
-1行目　明日の天気は、晴れです。
-2行目　今日はいい天気です。
-3行目　昨日はとても雨が降りました。
-対象ファイルの分かち書きを行い、ストップワードを除去する方法で、ネットの情報をもとにプログラムを組んだのですが（ほぼコピペですが）思いどおりの出力ができません。
-今作成しているプログラムだと、行ごとに分かれている文字列が１列にまとまった形で出力されてしまいます。（下のような感じです。）
-別ディレクトリに作成したfile1.csv（例）
-１列目
-明日
-天気
-晴れ
-今日
-天気
-昨日
-雨
-これを行ごとに出力できるようなプログラムを教えていただきたいです。
-理想は下記のような感じです。
-       列
-1行目　明日,天気,晴れ,
-2行目　今日,いい,天気,
-3行目　昨日,雨,降り
-長々とすみませんが、教えていただけますと嬉しいです。
+改善点を教えていただけないでしょうか。
@@ -110,144 +50,38 @@
 for filename in file_list:
- with open(filename, 'r', encoding='cp932') as file:
+ with open(filename, 'r', encoding='cp932',newline="") as file:
     texts = file.readlines()
+-------
+処理（省略）
+-------
- texts = [text_.replace('\n', '') for text_ in texts]
+    analyzer = Analyzer(char_filters, tokenizer, token_filters)
-# janomeのAnalyzer：文の分割と単語の正規化
-# 文に対する処理のまとめ
- char_filters = --省略--
-# 単語に分割
- tokenizer = Tokenizer()
-# 名詞中の数(漢数字を含む)を全て0に置き換えるTokenFilterの実装
- class NumericReplaceFilter(TokenFilter):
-    def apply(self, tokens):
-        for token in tokens:
-           --省略--
-#  ひらがな・カタカナ・英数字の一文字しか無い単語は削除
- class OneCharacterReplaceFilter(TokenFilter):
-    def apply(self, tokens):
-        for token in tokens:
-           --省略--
-# 単語に対する処理のまとめ
- token_filters = [ --省略--]
- analyzer = Analyzer(char_filters, tokenizer, token_filters)
- tokens_list = []
- raw_texts = []
- for text in texts:
+    for text in texts:
     # 文を分割し、単語をそれぞれ正規化する
-    text_ = [token.base_form for token in analyzer.analyze(text)]
+     text_ = [token.base_form for token in analyzer.analyze(text)]
-    if len(text_) > 0:
+     print(text_)
-        --省略--
+　 　#保存
+     base=os.path.split(os.path.basename(filename))[1]
-# 正規化された際に一文字もない文の削除後の元テキストデータ
+     out_path=os.path.join(corpus_dir_path,base)
- raw_texts = [text_+'\n' for text_ in raw_texts]
+     with open(out_path, 'w', encoding='cp932',newline="") as file:
- with open(filename, 'w', encoding='cp932') as file:
-    file.writelines(raw_texts)
+        file.writelines(text_)
-# 単語リストの作成
- words = []
- for text in tokens_list:
-    words.extend([word+'\n' for word in text if word != ''])
- base=os.path.split(os.path.basename(filename))[1]
- out_path=os.path.join(corpus_dir_path,base)
- with open(out_path, 'w', encoding='cp932') as file:
-    file.writelines(words)
-# 単語リストからストップワードを削除
-## ストップワードファイルからの呼び込み
- stop_words = []
- path = 'stopwords_jp.txt'
- with open(path) as f:
-    stop_words = f.readlines()
-## ストップワードの除外
- changed_words = [word for word in words if word not in stop_words]
- print('-----------------')
- print('Delited ' + str(len(words) - len(changed_words)) + ' words' )
- print('-----------------')
-## 別ディレクトリにエクセル保存
- base=os.path.split(os.path.basename(filename))[1]
- out_path=os.path.join(corpus_dir_path,base)
- with open(out_path, 'w', encoding='cp932') as file:
-    file.writelines(changed_words)
-    reader = csv.DictReader(file, delimiter=',')
-    print(reader)
 ```

誤字

2019/06/12 05:48

投稿

退会済みユーザー

スコア0

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -66,6 +66,10 @@
+長々とすみませんが、教えていただけますと嬉しいです。
 ### 該当のソースコード