質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

1回答

1337閲覧

CSV形式で1行ずつ保存できない。(形態素解析)

kntt

総合スコア10

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

1クリップ

投稿2019/07/03 08:02

編集2019/07/03 08:04

前提・実現したいこと

複数行あるcsvファイルに対し、下記コードの処理を行った上で別ディレクトリに保存をしようとしているのですが、結果が1列にまとまって保存されてしまいます。
行毎に処理をして保存したいのですがうまくいきません。

csvファイルの中身
input
・数字、文字を含んだ文字列(数行あります。)
1行目:誕生日は1月1日です。
2行目:今日は11月11日です。

outputのイメージ
・行ごとに処理された結果が保存されている。
1行目:inputのcsvファイルの1行目の処理結果
2行目:inputのcsvファイルの2行目の処理結果

ここに質問の内容を詳しく書いてください。
(例)PHP(CakePHP)で●●なシステムを作っています。
■■な機能を実装中に以下のエラーメッセージが発生しました。

発生している問題・エラーメッセージ

1行ずつ処理して保存したつもりが、1列に処理結果がまとまってしまう。

該当のソースコード

python3.7

1from pathlib import Path 2from janome.charfilter import * 3from janome.analyzer import Analyzer 4from janome.tokenizer import Tokenizer 5from janome.tokenfilter import * 6from gensim import corpora 7import glob 8import csv 9import os 10 11#入力ディレクトリ、出力ディレクトリ 12data_dir_path = Path('./1.input') 13wordlist_dir_path=Path('./2.wordlist') 14cutlist_dir_path=Path('./3.cutlist') 15corpus_dir_path = Path('./4.output') 16 17#ファイルの読み込み 18file_name = "./ファイル名.csv" 19#ファイルを開く 20with open(data_dir_path.joinpath(file_name), 'r', encoding='cp932') as file: 21 texts = file.readlines() 22 23# janomeのAnalyzer:文の分割と単語の正規化 24# 文に対する処理のまとめ 25 char_filters = [UnicodeNormalizeCharFilter(), # UnicodeをNFKC(デフォルト)で正規化 26 RegexReplaceCharFilter('(', ''), # (を削除 27 RegexReplaceCharFilter(')', '') # )を削除 28 ] 29 30# 単語に分割 31 tokenizer = Tokenizer() 32 33# 名詞中の数(漢数字を含む)を全て0に置き換えるTokenFilterの実装 34# 35 class NumericReplaceFilter(TokenFilter): 36 def apply(self, tokens): 37 for token in tokens: 38 parts = token.part_of_speech.split(',') 39 if (parts[0] == '名詞' and parts[1] == '数'): 40 token.surface = '0' 41 token.base_form = '0' 42 token.reading = 'ゼロ' 43 token.phonetic = 'ゼロ' 44 yield token 45 46# ひらがな・カタガナ・英数字の一文字しか無い単語は削除 47 class OneCharacterReplaceFilter(TokenFilter): 48 def apply(self, tokens): 49 for token in tokens: 50 # 上記のルールの一文字制限で引っかかった場合、その単語を無視 51 if re.match('^[あ-んア-ンa-zA-Z0-9ー]$', token.surface): 52 continue 53 yield token 54 55 56# 単語に対する処理のまとめ 57 token_filters = [NumericReplaceFilter(), # 名詞中の漢数字を含む数字を0に置換 58 CompoundNounFilter(), # 名詞が連続する場合は複合名詞にする 59 POSKeepFilter(['名詞', '動詞', '形容詞', '副詞']), # 名詞・動詞・形容詞・副詞のみを取得する 60# POSKeepFilter(['名詞']), # 名詞のみを取得する 61 LowerCaseFilter(), # 英字は小文字にする 62 OneCharacterReplaceFilter() # 一文字しか無いひらがなとカタガナと英数字は削除 63 ] 64 65 analyzer = Analyzer(char_filters, tokenizer, token_filters) 66 67 tokens_list = [] 68 raw_texts = [] 69 for text in texts: 70 # 文を分割し、単語をそれぞれ正規化する 71 text_ = [token.base_form for token in analyzer.analyze(text)] 72 if len(text_) > 0: 73 tokens_list.append([token.base_form for token in analyzer.analyze(text)]) 74 raw_texts.append(text) 75 76# 正規化された際に一文字もない文の削除後の元テキストデータ 77 raw_texts = [text_+'\n' for text_ in raw_texts] 78 with open(cutlist_dir_path.joinpath(file_name.replace('.csv', '_cut.csv')), 'w', encoding='cp932',newline="") as file: 79 file.writelines(raw_texts) 80 81# 単語リストの作成 82 words = [] 83 for text in tokens_list: 84 words.extend([word+'\n' for word in text if word != '']) 85 with open(wordlist_dir_path.joinpath(file_name.replace('.csv', '_word_list.csv')), 'w', encoding='cp932',newline="") as file: 86 file.writelines(words) 87 88# 単語リストからストップワードを削除 89## ストップワードファイルからの呼び込み 90 stop_words = [] 91 path = 'stopwords_jp.txt' 92 with open(path) as f: 93 stop_words = f.readlines() 94 95## ストップワードの除外 96 changed_words = [word for word in words if word not in stop_words] 97 print('-----------------') 98 print('Delited ' + str(len(words) - len(changed_words)) + ' words' ) 99 print('-----------------') 100 101 with open(corpus_dir_path.joinpath(file_name.replace('.csv', '_word_list_exclude.csv')), 'w', encoding='cp932') as file: 102 file.writelines(changed_words)

試したこと

ここに問題に対して試したことを記載してください。

補足情報(FW/ツールのバージョンなど)

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

writelinesは改行しません。
forループとwrite()で出力しましょう。

投稿2019/08/01 13:56

meg_

総合スコア10580

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問