前提・実現したいこと
pythonにてLDLを実装したく思い、まずはお試しにと以下のURLそのままで実装しようとしたのですが、エラーが出ました。
https://www.dskomei.com/entry/2018/04/11/001944
発生している問題・エラーメッセージ
TypeError Traceback (most recent call last) <ipython-input-2-f43e4801f1c0> in <module> 68 69 ---> 70 analyzer = Analyzer(char_filters, tokenizer, token_filters) 71 72 TypeError: __init__() takes 1 positional argument but 4 were given
該当のソースコード
python
1from pathlib import Path 2from janome.charfilter import * 3from janome.analyzer import Analyzer 4from janome.tokenizer import Tokenizer 5from janome.tokenfilter import * 6from gensim import corpora 7 8 9data_dir_path = Path('./data') 10corpus_dir_path = Path('./corpus') 11 12 13file_name = 'gakumon_no_susume.txt' 14 15with open(data_dir_path.joinpath(r"C:\Users(ユーザー名)\Desktop\aaa\bbb\gakumon_no_susume.txt"), 'r', encoding='utf-8') as file: 16 texts = file.readlines() 17texts = [text_.replace('\n', '') for text_ in texts] 18 19 20# janomeのAnalyzerを使うことで、文の分割と単語の正規化をまとめて行うことができる 21# 文に対する処理のまとめ 22char_filters = [UnicodeNormalizeCharFilter(), # UnicodeをNFKC(デフォルト)で正規化 23 RegexReplaceCharFilter('(', ''), # (を削除 24 RegexReplaceCharFilter(')', '') # )を削除 25 ] 26 27# 単語に分割 28tokenizer = Tokenizer() 29 30 31# 32# 名詞中の数(漢数字を含む)を全て0に置き換えるTokenFilterの実装 33# 34class NumericReplaceFilter(TokenFilter): 35 36 def apply(self, tokens): 37 for token in tokens: 38 parts = token.part_of_speech.split(',') 39 if (parts[0] == '名詞' and parts[1] == '数'): 40 token.surface = '0' 41 token.base_form = '0' 42 token.reading = 'ゼロ' 43 token.phonetic = 'ゼロ' 44 yield token 45 46 47# 48# ひらがな・カタガナ・英数字の一文字しか無い単語は削除 49# 50class OneCharacterReplaceFilter(TokenFilter): 51 52 def apply(self, tokens): 53 for token in tokens: 54 # 上記のルールの一文字制限で引っかかった場合、その単語を無視 55 if re.match('^[あ-んア-ンa-zA-Z0-9ー]$', token.surface): 56 continue 57 58 yield token 59 60 61# 単語に対する処理のまとめ 62token_filters = [NumericReplaceFilter(), # 名詞中の漢数字を含む数字を0に置換 63 CompoundNounFilter(), # 名詞が連続する場合は複合名詞にする 64 POSKeepFilter(['名詞', '動詞', '形容詞', '副詞']),# 名詞・動詞・形容詞・副詞のみを取得する 65 LowerCaseFilter(), # 英字は小文字にする 66 OneCharacterReplaceFilter() # 一文字しか無いひらがなとカタガナと英数字は削除 67 ] 68 69 70analyzer = Analyzer(char_filters, tokenizer, token_filters) 71 72 73 74tokens_list = [] 75raw_texts = [] 76for text in texts: 77 # 文を分割し、単語をそれぞれ正規化する 78 text_ = [token.base_form for token in analyzer.analyze(text)] 79 if len(text_) > 0: 80 tokens_list.append([token.base_form for token in analyzer.analyze(text)]) 81 raw_texts.append(text) 82 83# 正規化された際に一文字もない文の削除後の元テキストデータ 84raw_texts = [text_+'\n' for text_ in raw_texts] 85with open(data_dir_path.joinpath(file_name.replace('.txt', '_cut.txt')), 'w', encoding='utf-8') as file: 86 file.writelines(raw_texts) 87 88# 単語リストの作成 89words = [] 90for text in tokens_list: 91 words.extend([word+'\n' for word in text if word != '']) 92with open(corpus_dir_path.joinpath(file_name.replace('.txt', '_word_list.txt')), 'w', encoding='utf-8') as file: 93 file.writelines(words)
試したこと
initについて調べました。
エラーメッセージが「引数1個なのに4個あるよ」となっており
・analyzerの引数は3つ(1個でも4個でもない)
・そもそもinitを使っていない
となり、どうしたらいいのか解らない状況です。
pipのバージョンが古いと警告が出たのでアップデート。結果は変わらず。
補足情報(FW/ツールのバージョンなど)
jupyter notebook使用。
windows10使用。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2020/10/19 13:13