質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
Windows 10

Windows 10は、マイクロソフト社がリリースしたOSです。Modern UIを標準画面にした8.1から、10では再びデスクトップ主体に戻され、UIも変更されています。PCやスマホ、タブレットなど様々なデバイスに幅広く対応していることが特徴です。

Jupyter

Jupyter (旧IPython notebook)は、Notebook形式でドキュメント作成し、プログラムの記述・実行、その実行結果を記録するツールです。メモの作成や保存、共有、確認などもブラウザ上で行うことができます。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

2350閲覧

python,LDLにて使用していないinitのエラーが出現する

jon07

総合スコア1

Windows 10

Windows 10は、マイクロソフト社がリリースしたOSです。Modern UIを標準画面にした8.1から、10では再びデスクトップ主体に戻され、UIも変更されています。PCやスマホ、タブレットなど様々なデバイスに幅広く対応していることが特徴です。

Jupyter

Jupyter (旧IPython notebook)は、Notebook形式でドキュメント作成し、プログラムの記述・実行、その実行結果を記録するツールです。メモの作成や保存、共有、確認などもブラウザ上で行うことができます。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2020/10/18 13:25

前提・実現したいこと

pythonにてLDLを実装したく思い、まずはお試しにと以下のURLそのままで実装しようとしたのですが、エラーが出ました。
https://www.dskomei.com/entry/2018/04/11/001944

発生している問題・エラーメッセージ

TypeError Traceback (most recent call last) <ipython-input-2-f43e4801f1c0> in <module> 68 69 ---> 70 analyzer = Analyzer(char_filters, tokenizer, token_filters) 71 72 TypeError: __init__() takes 1 positional argument but 4 were given

該当のソースコード

python

1from pathlib import Path 2from janome.charfilter import * 3from janome.analyzer import Analyzer 4from janome.tokenizer import Tokenizer 5from janome.tokenfilter import * 6from gensim import corpora 7 8 9data_dir_path = Path('./data') 10corpus_dir_path = Path('./corpus') 11 12 13file_name = 'gakumon_no_susume.txt' 14 15with open(data_dir_path.joinpath(r"C:\Users(ユーザー名)\Desktop\aaa\bbb\gakumon_no_susume.txt"), 'r', encoding='utf-8') as file: 16 texts = file.readlines() 17texts = [text_.replace('\n', '') for text_ in texts] 18 19 20# janomeのAnalyzerを使うことで、文の分割と単語の正規化をまとめて行うことができる 21# 文に対する処理のまとめ 22char_filters = [UnicodeNormalizeCharFilter(), # UnicodeをNFKC(デフォルト)で正規化 23 RegexReplaceCharFilter('(', ''), # (を削除 24 RegexReplaceCharFilter(')', '') # )を削除 25 ] 26 27# 単語に分割 28tokenizer = Tokenizer() 29 30 31# 32# 名詞中の数(漢数字を含む)を全て0に置き換えるTokenFilterの実装 33# 34class NumericReplaceFilter(TokenFilter): 35 36 def apply(self, tokens): 37 for token in tokens: 38 parts = token.part_of_speech.split(',') 39 if (parts[0] == '名詞' and parts[1] == '数'): 40 token.surface = '0' 41 token.base_form = '0' 42 token.reading = 'ゼロ' 43 token.phonetic = 'ゼロ' 44 yield token 45 46 47# 48# ひらがな・カタガナ・英数字の一文字しか無い単語は削除 49# 50class OneCharacterReplaceFilter(TokenFilter): 51 52 def apply(self, tokens): 53 for token in tokens: 54 # 上記のルールの一文字制限で引っかかった場合、その単語を無視 55 if re.match('^[あ-んア-ンa-zA-Z0-9ー]$', token.surface): 56 continue 57 58 yield token 59 60 61# 単語に対する処理のまとめ 62token_filters = [NumericReplaceFilter(), # 名詞中の漢数字を含む数字を0に置換 63 CompoundNounFilter(), # 名詞が連続する場合は複合名詞にする 64 POSKeepFilter(['名詞', '動詞', '形容詞', '副詞']),# 名詞・動詞・形容詞・副詞のみを取得する 65 LowerCaseFilter(), # 英字は小文字にする 66 OneCharacterReplaceFilter() # 一文字しか無いひらがなとカタガナと英数字は削除 67 ] 68 69 70analyzer = Analyzer(char_filters, tokenizer, token_filters) 71 72 73 74tokens_list = [] 75raw_texts = [] 76for text in texts: 77 # 文を分割し、単語をそれぞれ正規化する 78 text_ = [token.base_form for token in analyzer.analyze(text)] 79 if len(text_) > 0: 80 tokens_list.append([token.base_form for token in analyzer.analyze(text)]) 81 raw_texts.append(text) 82 83# 正規化された際に一文字もない文の削除後の元テキストデータ 84raw_texts = [text_+'\n' for text_ in raw_texts] 85with open(data_dir_path.joinpath(file_name.replace('.txt', '_cut.txt')), 'w', encoding='utf-8') as file: 86 file.writelines(raw_texts) 87 88# 単語リストの作成 89words = [] 90for text in tokens_list: 91 words.extend([word+'\n' for word in text if word != '']) 92with open(corpus_dir_path.joinpath(file_name.replace('.txt', '_word_list.txt')), 'w', encoding='utf-8') as file: 93 file.writelines(words)

試したこと

initについて調べました。
エラーメッセージが「引数1個なのに4個あるよ」となっており
・analyzerの引数は3つ(1個でも4個でもない)
・そもそもinitを使っていない
となり、どうしたらいいのか解らない状況です。

pipのバージョンが古いと警告が出たのでアップデート。結果は変わらず。

補足情報(FW/ツールのバージョンなど)

jupyter notebook使用。
windows10使用。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

Janomeのバージョンが0.4系ではないですか?

以下のように名前付き引数で渡してみて下さい。

diff

1-analyzer = Analyzer(char_filters, tokenizer, token_filters) 2+analyzer = Analyzer(char_filters=char_filters, tokenizer=tokenizer, token_filters=token_filters)

TypeError: init() takes 1 positional argument but 4 were given
エラーメッセージが「引数1個なのに4個あるよ」となっており

これは正確には「引数」ではなく「位置引数」です。

Pythonの関数呼び出し時に渡す引数には、そのまま引き渡す位置引数の他に名前を指定して引き渡すがあります。

元のコードでは単純に名前を付与しないで引数としていますが、
Janome 0.4系以降のAnaluzer.__init__ではname=valueのような「名前付き引数」の形式でしか受け付けなくなっています。

(なお、1個は__init__の際に暗黙的に渡るselfです)

投稿2020/10/18 14:04

attakei

総合スコア2740

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

jon07

2020/10/19 13:13

ありがとうございます!無事解決できました!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問