当方自然言語処理初心者なため、的外れなこと・足りない情報等ありましたらおっしゃってください。
日本語でBERTを使ってみようと考えており、その際にNICTと呼ばれるBERT日本語モデルを使用しようと考えています。
そこで上記サイトの「使用方法」の欄に書いてある 入力テキストは、事前に半角を全角に正規化し、MeCab-Juman辞書 [11, 12] で形態素に分割しておく
という欄があり、そこの実装の仕方に関して質問があります。
サイト内に、「具体的な使用例は実験手順をご参照ください」と書いてあったので、こちらの実験手順を参考にして実装してみたところ、以下のようになりました。
py
1doc = "鶏肉は包丁を入れて均等に開き、両面にフォークで穴を開け塩コショウする。" 2 3dicdir = subprocess.run(["mecab-config", "--dicdir"], check=True, stdout=subprocess.PIPE, text=True).stdout.rstrip() 4jumandic_dir = ([d for d in [f"{dicdir}/juman-utf8", f"{dicdir}/jumandic"] if os.path.exists(d)] + [None])[0] 5assert " " not in dicdir and jumandic_dir, "Please install mecab-jumandic" 6 7tagger_jumandic = MeCab.Tagger(f"-Owakati -d{jumandic_dir}") 8assert tagger_jumandic.dictionary_info().charset == "utf8" 9 10tagger_jumandic.parse(mojimoji.han_to_zen(doc).replace("\u3000", " ")).rstrip("\n") 11 12print(doc) 13#-> 鶏肉は包丁を入れて均等に開き、両面にフォークで穴を開け塩コショウする。
ただ、これを実行してもフォーク
→フォーク
, コショウ
→コショウ
のようにならず、また形態素に分割されていないように思えるのですが、どこが間違っているのか見当がつかず、ご存知の方がいらっしゃいましたら教えていただきたいです。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
退会済みユーザー
2020/08/26 10:04 編集
2020/08/26 10:19
退会済みユーザー
2020/08/26 11:00