python janomeの簡略辞書使用時のエラーについて

Question

表題の件で質問させてくださいテキストデータを読み込んで形態素解析をしたのですが 01st 02st 03st というような言葉があった場合 01 st 02 st 03 st のように数字と英語で区切られてしまいますそこで簡略辞書を用いて「01st」という言葉として認識させようとしています以下が作成した簡略辞書です「100.csv」 ![簡略辞書](b0b918153bdf1619b6eaff59fffe4dbd.png) ![イメージ説明](7356a1248c76412881530b094e40efad.png) この辞書を読み込ませると ``` #作成した辞書使う場合 --------------------------------------------------------------------------- ValueError Traceback (most recent call last) in () 53 #t = Tokenizer() 54 #作成した辞書使う場合 ---> 55 t = Tokenizer(r'C:\Users\Desktop\100.csv', udic_type='simpledic', udic_enc="utf8") 56 57 ret = [] ~\AppData\Local\Continuum\anaconda3\lib\site-packages\janome okenizer.py in __init__(self, udic, udic_enc, udic_type, max_unknown_length, wakati, mmap) 166 if udic.endswith('.csv'): 167 # build user dictionary from CSV --> 168 self.user_dic = UserDictionary(udic, udic_enc, udic_type, connections) 169 elif os.path.isdir(udic): 170 # load compiled user dictionary ~\AppData\Local\Continuum\anaconda3\lib\site-packages\janome\dic.py in __init__(self, user_dict, enc, type, connections) 372 """ 373 build_method = getattr(self, 'build' + type) --> 374 compiledFST, entries = build_method(user_dict, enc) 375 Dictionary.__init__(self, [compiledFST], entries, connections) 376 ~\AppData\Local\Continuum\anaconda3\lib\site-packages\janome\dic.py in buildsimpledic(self, user_dict, enc) 402 for line in f: 403 line = line.rstrip() --> 404 surface, pos_major, reading = line.split(',') 405 part_of_speech = ','.join([pos_major, u'*', u'*', u'*']) 406 morph_id = len(surfaces) ValueError: not enough values to unpack (expected 3, got 1) ``` というエラーが発生しどこが原因か分からず悩んでいます以下コードです ```python import pandas as pd from janome.tokenizer import Tokenizer from janome.analyzer import Analyzer from janome.tokenfilter import POSStopFilter from collections import Counter from gensim.models import word2vec import logging import nltk import re from nltk.collocations import * #from IPython.core.debugger import Pdb; Pdb().set_trace() #データフレーム作成-------------------------------------------------------------------------------- #ファイル指定 input_file_name = (r'C:\Users\Desktop\Book11.xlsm') #ファイル読み込み input_book = pd.ExcelFile(input_file_name) #シート名取得(sheet_namesメソッドでExcelブック内の各シートの名前をリスト型で取得) input_sheet_name = input_book.sheet_names #シート総数取得 num_sheet = len(input_sheet_name) #シート総数表示 print('シートの数：', num_sheet) #シート名表示 print('シートの名前：',input_sheet_name) #type確認 print('type :',type(input_book)) #DataFrameとして2枚目(標準トラブルシート)のsheetを読み込み #skiprows = 5 : 先頭5行読み飛ばす #skip_footer = 1 : 最後1行読み飛ばす #usecols = 'Z,AD:AF' : Z列、AD,AE,AF列を読み込む #names = range(0,4) : 列名に0～4を付与 input_sheet_df = input_book.parse(input_sheet_name[1], skiprows = 5, skip_footer = 1, usecols = 'Z,AD:AF', names = range(0,4)) #列名変更 input_sheet_df = input_sheet_df.rename(columns={0:'異常発生個所',1:'異常名称',2:'現象',3:'原因'}) print('type :',type(input_sheet_df)) #形態素解析--------------------------------------------------------------------------------------- # Tokenizerのインスタンス生成 #t = Tokenizer() #作成した辞書使う場合 t = Tokenizer(r'C:\Users\Desktop\100.csv', udic_type='simpledic', udic_enc="utf8") ret = [] docking = input_sheet_df.values.tolist() #print(type(docking)) for wordlist in docking: #print(wordlist) tokens = t.tokenize(str(wordlist)) for token in tokens: if token.part_of_speech.split(',')[0] in ['名詞']: if not token.part_of_speech.split(',')[1] in ['サ変接続']: ret.append(token.base_form) print(ret) ``` また、簡略辞書を使う為にはjanomeのバージョンが0.2.7以上である必要があるのですが0.3.6を使用しているので問題ないかと思います初歩的な内容かと思いますがアドバイス宜しくお願い致します

Accepted Answer

ファイルの最後に何も書いてない行がありませんか?

```Plain
：
：
19st,カスタム名詞,ジュウキュウステーション⏎
20st,カスタム名詞,ニジュウイチステーション⏎
⏎
⏎
```
みたいな。

関連した質問