現状
前提として中国語には繁体字と簡体字が存在し、例えば日本語の「買」という漢字は簡体字では「卖」、繁体字では「賣」です。
現在、こちらを見ながら中国語の文章の形態素解析を試みています。そこで、この記事内では繁体字の辞書を使っているのですが自分が解析したいのは簡体字であるため別の辞書を調べたところ、こちらの辞書が見つかりました。しかし、これを実際にどう読み込ませるのかがわからず困ってします(テキストファイルの形とかで存在してない上、なぜか「东」という漢字が含まれたのしかないため)。
やったこと
1つ目のリンクのページ内にある繁体字の辞書というやつをクリックするとこのように「{単語} {数字} {アルファベット}」となっているのですが、jiebaという形態素解析エンジンのREADMEを見てみると「载入词典」という項目に「词语、词频(可省略)、词性(可省略)」とあるので単語のみ分かれば良さそうなのですが。。また先程の繁体字の辞書にはとんでもない量の単語が入っていますが、これをGoogle Colab上でやろうとしたらまずいですか?知見をお持ちの方、ぜひよろしくお願いします。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2021/09/03 13:27 編集
2021/09/03 13:27 編集
2021/09/03 13:26
2021/09/03 14:27