teratail header banner
teratail header banner
質問するログイン新規登録

質問編集履歴

1

追記

2021/09/03 13:20

投稿

cunwe
cunwe

スコア65

title CHANGED
File without changes
body CHANGED
@@ -3,4 +3,4 @@
3
3
  現在、[こちら](https://datumstudio.jp/blog/jieba%E3%81%A7%E4%B8%AD%E5%9B%BD%E8%AA%9E%E3%83%86%E3%82%AD%E3%82%B9%E3%83%88%E3%82%92%E5%BD%A2%E6%85%8B%E7%B4%A0%E8%A7%A3%E6%9E%90%E3%81%99%E3%82%8B/)を見ながら中国語の文章の形態素解析を試みています。そこで、この記事内では繁体字の辞書を使っているのですが自分が解析したいのは簡体字であるため別の辞書を調べたところ、[こちら](https://www.cjk.org/ja/data/chinese/nlp/chinese-lexical-database/)の辞書が見つかりました。しかし、これを実際にどう読み込ませるのかがわからず困ってします(テキストファイルの形とかで存在してない上、なぜか「东」という漢字が含まれたのしかないため)。
4
4
 
5
5
  ## やったこと
6
- 1つ目のリンクのページ内にある繁体字の辞書というやつをクリックすると[このよう](https://raw.githubusercontent.com/fxsjy/jieba/master/extra_dict/dict.txt.big)に「{単語} {数字} {アルファベット}」となっているのですが、jiebaという形態素解析エンジンの[README](https://github.com/fxsjy/jieba)を見てみると「载入词典」という項目に「词语、词频(可省略)、词性(可省略)」とあるので単語のみ分かれば良さそうなのですが。。知見をお持ちの方、ぜひよろしくお願いします。
6
+ 1つ目のリンクのページ内にある繁体字の辞書というやつをクリックすると[このよう](https://raw.githubusercontent.com/fxsjy/jieba/master/extra_dict/dict.txt.big)に「{単語} {数字} {アルファベット}」となっているのですが、jiebaという形態素解析エンジンの[README](https://github.com/fxsjy/jieba)を見てみると「载入词典」という項目に「词语、词频(可省略)、词性(可省略)」とあるので単語のみ分かれば良さそうなのですが。。また先程の繁体字の辞書にはとんでもない量の単語が入っていますが、これをGoogle Colab上でやろうとしたらまずいですか?知見をお持ちの方、ぜひよろしくお願いします。