質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.33%

  • Python 3.x

    7441questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

nltkで日本語を入力すると文字化けしてしまう

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 326

syen2501

score 25

<「ntlk」を用いて日本語でもn-gramを使用できるようにしたい>
pythonのnltkでn-gramを使用しようと思い、サンプルプログラムを実行しているのですが、
入力する文章が英語だとうまく実行できるのですが、日本語になると文字化けしてしまいます。

import nltk
f = open(u'context.txt',encoding = 'utf8')
raw = f.read()
tokens = nltk.word_tokenize(raw)   #テキストをトークンに分割
print(tokens)

<実行結果>
['�|�b�g��100���ȏ�ɂȂ�����A�ۉ����[�h�ɑJ�ڂ���']

<試したこと>
自分で調べたところ、文字化けしないようにするコードがあったのですが、
エラーが出力されてしまいます。

import nltk
from nltk.corpus.reader import *
from nltk.corpus.reader.util import *
from nltk.text import Text

#下記の3つのコードが、日本語コーパスを取り扱うようにする
jp_sent_tokenizer = nltk.RegexpTokenizer(u' [^「」!?。]*[!?。]')
jp_chartype_tokenizer = nltk.RegexpTokenizer(u'([ぁ-んー]+|[ァ-ンー]+|[\u4e00-\u9FFF]+|[^ぁ-んァ-ンー\u4e00-\u9FFF]+)')
text = PlaintextCorpusReader(r"C:\Users\nltk_data", r'text.txt',encoding='utf-8',
para_block_reader=read_line_block,sent_tokenizer=jp_sent_tokenizer,word_tokenizer=jp_chartype_tokenizer)

tokens = nltk.word_tokenize(text)   #テキストをトークンに分割
print(tokens)

<実行結果>
Traceback (most recent call last):
  File "C:\Users\神龍\word_separate\sample.py", line 15, in <module>
    tokens = nltk.word_tokenize(text)   #テキストをトークンに分割
  File "C:\Users\Public\Anaconda3\lib\site-packages\nltk\tokenize\__init__.py", line 130, in word_tokenize
    sentences = [text] if preserve_line else sent_tokenize(text, language)
  File "C:\Users\Public\Anaconda3\lib\site-packages\nltk\tokenize\__init__.py", line 97, in sent_tokenize
    return tokenizer.tokenize(text)
  File "C:\Users\Public\Anaconda3\lib\site-packages\nltk\tokenize\punkt.py", line 1235, in tokenize
    return list(self.sentences_from_text(text, realign_boundaries))
  File "C:\Users\Public\Anaconda3\lib\site-packages\nltk\tokenize\punkt.py", line 1283, in sentences_from_text
    return [text[s:e] for s, e in self.span_tokenize(text, realign_boundaries)]
  File "C:\Users\Public\Anaconda3\lib\site-packages\nltk\tokenize\punkt.py", line 1274, in span_tokenize
    return [(sl.start, sl.stop) for sl in slices]
  File "C:\Users\Public\Anaconda3\lib\site-packages\nltk\tokenize\punkt.py", line 1274, in <listcomp>
    return [(sl.start, sl.stop) for sl in slices]
  File "C:\Users\Public\Anaconda3\lib\site-packages\nltk\tokenize\punkt.py", line 1314, in _realign_boundaries
    for sl1, sl2 in _pair_iter(slices):
  File "C:\Users\Public\Anaconda3\lib\site-packages\nltk\tokenize\punkt.py", line 312, in _pair_iter
    prev = next(it)
  File "C:\Users\Public\Anaconda3\lib\site-packages\nltk\tokenize\punkt.py", line 1287, in _slices_from_text
    for match in self._lang_vars.period_context_re().finditer(text):
TypeError: expected string or bytes-like object
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

0

nltk.word_tokenize()というメソッドは、英文を単語に区切り、リストに入れるメソッドです。
そのため、英語であれば正常に動作しますが、日本語をそのまま入力しても上手く動きません。

単語のn-gram、下の例だと、n=2のbigramを考える場合、
下のように日本語の形態素解析した結果をリストに入れると良いと思います。
形態素解析器には、MeCabやJumanを使うと良いでしょう。

tokens = ['私','は','昨日','パン','を','食べました']
bigrams = nltk.bigrams(tokens)
fd = nltk.FreqDist(bigrams)
fd.items()
dict_items([(('私', 'は'), 1), (('は', '昨日'), 1), (('昨日', 'パン'), 1), (('パン', 'を'), 1), (('を', '食べました'), 1)])

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/06/22 01:41

    ありがとうございました。
    ちなみに、私は形態素解析ではJumanを使用しているのですが、
    形態素解析した結果はどのようにしたら取得できますか?

    キャンセル

同じタグがついた質問を見る

  • Python 3.x

    7441questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。