質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Windows 10

Windows 10は、マイクロソフト社がリリースしたOSです。Modern UIを標準画面にした8.1から、10では再びデスクトップ主体に戻され、UIも変更されています。PCやスマホ、タブレットなど様々なデバイスに幅広く対応していることが特徴です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Mecab

Mecabは、オープンソースの形態素解析エンジンです。 言語、辞書、コーパスに依存しない汎用的な設計を基本方針としています。 Mecabの由来は、開発者の好物である和布蕪(めかぶ)から名づけられました。

Q&A

1回答

445閲覧

mecabで未知語のファイルを操作する

LUCKEY113

総合スコア4

Windows 10

Windows 10は、マイクロソフト社がリリースしたOSです。Modern UIを標準画面にした8.1から、10では再びデスクトップ主体に戻され、UIも変更されています。PCやスマホ、タブレットなど様々なデバイスに幅広く対応していることが特徴です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Mecab

Mecabは、オープンソースの形態素解析エンジンです。 言語、辞書、コーパスに依存しない汎用的な設計を基本方針としています。 Mecabの由来は、開発者の好物である和布蕪(めかぶ)から名づけられました。

0グッド

0クリップ

投稿2023/01/28 04:05

前提

Tweepyでツイートを取得し,それをMeCabにかけたいのですが,
「-」や特定の絵文字が名詞,サ変接続として解析されてしまっています.

そこで未知語の辞書の書き換えを行おうとしましたが,
ファイル自体がうまく> 開けず辞書の書き換えができません.

実現したいこと

未知語のファイルを操作して半角記号が名詞,サ変接続になるのを解決する

発生している問題・エラーメッセージ

unk.def

1DEFAULT,5,5,4769,オュケ・ー・フ,*,*,*,*,* 2SPACE,9,9,8903,オュケ・カ・*,*,*,*,* 3KANJI,1285,1285,11426,フセサ・ー・フ,*,*,*,*,* 4KANJI,1283,1283,17290,フセサ・・オハムタワツウ,*,*,*,*,* 5KANJI,1293,1293,17611,フセサ・クヌヘュフセサ・テマー・ー・フ,*,*,* 6KANJI,1292,1292,12649,フセサ・クヌヘュフセサ・チネソ・,*,*,*,* 7KANJI,1289,1289,17340,フセサ・クヌヘュフセサ・ソヘフセ,ー・フ,*,*,* 8KANJI,1288,1288,15295,フセサ・クヌヘュフセサ・ー・フ,*,*,*,* 9SYMBOL,1283,1283,17585,フセサ・・オハムタワツウ,*,*,*,*,* 10NUMERIC,1295,1295,27386,フセサ・ソ・*,*,*,*,* 11ALPHA,1285,1285,13398,フセサ・ー・フ,*,*,*,*,* 12ALPHA,1293,1293,18706,フセサ・クヌヘュフセサ・テマー・ー・フ,*,*,* 13ALPHA,1292,1292,13835,フセサ・クヌヘュフセサ・チネソ・,*,*,*,* 14ALPHA,1289,1289,18188,フセサ・クヌヘュフセサ・ソヘフセ,ー・フ,*,*,* 15ALPHA,1288,1288,15673,フセサ・クヌヘュフセサ・ー・フ,*,*,*,* 16ALPHA,3,3,15235,エカニーサ・*,*,*,*,*,* 17HIRAGANA,1285,1285,13069,フセサ・ー・フ,*,*,*,*,* 18HIRAGANA,1283,1283,20223,フセサ・・オハムタワツウ,*,*,*,*,* 19HIRAGANA,1293,1293,17882,フセサ・クヌヘュフセサ・テマー・ー・フ,*,*,* 20HIRAGANA,1292,1292,14761,フセサ・クヌヘュフセサ・チネソ・,*,*,*,* 21HIRAGANA,1289,1289,18060,フセサ・クヌヘュフセサ・ソヘフセ,ー・フ,*,*,* 22HIRAGANA,1288,1288,14787,フセサ・クヌヘュフセサ・ー・フ,*,*,*,* 23HIRAGANA,3,3,16989,エカニーサ・*,*,*,*,*,* 24KATAKANA,1285,1285,9461,フセサ・ー・フ,*,*,*,*,* 25KATAKANA,1293,1293,13661,フセサ・クヌヘュフセサ・テマー・ー・フ,*,*,* 26KATAKANA,1292,1292,10922,フセサ・クヌヘュフセサ・チネソ・,*,*,*,* 27KATAKANA,1289,1289,13581,フセサ・クヌヘュフセサ・ソヘフセ,ー・フ,*,*,* 28KATAKANA,1288,1288,10521,フセサ・クヌヘュフセサ・ー・フ,*,*,*,* 29KATAKANA,3,3,14138,エカニーサ・*,*,*,*,*,* 30KANJINUMERIC,1295,1295,27473,フセサ・ソ・*,*,*,*,* 31GREEK,1285,1285,7884,フセサ・ー・フ,*,*,*,*,* 32GREEK,1293,1293,12681,フセサ・クヌヘュフセサ・テマー・ー・フ,*,*,* 33GREEK,1292,1292,8573,フセサ・クヌヘュフセサ・チネソ・,*,*,*,* 34GREEK,1289,1289,12697,フセサ・クヌヘュフセサ・ソヘフセ,ー・フ,*,*,* 35GREEK,1288,1288,10029,フセサ・クヌヘュフセサ・ー・フ,*,*,*,* 36CYRILLIC,1285,1285,7966,フセサ・ー・フ,*,*,*,*,* 37CYRILLIC,1293,1293,12600,フセサ・クヌヘュフセサ・テマー・ー・フ,*,*,* 38CYRILLIC,1292,1292,8492,フセサ・クヌヘュフセサ・チネソ・,*,*,*,* 39CYRILLIC,1289,1289,12615,フセサ・クヌヘュフセサ・ソヘフセ,ー・フ,*,*,* 40CYRILLIC,1288,1288,9866,フセサ・クヌヘュフセサ・ー・フ,*,*,*,* 41

試したこと

https://blanktar.jp/blog/2013/06/mecab-misunderstand-symbol

この記事ではunk.defをそのまま開けていますが,私の場合上記のように文字コード?がおかしくなっている気がします.

補足情報(FW/ツールのバージョンなど)

Windows10
mecab 0.996.3
python 3.10.8

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Bull

2023/01/28 05:12

unk.def のエンコードは EUC-JP のようです。 EUC-JP のファイルを Shift_JIS として開くと、そのように表示されますね。 当方の環境だけなのか、全ての環境でそうなるのかはわからないですが。
guest

回答1

0

ファイル自体がうまく> 開けず辞書の書き換えができません.

が問題なのであれば、正しい文字コードで開けばいいだけなので、各種文字コードでの編集に対応したエディタでそのファイルを開けば編集できるでしょう。
たとえば、VS Code で開くことができます。

投稿2023/01/28 07:45

TakaiY

総合スコア12765

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問