質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
R

R言語は、「S言語」をオープンソースとして実装なおした、統計解析向けのプログラミング言語です。 計算がとても速くグラフィックも充実しているため、数値計算に向いています。 文法的には、統計解析部分はS言語を参考にしており、データ処理部分はSchemeの影響を受けています。 世界中の専門家が開発に関わり、日々新しい手法やアルゴリズムが追加されています。

Mecab

Mecabは、オープンソースの形態素解析エンジンです。 言語、辞書、コーパスに依存しない汎用的な設計を基本方針としています。 Mecabの由来は、開発者の好物である和布蕪(めかぶ)から名づけられました。

Q&A

解決済

1回答

5276閲覧

Mecabのエラーについて

kozz

総合スコア7

R

R言語は、「S言語」をオープンソースとして実装なおした、統計解析向けのプログラミング言語です。 計算がとても速くグラフィックも充実しているため、数値計算に向いています。 文法的には、統計解析部分はS言語を参考にしており、データ処理部分はSchemeの影響を受けています。 世界中の専門家が開発に関わり、日々新しい手法やアルゴリズムが追加されています。

Mecab

Mecabは、オープンソースの形態素解析エンジンです。 言語、辞書、コーパスに依存しない汎用的な設計を基本方針としています。 Mecabの由来は、開発者の好物である和布蕪(めかぶ)から名づけられました。

0グッド

0クリップ

投稿2017/08/08 20:58

###前提・実現したいこと
ウェブニュース記事のテキスト情報を集めて形態素解析を行っています。
###発生している問題・エラーメッセージ
しかしながら、あるテキストファイル(66万字)を読み込ませた後、docDFで解析すると、エラーが出てしまいます。

docDF(uni, column = 1, type = 1, pos = c("名詞")) でエラー: SET_STRING_ELT() can only be applied to a 'character vector', not a 'integer'

###該当のソースコード

R言語

1library(RMeCab) 2uni <- scan("hogehoge.txt",what = character(), sep = "\n", blank.lines.skip = F) 3uni <- data.frame(uni) 4d <- docDF(uni, column=1, type=1, pos= c("名詞"))

または、
NgramDF("hogehoge.txt",type=1)```
を実施しても、同様(SET_STRING_ELT() can only be applied to a 'character vector', not a 'integer')のエラーがでます。

###試したこと
文字列の問題かと思い、エラーの起こる箇所を絞っていきましたが、何が問題なのか等わかりませんでした。type=0としたり、RMeCabFreq()を利用すると通ります。

###補足情報(言語/FW/ツール等のバージョンなど)
より詳細な情報
バージョン情報
mecab of 0.996
R studio 1.0.143
辞書はmecab-ipadic-neologdを利用しています

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

以前同じエラーに遭遇し、パッケージ作者の石田先生にメールをお送りしたことがあります。その際にいただいた回答では、RMeCabでは「Mac OS」や「AIR DO」のような、neologd辞書で1つの単語として切り出されるような、スペースを含む語のことを想定しておらず、エラーになるということでした。

なので、前処理の段階でneologd辞書が形態素として切り出しそうなスペースを含む語をあらかじめアンダースコアなどに置換しておくとよいのではないでしょうか。66万行もあると大変そうですが。

投稿2017/08/22 06:43

退会済みユーザー

退会済みユーザー

総合スコア0

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kozz

2017/08/22 08:34

素晴らしいご回答、ありがとうございました。大変参考になりました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問