前提・実現したいこと
参考サイトを読みながら、RMecabで形態素解析をしてワードクラウドを作成しようとしています。
データはツイッターから取得済みです。
発生している問題・エラーメッセージ
参考サイトの「実行結果を確認」にも明記されているのですが、「それ」や「これ」などの代名詞や「ー」などをストップワードとして削除した方がよいと感じています。
ストップワードに関する参考記事1とストップワードに関する参考記事2 SlothLib という日本語のストップワードリストがあることがわかったのですが、すべてPythonで書かれており、Rにどのように適用したらいいかわからない状態です。
しかし、参考にしているRで書かれたコードでは説明がなく、「R wordcloud ストップワード」で検索してみても今回のコードで適用可能で理解できる方法が見つからず困っています。
アドバイス等いただきたいです。
該当のソースコード
R
1library(tm) 2library(RMeCab) 3library(dplyr) 4library(purrr) 5library(stringr) 6library(wordcloud) 7library(RMeCab) 8docDF_mehara = docDF("sample.txt", type = 1) 9# 名詞情報かつ非自立でないものを抽出 10docDF_mehara2 = docDF_mehara %>% filter(POS1 %in% c("名詞"), POS2 != "非自立") 11wordcloud(docDF_mehara2$TERM,docDF_mehara2$sample.txt, min.freq= 3, scale=c(6,1), family ="Hiragino Mincho Pro W6", colors = brewer.pal(8,"Dark2"))
追記
wordcloud作成に用いている単語データの中身は以下のようになっています。
docDF_mehara2 TERM POS1 POS2 y_texts_all_honya_200.txt TERM POS1 POS2 sample.txt 1 " 名詞 サ変接続 6 2 1 名詞 数 1 3 x 名詞 一般 1 4 ¥ 名詞 サ変接続 2 5 ° 名詞 サ変接続 1 6 °) 名詞 サ変接続 1
補足情報(FW/ツールのバージョンなど)
R 3.5.0
あなたの回答
tips
プレビュー