前提・実現したいこと
Rでテキストデータを用いてLDAによるトピック解析を行おうとしています。
テキストデータは、自分で用意した文章のcsvファイルを想定しています。
テキストデータの中身に関しては、今回の例では
RのtwitteRでタイムラインを取得するから引用しましたが、
記事ではTwitterで収集しているtext部分をTwitterではなく自分で収集した文章にし、トピック解析を行おうとしています。
発生している問題・エラーメッセージ
現在のコードではTwitterを使用している部分をファイル読み込みにするにはどのようにコードを修正すれば良いでしょうか。
この点がわからず困っています。
該当のソースコード
現在できていることは、Twitterからデータを取得して結果をグラフに描画することです。
R
1library(twitteR) 2library(lda) 3library(RMeCab) 4 5#get tweets 6tweets <- twListToDF(searchTwitter(“夏休み”, lang="en", n=100)) 7tweets$text <- iconv(tweets$text, to ="utf-8-mac") 8tweets$text <- gsub("https://.*", "", tweets$text) 9 10#analyze tweets 11df <- docDF(tweets, 1, type=1, pos=(“名詞”)) 12doc <- list() 13for(i in c(4:ncol(df))){ 14d <- df[, i] 15doc[[ i - 3]] <- rbind(as.integer((1:length(d))[d>0]-1), as.integer(d[d>0])) 16 17} 18 19vcab <- df [,1] 20n <- 10 21result <- lda.collapsed.gibbs.sampler(doc, n, vcab, length(tweets$text), 0.1, 0.001) 22top.words <- top.topic.words(result$topics, 3, by.score = TRUE) 23 24#Analyze first 10 tweets 25N <- 10 26topic.proportions <- t(result$document_sums) / colSums(result$document_sums) 27topic.proportions <- topic.proportions[1:N, ] 28topic.proportions[is.na(topic.proportions)] <- 1/k 29 30#Make a graph 31colnames(topic.proportions) <- apply(top.words, 2, paste, collapse=" ") 32par(mar=c(1, 10, 2, 2)) 33par(family = “HiraKakuPro-W3”) 34barplot(topic.proportions, beside=TRUE, horiz=TRUE, las=1, xlab="proportion")
試したこと
csvからファイルの内容はRに読み込めています
R
1data=read.table(“sample.csv”, sep=”,”, header=TRUE)
補足情報(FW/ツールのバージョンなど)
R 3.4.0
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
退会済みユーザー
2018/07/10 05:20
2018/07/10 12:38
退会済みユーザー
2018/07/10 13:08
2018/07/10 13:14
退会済みユーザー
2018/07/10 13:35
2018/07/10 13:42
退会済みユーザー
2018/07/11 00:58
2018/07/11 03:12
退会済みユーザー
2018/07/11 05:38
2018/07/11 07:09
退会済みユーザー
2018/07/11 07:51