実現したいこと
以下のCSVもしくはExcelデータを仮定します
行番号 文章
1 私は料理をする
2 私は運動をする
バイグラムを行い、以下のようなデータを出力したいと考えています。
N1 N2 POS1 POS2 行番号
料理 する 名詞-動詞 サ変接続-自立 1
私 料理 名詞-名詞 代名詞-サ変接続 1
私 運動 名詞-名詞 代名詞-サ変接続 2
運動 する 名詞-動詞 サ変接続-自立 2
上記のように出力するための
コードをご教示いただけますと大変幸いです。
試したこと
以下のCSVファイルを用意しました(ファイル名:Book1)
※ヘッダーに行番号や文章というヘッダーを追加するとエラーになるため、取り除きました。
私は料理をする
私は運動をする
Rで以下のスクリプトを実行しました
library(RMeCab)
library(dplyr)
bigram<-docDF("/ファイルの場所/Book1.csv", type=1, nDF=1, N=2, pos=c("名詞", "形容詞", "動詞"))
結果は以下になりました。
bigram
N1 N2 POS1 POS2 Book1.csv
1 料理 する 名詞-動詞 サ変接続-自立 1
2 私 料理 名詞-名詞 代名詞-サ変接続 1
3 私 運動 名詞-名詞 代名詞-サ変接続 1
4 運動 する 名詞-動詞 サ変接続-自立 1
上記の場合ですと、行番号ではなく、出現頻度が出てきてしまいます。
バイグラムの結果と、元データの行番号をリンクさせる方法をご教示いただけますと大変幸いでございます。
他のライブラリでの方法でも問題ございませんので、
ご教示いただけますと幸いです。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2023/12/26 08:57
2023/12/26 09:09