文書を数値化する方法を探しています。
文書をベクトル化する方法はword2vecがあると思います。
・文書がいくつか存在し、ある1つの方法でそれぞれの文書を数値化できる。
・その数値はそれぞれの文書に固有の値である。
上記2つの条件を満たすような方法は考えられると思いますか?
ちなみに数値化というのはスカラー量でということです。
文書のテキストに一意のIDを付ける意味でのハッシュ化と、word2vec などは全く関係ない話かと思うのですが、何をやられたいのでしょうか?
文書が2つあったとします。1つ目の文書と2つ目の文書に対して同じ方法を適用し、その文書の中身によってそれぞれの文書にスカラー値を定める方法を探しています。
例えば文書1の内容が ABC、文書2の内容が ABD だとして、何かしらの方法を使って質問文に書かれている「量」を得たいのであれば、それは文書を解析して特定カテゴリに近いかどうかの判定を行い、レベル値として量を求める必要があります。例えば文書から幸福度を得るといった場合です。つまり何かしらのアルゴリズムを使うと文書1と文書2が近いという判断が得られなければなりません。かたやコンテンツ内容に対して一意のIDを得たいだけであればハッシュ化で良いと思います。この場合、文書1と文書2の近さを得るといった事は出来ません。
ありがとうございます。その通りです。現在、word2vecを用いて文書をベクトル化し、その数値的に扱えるようになったものを用いて何かしらの実験をしたいと考えていました。しかし環境の設定がうまくいかず、python上でword2vecがインポートできない状況です。NNを用いて為替を分析した経験があるので、実数に落とし込む方法があれば内容を理解しやすいと考え、このような質問をいたしました。確かにword2vecの考え方(文書のベクトル化)を行わないと文章そのものの意味をもった数値化というものはできそうにないですね。ありがとうございました。
回答2件
あなたの回答
tips
プレビュー