質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

Q&A

解決済

2回答

512閲覧

文書を数値化する方法

kenkennn

総合スコア13

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

0グッド

0クリップ

投稿2017/08/16 04:13

文書を数値化する方法を探しています。

文書をベクトル化する方法はword2vecがあると思います。

・文書がいくつか存在し、ある1つの方法でそれぞれの文書を数値化できる。
・その数値はそれぞれの文書に固有の値である。

上記2つの条件を満たすような方法は考えられると思いますか?

ちなみに数値化というのはスカラー量でということです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

mattn

2017/08/16 05:27

文書のテキストに一意のIDを付ける意味でのハッシュ化と、word2vec などは全く関係ない話かと思うのですが、何をやられたいのでしょうか?
kenkennn

2017/08/16 05:35

文書が2つあったとします。1つ目の文書と2つ目の文書に対して同じ方法を適用し、その文書の中身によってそれぞれの文書にスカラー値を定める方法を探しています。
mattn

2017/08/16 05:44

例えば文書1の内容が ABC、文書2の内容が ABD だとして、何かしらの方法を使って質問文に書かれている「量」を得たいのであれば、それは文書を解析して特定カテゴリに近いかどうかの判定を行い、レベル値として量を求める必要があります。例えば文書から幸福度を得るといった場合です。つまり何かしらのアルゴリズムを使うと文書1と文書2が近いという判断が得られなければなりません。かたやコンテンツ内容に対して一意のIDを得たいだけであればハッシュ化で良いと思います。この場合、文書1と文書2の近さを得るといった事は出来ません。
kenkennn

2017/08/16 06:03

ありがとうございます。その通りです。現在、word2vecを用いて文書をベクトル化し、その数値的に扱えるようになったものを用いて何かしらの実験をしたいと考えていました。しかし環境の設定がうまくいかず、python上でword2vecがインポートできない状況です。NNを用いて為替を分析した経験があるので、実数に落とし込む方法があれば内容を理解しやすいと考え、このような質問をいたしました。確かにword2vecの考え方(文書のベクトル化)を行わないと文章そのものの意味をもった数値化というものはできそうにないですね。ありがとうございました。
guest

回答2

0

・文書がいくつか存在し、ある1つの方法でそれぞれの文書を数値化できる。

・その数値はそれぞれの文書に固有の値である。

適切なハッシュ関数を用いれば、要求を(ほぼ)満たします。

投稿2017/08/16 04:41

can110

総合スコア38233

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kenkennn

2017/08/16 05:24

ご回答ありがとうございます。 その発想はありませんでした。 現在の問題を再考してみます。
guest

0

ベストアンサー

スカラーではないですが、doc2vecで文章のベクトル化は出来ます。

http://qiita.com/akira_/items/f9bb46cad6834da32367

投稿2017/08/16 04:36

miyamoto0105

総合スコア216

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kenkennn

2017/08/16 05:25

ご回答ありがとうございます。 doc2vec試してみたいと思います。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問