質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.49%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

2回答

573閲覧

AIを用いた性格分析

zwei50333456

総合スコア14

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2018/06/23 07:06

IBMのwatsonのように、文章データを入力すると性格分析ができるAiを作りたいと思っているのですが、何か良い方法はありませんか?

補足
今回はIBMのWatsonを使用することが出来ないので、自分で作ろうと思っています。
AIの内容としては夏目漱石、芥川龍之介などの日本の文豪の作品を入力データとしてそれぞれの性格を出したいです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

mkgrei

2018/06/23 07:23

ご自身の持っている知識で、役に立ちそうなものを追記してください。例えば形態素解析はできますか?
zwei50333456

2018/06/23 07:33

aidemyや本によって、文字列変換や自然言語処理はわかります。 Aidemyのblogに書いてあることなら何をしているか分かる程度の知識です。 Aidemyのblogのurl http://blog.aidemy.net/archive?page=1
coco_bauer

2018/06/23 08:54

漱石の「吾輩は猫である」と「こころ」で、同じ性格が出るとは思えない(作者は同じなのに)。 文章データで性格分析ができるという根拠理論をお持ちなのでしょうか?
guest

回答2

0

ベストアンサー

けっこう厄介なタスクです。考えるべきことはたくさんあります。

  • 文章から「性格」が分析できるという仮説が妥当かどうか、そもそもよくわからない

ある程度はできるでしょうが、そんな優秀なものでもないだろうな、というのはやる前から予想できます。意図的に悪人っぽい文章を書く、とか人間にとっては普通にできることなので・・・

  • 文章のどんなところに「性格」が出てくるのかまったく不明

とりあえずBag of Wordsとかで特徴量を作ってしまえば、いくつかの特徴(BoWのベクトルの特定の次元に対応する特徴量)は「性格」と相関を持つだろう、ということはある程度は期待できます。ただ、そうでもない特徴もたくさんあり、それは削ぎ落としておかないと困ったことになりそうです。

  • 機械学習(特に深層学習)の力には頼れない

教師ラベル付きデータを4,5桁集められれば使えますが、今回は頑張って3桁くらいでしょうから、役に立ちそうにありません。特徴抽出の方で頑張らないと、「性格」以外のものにオーバーフィットしちゃう展開が容易に想像できます。そして、どちらにせよ過学習の問題は出てくるので、単純なモデルを使った方が無難そうです。根本的に精度は上がらないタスクでしょうし。

  • そもそも「性格」をどう表現し、どうデータに対応付けるのか

表現の方はカテゴリデータにしたとしましょう。そうすると「性格ラベル」が紐付いたテキストが(少なくとも)3桁必要になります。「勝手に『この文章の書き手はこんな性格だろう』とみなして貼る」という手もありますが、ちょっと杜撰な感じがします。「アンケート調査などをする」のが正攻法だと思いますが、手間もコストもかかるので、やりたくないでしょう。方法は他にも思いつきますが、一長一短な感じなので書かないでおきます。


長々と書きましたが、打つ手としてはとにかくデータを作って、教科書通り判別分析に入れてみる、くらいしかないのかも。

追記

ワトソンはテキスト側はGloVeで埋め込み、性格側は心理学的なモデルに基づいてデータを作り、テキストから性格を予想する機械学習をしている、らしいです。

サービスを支えるサイエンス

相関0.2って・・・

投稿2018/06/23 08:31

編集2018/06/23 09:31
hayataka2049

総合スコア30933

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

zwei50333456

2018/06/24 05:06

丁寧な説明ありがとうございます。やはり、かなりの作業量が必要にはるんですね。まずはもう少し簡単に出来るところからやってみようとおもいます。
guest

0

ちょっとやりたいことと外れてしまいますが、
「文章の性格」を学習させるのなら。

http://karapaia.com/archives/52251711.html

「〜風」自動生成ですね。


夏目漱石の文章を与えて、夏目漱石の性格を推定するのは、いろいろと不定で答えを出しにくいですが、
ある文章を与えて、夏目漱石的なのか、芥川龍之介的なのかを判定するのはそこまでハードルが高くないかもしれませんよ。

投稿2018/06/24 23:15

mkgrei

総合スコア8560

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

zwei50333456

2018/06/24 23:40

この発想は無かったです。やってみようと思います。
hayataka2049

2018/06/25 01:02

著者推定で2人から絞り混むならそれぞれ文庫本1ページもあれば余裕ですね(学習データはその100倍くらい)
zwei50333456

2018/06/25 05:14

文章の類似度を測定すれば出来ますか?
hayataka2049

2018/06/25 05:30

それでもできますが(類似度をどう計算するおつもりなのかはともかくとして)、特徴ベクトルを作って分類器に入れた方が良い結果になるでしょう
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.49%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問