SNSからユーザーの好みの本を特定するという人工知能の活用例がありましたが、人工知能について質問があります。
1.SNsで人工知能を活用する場合、データとなるものは何が考えられるでしょうか?
2.ネット上やSNSなどのユーザーの情報から需要のある医学論文を特定するためにはどのような方法が考えられますか?
知っていることについて知識の片鱗だけでもご教授いただけないでしょうか?具体的な答え出なくても、予想や推測でも回答お願いいたします。
気になる質問をクリップする
クリップした質問は、後からいつでもMYページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
回答3件
0
ベストアンサー
なんというか、ものすごく漠然とした話ですが...
私は文書系の専門ではないのですが、「こんな話聞いたことあるよ」くらいで良いのなら。
また、そもそも好みの本を特定する論文や詳細な情報を読んだことがないので、
先行研究は無かったことにして話を進めたいと思います。
論文の評価
その論文の内容をBag of Wordsによる特徴量ベクトルで評価するのが一般的でしょう。
日本語の論文解析でしたら、形態素解析にはMeCabやJUMANが使えるかと思います。
英語のものでしたら、元々分かち書きされていますから、単語の抽出は非常に簡単ですね。
Bag of Wordsを用いる場合、コードブックを作成する必要があります。
このコードブックを教師なし学習させることも可能ですが...ノイズが多く含まれるかと。
少なくとも試験的な段階では、人手によってコードブックを作ったほうがいいかもしれません。
意味合いも解釈しやすくなります。
多数の論文の特徴量ベクトルをクラスタリングして、人間が納得できる分割が得られたら完璧です。
まあ、そんなに上手くいかないと思いますが...
医学論文がどういう形式なのか、門外漢ですので全く想像が付かないのですが、
もしジャンルや関連語が遍く明記してあるなら、それを利用するのが吉です。
論文全体でなく、アブストラクトだけを評価するのも良いアイデアかと思います。
需要のある情報の選別
論文に限らず、SNS上の情報のおすすめを検討する場合です。
機械学習の用途を絞った方が精度が出ると思います。
ここでは、特にTwitterに関する話をします。(Facebookを使ったことがないもので)
このような機械学習を利用するには、基本的に教師データを用意する必要があります。
良い投稿を判断しラベル付けするとき、普通はいいね数などを用いると思うのですが...
それだったら、最初からいいね数で選別すればいいじゃないか、という気もします。
機械学習のコストが高いわりにリターンが少ないです。
ただの妄想ですが、もし私が作るなら、
0. Twitterで特定のワードを含むツイートを検索 or 影響力のあるアカウントのツイート
0. 本当に有用な情報かどうか、分類器を用いて分別
0. ふるい出された有用な情報を、いいね数やリツイート数の多い順番に並べる
みたいな感じですかね...
ユーザに対応した論文のサゼッション
ここまで、論文をどう評価するか、SNS上から有益な情報をどう見つけるかをお話ししました。
あとは、ユーザの興味を分析する必要がありますね。
興味分析と言って、よく研究されている分野ですが、専門ではないのであまり詳しくないです。
仮に、論文のクラスタリングが上手くいって、Twitter上での有益情報の選別も出来て、
それぞれのジャンルをある程度対応させられているとします。
(これだけでも研究成果として充分価値がありますが...)
ユーザの興味を採点する対象としては、次のような感じですかね...
- 前もって分析済みの医学系ツイートをいいね/リツイートしている件数 or 頻度
- 関連ありそうなツイートをBoW表現したときの、内容のドメイン
これらの情報を加味して、ユーザの興味ドメインを特定できるのなら、
あとはそのドメインに属する論文を、有益そうな順にガンガン勧めればいいですね。
前もって断っておきましたが、先行研究を知りませんので...
もしEnd to Endの再帰ニューラルネットでズバッとサゼッション出来た先例があるなら、
今までの話の価値が一気に下がります。深層学習じゃないですからね。
ただ、学習のコストが少ない/人間が判断に介在できるという意味では、
このような泥臭い手法にも価値があるのかな、と思います。
あとは興味分析のState-of-the-artな論文読んでください。
投稿2017/07/03 17:08
総合スコア35660
0
1. 知りたい事項に関係するデータであれば、何でも使うべきです。
人工知能(Deep learningなど)に期待されているのは、人間の常識的な判断では見いだせないような関係や傾向を出すことです。
その元になるデータを、人間が前もって選別することが出来る訳がありません。
選別できないので、大量のデータ(big data)を処理することになるのです。
2.については、論文の「需要」とは何を意味しているのかが判らないので回答できません。
== 追記 ==
ほとんどの論文は学会や出版社が著作権を持っていて、無料で全文を読むことができる論文はオープンアクセスジャーナルに掲載されている論文や、PubMedや大学などの機関リポジトリで公開されているものに限られます。
医学系論文はPubMedが最も充実しているので、PubMedへのリンク("https://www.ncbi.nlm.nih.gov/pubmed"で始まるURL)に注目するのが良いと思います。
また、論文の情報(題名・著者・アブストラクト(更に論文全文へのリンクを含むものもある))はDOI(Digital Object Identifier)というコードで管理されていて、DOIによるリンク ("http://doi.org/"もしくは"http://dx.doi.org/"で始まるURL)にも注目すべきかと思います。
投稿2017/07/04 07:30
編集2017/07/05 01:05総合スコア6915
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
0
単純に協調フィルタリングではダメですか?
DeepLearningにご興味がおありのようですから、Deep Collaborative Filtering などもありますよ。
でも、私がいま設計するなら、もっと違う方法を取るような気もしますね。
投稿2017/07/03 17:43
編集2017/07/03 18:05総合スコア1150
あなたの回答
tips
太字
斜体
打ち消し線
見出し
引用テキストの挿入
コードの挿入
リンクの挿入
リストの挿入
番号リストの挿入
表の挿入
水平線の挿入
プレビュー
質問の解決につながる回答をしましょう。 サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。 また、読む側のことを考えた、分かりやすい文章を心がけましょう。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
退会済みユーザー
2017/07/03 22:17 編集
2017/07/04 11:00