需要のある医学論文をAIで特定する方法について

SNSからユーザーの好みの本を特定するという人工知能の活用例がありましたが、人工知能について質問があります。
1.SNsで人工知能を活用する場合、データとなるものは何が考えられるでしょうか？
2.ネット上やSNSなどのユーザーの情報から需要のある医学論文を特定するためにはどのような方法が考えられますか？

知っていることについて知識の片鱗だけでもご教授いただけないでしょうか？具体的な答え出なくても、予想や推測でも回答お願いいたします。

行動規範の内容に同意します

回答3件

ベストアンサー

なんというか、ものすごく漠然とした話ですが...
私は文書系の専門ではないのですが、「こんな話聞いたことあるよ」くらいで良いのなら。

また、そもそも好みの本を特定する論文や詳細な情報を読んだことがないので、
先行研究は無かったことにして話を進めたいと思います。

論文の評価

その論文の内容をBag of Wordsによる特徴量ベクトルで評価するのが一般的でしょう。
日本語の論文解析でしたら、形態素解析にはMeCabやJUMANが使えるかと思います。
英語のものでしたら、元々分かち書きされていますから、単語の抽出は非常に簡単ですね。

Bag of Wordsを用いる場合、コードブックを作成する必要があります。
このコードブックを教師なし学習させることも可能ですが...ノイズが多く含まれるかと。
少なくとも試験的な段階では、人手によってコードブックを作ったほうがいいかもしれません。
意味合いも解釈しやすくなります。

多数の論文の特徴量ベクトルをクラスタリングして、人間が納得できる分割が得られたら完璧です。
まあ、そんなに上手くいかないと思いますが...

医学論文がどういう形式なのか、門外漢ですので全く想像が付かないのですが、
もしジャンルや関連語が遍く明記してあるなら、それを利用するのが吉です。
論文全体でなく、アブストラクトだけを評価するのも良いアイデアかと思います。

需要のある情報の選別

論文に限らず、SNS上の情報のおすすめを検討する場合です。
機械学習の用途を絞った方が精度が出ると思います。
ここでは、特にTwitterに関する話をします。(Facebookを使ったことがないもので)

このような機械学習を利用するには、基本的に教師データを用意する必要があります。
良い投稿を判断しラベル付けするとき、普通はいいね数などを用いると思うのですが...
それだったら、最初からいいね数で選別すればいいじゃないか、という気もします。
機械学習のコストが高いわりにリターンが少ないです。

ただの妄想ですが、もし私が作るなら、
0. Twitterで特定のワードを含むツイートを検索 or 影響力のあるアカウントのツイート
0. 本当に有用な情報かどうか、分類器を用いて分別
0. ふるい出された有用な情報を、いいね数やリツイート数の多い順番に並べる

みたいな感じですかね...

ユーザに対応した論文のサゼッション

ここまで、論文をどう評価するか、SNS上から有益な情報をどう見つけるかをお話ししました。
あとは、ユーザの興味を分析する必要がありますね。
興味分析と言って、よく研究されている分野ですが、専門ではないのであまり詳しくないです。

仮に、論文のクラスタリングが上手くいって、Twitter上での有益情報の選別も出来て、
それぞれのジャンルをある程度対応させられているとします。
(これだけでも研究成果として充分価値がありますが...)

ユーザの興味を採点する対象としては、次のような感じですかね...

前もって分析済みの医学系ツイートをいいね／リツイートしている件数 or 頻度
関連ありそうなツイートをBoW表現したときの、内容のドメイン

これらの情報を加味して、ユーザの興味ドメインを特定できるのなら、
あとはそのドメインに属する論文を、有益そうな順にガンガン勧めればいいですね。

前もって断っておきましたが、先行研究を知りませんので...
もしEnd to Endの再帰ニューラルネットでズバッとサゼッション出来た先例があるなら、
今までの話の価値が一気に下がります。深層学習じゃないですからね。

ただ、学習のコストが少ない／人間が判断に介在できるという意味では、
このような泥臭い手法にも価値があるのかな、と思います。

あとは興味分析のState-of-the-artな論文読んでください。

投稿2017/07/03 17:08

LouiS0616

総合スコア35660

退会済みユーザー

2017/07/03 22:17 編集

LouiS0616さんの内容に加えて、投稿されている画像もセットで解析できるとあれこれできそうですね。唐揚げ弁当の写真が多ければ動脈硬化などと関連させるような感じでしょうか。イメージ）http://press.spectee.jp/blog/real-time-photo-and-video-analysis-from-sns-by-using-spectee-ai/

trafalbad

2017/07/04 11:00

医学論文の検索数が多い=需要と考えてましたので、人間が判断できる情報があるならより実現できそうですね。やはり、SNSや論文サイトなどでそれなりの指標となるものがある方がより需要のあるものを特定できそうですが、人間の判断の及ばない関係を見出すには別の手法が必要のようですね。とても具体的に参考になる回答をありがとうございました！

行動規範の内容に同意します

１．知りたい事項に関係するデータであれば、何でも使うべきです。
人工知能（Deep learningなど)に期待されているのは、人間の常識的な判断では見いだせないような関係や傾向を出すことです。
その元になるデータを、人間が前もって選別することが出来る訳がありません。
選別できないので、大量のデータ（big data)を処理することになるのです。

２．については、論文の「需要」とは何を意味しているのかが判らないので回答できません。

==　追記　==
ほとんどの論文は学会や出版社が著作権を持っていて、無料で全文を読むことができる論文はオープンアクセスジャーナルに掲載されている論文や、PubMedや大学などの機関リポジトリで公開されているものに限られます。
医学系論文はPubMedが最も充実しているので、PubMedへのリンク("https://www.ncbi.nlm.nih.gov/pubmed"で始まるURL)に注目するのが良いと思います。
また、論文の情報（題名・著者・アブストラクト(更に論文全文へのリンクを含むものもある)）はDOI(Digital Object Identifier)というコードで管理されていて、DOIによるリンク ("http://doi.org/"もしくは"http://dx.doi.org/"で始まるURL)にも注目すべきかと思います。

投稿2017/07/04 07:30

編集2017/07/05 01:05