質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Q&A

解決済

3回答

1371閲覧

需要のある医学論文をAIで特定する方法について

trafalbad

総合スコア303

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

0グッド

2クリップ

投稿2017/07/03 16:03

SNSからユーザーの好みの本を特定するという人工知能の活用例がありましたが、人工知能について質問があります。
1.SNsで人工知能を活用する場合、データとなるものは何が考えられるでしょうか?
2.ネット上やSNSなどのユーザーの情報から需要のある医学論文を特定するためにはどのような方法が考えられますか?

知っていることについて知識の片鱗だけでもご教授いただけないでしょうか?具体的な答え出なくても、予想や推測でも回答お願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答3

0

ベストアンサー

なんというか、ものすごく漠然とした話ですが...
私は文書系の専門ではないのですが、「こんな話聞いたことあるよ」くらいで良いのなら。

また、そもそも好みの本を特定する論文や詳細な情報を読んだことがないので、
先行研究は無かったことにして話を進めたいと思います。

論文の評価

その論文の内容をBag of Wordsによる特徴量ベクトルで評価するのが一般的でしょう。
日本語の論文解析でしたら、形態素解析にはMeCabやJUMANが使えるかと思います。
英語のものでしたら、元々分かち書きされていますから、単語の抽出は非常に簡単ですね。

Bag of Wordsを用いる場合、コードブックを作成する必要があります。
このコードブックを教師なし学習させることも可能ですが...ノイズが多く含まれるかと。
少なくとも試験的な段階では、人手によってコードブックを作ったほうがいいかもしれません。
意味合いも解釈しやすくなります。

多数の論文の特徴量ベクトルをクラスタリングして、人間が納得できる分割が得られたら完璧です。
まあ、そんなに上手くいかないと思いますが...

医学論文がどういう形式なのか、門外漢ですので全く想像が付かないのですが、
もしジャンルや関連語が遍く明記してあるなら、それを利用するのが吉です。
論文全体でなく、アブストラクトだけを評価するのも良いアイデアかと思います。

需要のある情報の選別

論文に限らず、SNS上の情報のおすすめを検討する場合です。
機械学習の用途を絞った方が精度が出ると思います。
ここでは、特にTwitterに関する話をします。(Facebookを使ったことがないもので)

このような機械学習を利用するには、基本的に教師データを用意する必要があります。
良い投稿を判断しラベル付けするとき、普通はいいね数などを用いると思うのですが...
それだったら、最初からいいね数で選別すればいいじゃないか、という気もします。
機械学習のコストが高いわりにリターンが少ないです。

ただの妄想ですが、もし私が作るなら、
0. Twitterで特定のワードを含むツイートを検索 or 影響力のあるアカウントのツイート
0. 本当に有用な情報かどうか、分類器を用いて分別
0. ふるい出された有用な情報を、いいね数やリツイート数の多い順番に並べる

みたいな感じですかね...

ユーザに対応した論文のサゼッション

ここまで、論文をどう評価するかSNS上から有益な情報をどう見つけるかをお話ししました。
あとは、ユーザの興味を分析する必要がありますね。
興味分析と言って、よく研究されている分野ですが、専門ではないのであまり詳しくないです

仮に、論文のクラスタリングが上手くいって、Twitter上での有益情報の選別も出来て、
それぞれのジャンルをある程度対応させられているとします。
(これだけでも研究成果として充分価値がありますが...)

ユーザの興味を採点する対象としては、次のような感じですかね...

  • 前もって分析済みの医学系ツイートをいいね/リツイートしている件数 or 頻度
  • 関連ありそうなツイートをBoW表現したときの、内容のドメイン

これらの情報を加味して、ユーザの興味ドメインを特定できるのなら、
あとはそのドメインに属する論文を、有益そうな順にガンガン勧めればいいですね。


前もって断っておきましたが、先行研究を知りませんので...
もしEnd to Endの再帰ニューラルネットでズバッとサゼッション出来た先例があるなら、
今までの話の価値が一気に下がります。深層学習じゃないですからね。

ただ、学習のコストが少ない/人間が判断に介在できるという意味では、
このような泥臭い手法にも価値があるのかな、と思います。

あとは興味分析のState-of-the-artな論文読んでください。

投稿2017/07/03 17:08

LouiS0616

総合スコア35660

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

trafalbad

2017/07/04 11:00

医学論文の検索数が多い=需要と考えてましたので、人間が判断できる情報があるならより実現できそうですね。やはり、SNSや論文サイトなどでそれなりの指標となるものがある方がより需要のあるものを特定できそうですが、人間の判断の及ばない関係を見出すには別の手法が必要のようですね。 とても具体的に参考になる回答をありがとうございました!
guest

0

1. 知りたい事項に関係するデータであれば、何でも使うべきです。
人工知能(Deep learningなど)に期待されているのは、人間の常識的な判断では見いだせないような関係や傾向を出すことです。
その元になるデータを、人間が前もって選別することが出来る訳がありません。
選別できないので、大量のデータ(big data)を処理することになるのです。

2.については、論文の「需要」とは何を意味しているのかが判らないので回答できません。

== 追記 ==
ほとんどの論文は学会や出版社が著作権を持っていて、無料で全文を読むことができる論文はオープンアクセスジャーナルに掲載されている論文や、PubMedや大学などの機関リポジトリで公開されているものに限られます。
医学系論文はPubMedが最も充実しているので、PubMedへのリンク("https://www.ncbi.nlm.nih.gov/pubmed"で始まるURL)に注目するのが良いと思います。
また、論文の情報(題名・著者・アブストラクト(更に論文全文へのリンクを含むものもある))はDOI(Digital Object Identifier)というコードで管理されていて、DOIによるリンク ("http://doi.org/"もしくは"http://dx.doi.org/"で始まるURL)にも注目すべきかと思います。

投稿2017/07/04 07:30

編集2017/07/05 01:05
coco_bauer

総合スコア6915

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

trafalbad

2017/07/04 10:55

人工知能は人間の認識が及ばない関係や傾向を分析するものなのですね。とても参考になりました、ありがとうございます。 論文の需要とは一般にネット上でユーザーの検索数の多い論文のことを指して書きました
guest

0

単純に協調フィルタリングではダメですか?
DeepLearningにご興味がおありのようですから、Deep Collaborative Filtering などもありますよ。

でも、私がいま設計するなら、もっと違う方法を取るような気もしますね。

投稿2017/07/03 17:43

編集2017/07/03 18:05
MasashiKimura

総合スコア1150

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

trafalbad

2017/07/04 10:56

参考になる情報ありがとうございます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問