私はYahoo!ニュースから様々な媒体のニュースをスクレイピングでテキストに保存して、テキストマイニングで分析をかけたいと考えていますが、そろそろ、記事がたまってきたのでデータベース化しようとしています。
データベースのカラム構成は次になります。
・日時
・時刻
・媒体
・見出し
・段落1
…
・最終段落
問題は段落の数がニュースの長さによって全く異なるため、Mysqlを使うとカラム数を最大の段落数に合わせる必要があり、ほとんどの段落カラムがヌル値になってしまいます。しかし、例えば『見出し+段落1』のみ分析をかけたいなどの要望があるので、出来ればこのカラム構成で行きたいです。
それならば、カラム定義不要のmongoDBなどのnoSQLを使えば良いという意見があるかも知れません。
実は私はデータベースに格納した文章に対して形態素解析(文章を単語に区切ること)・全文検索をかけるようにしたいのです。
この場合、mongoDBだとelasticseaschなどの全文検索システムと連携を取る必要があり、その為の設定が非常に大変だし、elasticseaschではmecabという形態素解析ツールを使うのが難しいので使いたくありません。
その点、mysqlではMroongaという全文検索ストレージエンジンが簡単な設定で使えますし、mecabとの連携も簡単なので出来ればこちらを使いたいです。
文章が長くなって申し訳ありません。
まとめになりますが、テキストマイニング用にデータベースを構築・管理されている方がいれば下記について教えて頂きましたら幸いです。
・データベースに何を使っているか?
・カラム構成をどうしているか?
・全文検索や形態素解析はどのツールとどう連携しているか?
・文章をどうカラムに格納しているか。改行文字、スペース、段落の扱い
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2017/05/31 04:17