ニュース記事のDB構築

私はYahoo!ニュースから様々な媒体のニュースをスクレイピングでテキストに保存して、テキストマイニングで分析をかけたいと考えていますが、そろそろ、記事がたまってきたのでデータベース化しようとしています。

データベースのカラム構成は次になります。
・日時
・時刻
・媒体
・見出し
・段落1
…
・最終段落

問題は段落の数がニュースの長さによって全く異なるため、Mysqlを使うとカラム数を最大の段落数に合わせる必要があり、ほとんどの段落カラムがヌル値になってしまいます。しかし、例えば『見出し+段落1』のみ分析をかけたいなどの要望があるので、出来ればこのカラム構成で行きたいです。

それならば、カラム定義不要のmongoDBなどのnoSQLを使えば良いという意見があるかも知れません。

実は私はデータベースに格納した文章に対して形態素解析(文章を単語に区切ること)・全文検索をかけるようにしたいのです。

この場合、mongoDBだとelasticseaschなどの全文検索システムと連携を取る必要があり、その為の設定が非常に大変だし、elasticseaschではmecabという形態素解析ツールを使うのが難しいので使いたくありません。

その点、mysqlではMroongaという全文検索ストレージエンジンが簡単な設定で使えますし、mecabとの連携も簡単なので出来ればこちらを使いたいです。

文章が長くなって申し訳ありません。

まとめになりますが、テキストマイニング用にデータベースを構築・管理されている方がいれば下記について教えて頂きましたら幸いです。

・データベースに何を使っているか？
・カラム構成をどうしているか？
・全文検索や形態素解析はどのツールとどう連携しているか？
・文章をどうカラムに格納しているか。改行文字、スペース、段落の扱い

行動規範の内容に同意します

回答2件

ベストアンサー

1段落を1カラムに対応させるということでしょうか？
あまり意味が無いのでやめたほうがよいかと。
本文として１カラムに投入すればよいだけでは？
もしくは段落ごとにどうしてわけたいのであれば
正規化して記事idと段落番号、内容で別テーブルをつくってください

投稿2017/05/31 01:53

総合スコア114784

2017/05/31 04:17

早速の回答ありがとうございます。私は見出しだけを使った場合、見出し+段落1、見出し+本文全体を使った場合で比較をしたかったので、出来ればカラムを分けたかったのですが、仰る通り、本文全体を一カラムにドカッと入れた方が良いんでしょうね。

行動規範の内容に同意します

大変申し訳ありません。まだ質問をクローズしておりませんでした。

投稿2017/12/25 03:58

総合スコア18

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問