質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
MySQL

MySQL(マイエスキューエル)は、TCX DataKonsultAB社などが開発するRDBMS(リレーショナルデータベースの管理システム)です。世界で最も人気の高いシステムで、オープンソースで開発されています。MySQLデータベースサーバは、高速性と信頼性があり、Linux、UNIX、Windowsなどの複数のプラットフォームで動作することができます。

MongoDB

MongoDBはオープンソースのドキュメント指向データベースの1つです。高性能で、多くのリトルエンディアンシステムを利用することができます。

NoSQL

NoSQL(not only SQL)は、リレーショナルデータベース管理システムとは異なるデータベースシステムを指す言葉です。

SQL

SQL(Structured Query Language)は、リレーショナルデータベース管理システム (RDBMS)のデータベース言語です。大きく分けて、データ定義言語(DDL)、データ操作言語(DML)、データ制御言語(DCL)の3つで構成されており、プログラム上でSQL文を生成して、RDBMSに命令を出し、RDBに必要なデータを格納できます。また、格納したデータを引き出すことも可能です。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

Q&A

解決済

2回答

1729閲覧

ニュース記事のDB構築

monolith_91

総合スコア18

MySQL

MySQL(マイエスキューエル)は、TCX DataKonsultAB社などが開発するRDBMS(リレーショナルデータベースの管理システム)です。世界で最も人気の高いシステムで、オープンソースで開発されています。MySQLデータベースサーバは、高速性と信頼性があり、Linux、UNIX、Windowsなどの複数のプラットフォームで動作することができます。

MongoDB

MongoDBはオープンソースのドキュメント指向データベースの1つです。高性能で、多くのリトルエンディアンシステムを利用することができます。

NoSQL

NoSQL(not only SQL)は、リレーショナルデータベース管理システムとは異なるデータベースシステムを指す言葉です。

SQL

SQL(Structured Query Language)は、リレーショナルデータベース管理システム (RDBMS)のデータベース言語です。大きく分けて、データ定義言語(DDL)、データ操作言語(DML)、データ制御言語(DCL)の3つで構成されており、プログラム上でSQL文を生成して、RDBMSに命令を出し、RDBに必要なデータを格納できます。また、格納したデータを引き出すことも可能です。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

0グッド

2クリップ

投稿2017/05/31 01:48

私はYahoo!ニュースから様々な媒体のニュースをスクレイピングでテキストに保存して、テキストマイニングで分析をかけたいと考えていますが、そろそろ、記事がたまってきたのでデータベース化しようとしています。

データベースのカラム構成は次になります。
・日時
・時刻
・媒体
・見出し
・段落1

・最終段落

問題は段落の数がニュースの長さによって全く異なるため、Mysqlを使うとカラム数を最大の段落数に合わせる必要があり、ほとんどの段落カラムがヌル値になってしまいます。しかし、例えば『見出し+段落1』のみ分析をかけたいなどの要望があるので、出来ればこのカラム構成で行きたいです。

それならば、カラム定義不要のmongoDBなどのnoSQLを使えば良いという意見があるかも知れません。

実は私はデータベースに格納した文章に対して形態素解析(文章を単語に区切ること)・全文検索をかけるようにしたいのです。

この場合、mongoDBだとelasticseaschなどの全文検索システムと連携を取る必要があり、その為の設定が非常に大変だし、elasticseaschではmecabという形態素解析ツールを使うのが難しいので使いたくありません。

その点、mysqlではMroongaという全文検索ストレージエンジンが簡単な設定で使えますし、mecabとの連携も簡単なので出来ればこちらを使いたいです。

文章が長くなって申し訳ありません。

まとめになりますが、テキストマイニング用にデータベースを構築・管理されている方がいれば下記について教えて頂きましたら幸いです。

・データベースに何を使っているか?
・カラム構成をどうしているか?
・全文検索や形態素解析はどのツールとどう連携しているか?
・文章をどうカラムに格納しているか。改行文字、スペース、段落の扱い

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

1段落を1カラムに対応させるということでしょうか?
あまり意味が無いのでやめたほうがよいかと。
本文として1カラムに投入すればよいだけでは?
もしくは段落ごとにどうしてわけたいのであれば
正規化して記事idと段落番号、内容で別テーブルをつくってください

投稿2017/05/31 01:53

yambejp

総合スコア114784

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

monolith_91

2017/05/31 04:17

早速の回答ありがとうございます。 私は見出しだけを使った場合、見出し+段落1、見出し+本文全体を使った場合で比較をしたかったので、出来ればカラムを分けたかったのですが、仰る通り、本文全体を一カラムにドカッと入れた方が良いんでしょうね。
guest

0

大変申し訳ありません。まだ質問をクローズしておりませんでした。

投稿2017/12/25 03:58

monolith_91

総合スコア18

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問