なかなか難しいテーマですね。
どこかのプラットフォームに所属してサービスをローンチするパターンと、完全に自社のメディアで1から細々やっていくパターンとで大きくことなるような気もしますが…。
まとまりないけれども、自分なりに解析周りについて、意見を述べさせていただきます。
(1)Hadoopを準備しなくてもログはしっかり落とすこと
ログさえあればHadoopに後から食べてもらうことが出来るので、その予定があろうがなかろうが、イベントのログはしっかり落としておくべきだと思います。
(2)DB→ログ or GoogleAnalytics→Hadoopの順
まずはDBを舐めて得られるデータもあるかと思います。そこすらも出来ていないなら、やったらいいと思います。
そして、行動の部分において、DBでは賄いきれないものがあれば、DBのIOを抑えるためにテーブルへのinsertではなく、ログで対応する。
もしくは、GoogleAnalyticsで対応する。ただ、GoogleAnalyticsは高度な分析には向かないので、そのような要件があればHadoopでと言う選択になるかと思ってます。
(3)メディアによって、GoogleAnalyticsでもOKな場合も。
ゲームだとユーザーの回遊状況の他に、レベル、カードのデッキ、アイテム保有、利用深度によってイベントを決定する必要があると思うので、GoogleAnalyticsでは不向きで、DBかHadoopによる解析基盤を作ることをオススメします。
一方でニュースサイト等であれば、GoogleAnalyticsで大半の要件は済んでしまうケースもあるのではないかと思います。少なくともゲームよりはニーズが低いです。
会員系のサービスは何となくHadoopがあれば便利だなぁとは感じております。
(4)サービスローンチに解析基盤は必須ではない
いくらログとそこからの分析の手法を検討してもサービスのローンチが遅れたり、クオリティが十分上がらないのであれば、最初から入れるのは諦めた方がよいかと思ってます。
(5)組織の成熟度合いにもよる
僕がコンサルしている組織では、GoogleAnalyticsに限界を感じている状態だったのですんなり通りましたし、そうすべきと言う意見も強かったです。
ただ、分析の文化がないところに無理やり導入しても、猫に小判的な感じであんまりワークしないような気がしています。
で、ここまできて回答となります。
【質問1】ログ集計システムを作るとしたら最初から導入しますか?
これについては、上述の通り、メディア、規模感に応じてだと思いますが、ゲーム系はその期間ログが欠損することとなり、あとからDBからデータを作ることが大変なことが予想されるのであれば、最初から導入しようよ、と働きかけます。ただし、それによってリリースが遅れるのであれば、せめてログだけ埋めてくれとお願いします。
【質問2】既に同じような事例を対応中の方はどのような導入手順を踏まれていますでしょうか?
(5)導入背景としては、記載の通りとなります。ただ、この場合あとから導入しているのでどうしても解析基盤導入前のデータは欠損として扱われるので、見えてこない部分もありつつ、そこを補完するかどうは上層部の判断に任せてしまっております。
ただ大事なのはログよりも、DBのデータが正値であるので、まずはDBにどんなデータがあるのか、ログとして補完しなくてはいけないのはどの辺なのかを判断するために、必ずER図は見るようにしています。
(DBのデータが正値と言うのは、ログ出力にトランザクション機能的なものが備わっていないことが一般的だと思いますし、その扱いもDBより厳密にはなり得ない辺りから、そのように考えております。)
で具体的な進め方については、
・ビジネススキームの理解
・既存で集計しているデータの確認
・組織的課題の洗い出し
・DBのER図確認
・必要そうなレポートの決定
・ログとして出力する内容の決定
・Hadoopテーブルの設計
・ログの設計
・ログ出力ライブラリの作成
・ログ出力ライブラリ組み込み
・Hadoopへの取り込み
とかそんな流れになっております。
以上です。
参考になれば良いのですが…。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。