Amazon EMRを利用したシステムの設計を行うのですが、以下を明確にしないと設計できないものについて悩んでいます。
以下の内容へのアドバイス及び、ここも気を付けた方が良いよ!という点があればアドバイスをお願いします。
-
EMRクラスター(Hadoop)をローカルで実行するためにCDHかHDPか(基準:どちらが検証しやすいか)
-
EMRでどれを使うか(hive QL,impala,pig)(基準:どれが性能が良いか)
impalaを採用しようかと考えています。
- EMRの演算結果の保存先はS3かDynamoDBか(基準:どちらが安いのか、早いのか)
※HDFSは一時キャッシュのため対象外
- Lambdaで実行する言語のはどれが良いか?(Node.js,Java,Python) (基準:製造・修正しやすいのか? 性能面)
また、Node.jsの場合、どのフレームワークを使うか(候補:angular js)
Node.jsを採用しようかと考えています。
- DynamoDBのテーブル設計はどうすれば早くなるのか?
あなたの回答
tips
プレビュー