Amazon EMRを利用したシステムの設計を行うのですが、以下を明確にしないと設計できないものについて悩んでいます。
以下の内容へのアドバイス及び、ここも気を付けた方が良いよ!という点があればアドバイスをお願いします。
- 
EMRクラスター(Hadoop)をローカルで実行するためにCDHかHDPか(基準:どちらが検証しやすいか)
 - 
EMRでどれを使うか(hive QL,impala,pig)(基準:どれが性能が良いか)
impalaを採用しようかと考えています。 - 
EMRの演算結果の保存先はS3かDynamoDBか(基準:どちらが安いのか、早いのか)
※HDFSは一時キャッシュのため対象外 - 
Lambdaで実行する言語のはどれが良いか?(Node.js,Java,Python) (基準:製造・修正しやすいのか? 性能面)
また、Node.jsの場合、どのフレームワークを使うか(候補:angular js) 
Node.jsを採用しようかと考えています。
- DynamoDBのテーブル設計はどうすれば早くなるのか?
 
あなたの回答
tips
プレビュー