hadoop hiveにて、あるファイルをリデューサ処理した後の数百ファイルを一ファイルにまとめる方法を知りたいです。
リデューサ後のhiveのorder by があまりにも遅すぎるため、その方法は利用しないとします。
全部で200GBくらいのファイルですが、
処理時間がなるべくかからない方法ですと助かります。また、ファイルはgzip等で圧縮されたものを考えています。
よろしくお願いします。
あなたの回答
tips
プレビュー
投稿2018/09/29 07:45
hadoop hiveにて、あるファイルをリデューサ処理した後の数百ファイルを一ファイルにまとめる方法を知りたいです。
リデューサ後のhiveのorder by があまりにも遅すぎるため、その方法は利用しないとします。
全部で200GBくらいのファイルですが、
処理時間がなるべくかからない方法ですと助かります。また、ファイルはgzip等で圧縮されたものを考えています。
よろしくお願いします。
あなたの回答
tips
プレビュー