Hadoop3とHive3の問題解析手法等のノウハウとツールを探しています

実現したいこと

私たちのチームでは、Apache HadoopとApache Hiveを利用してセンサデータの統計処理を行うシステムを維持管理しており、現在システム更改中です。その作業の中でいくつかのHiveでエラーが発生しており、原因特定と対策の実施が必要な状況となっています。少しでも自分達のチームで主体的に解決できるよう、解析スキルを身につけたいと考えています。

相談したいこと

システム更改に際して、Hadoop0.20とHive0.1.7から、Hadoop3.3.3とHive3.1.3にバージョンアップしています。検証の中でいくつかの問題が発生している状況です。
例えば、Hiveで2つのテーブルをJOINした際、移行元のHiveで実行した際の出力レコード数よりも極端に少ないレコード数しか出力されない事象等が発生しています。JOINしている2つのテーブルのレコード数はそれぞれ約7000万レコードで比較的規模が大きいです。Hiveの設定に問題があるのか、データ自体に問題があるのか、といったことも分からない状態です。

こういった問題を解析したいのですが、我々のチーム内にはノウハウが乏しく、どのような手順や解析ツールで原因調査を進めればよいか分からず困っております。
Hadoop3やHive3における問題解析の一般的な手法や、よく使われている解析ツールといったノウハウを教えて頂きたいです。
経験豊富な皆様からご意見を頂けますと幸いです。