活性化関数の役割は次のレイアのノードに信号を引き渡すことで初期のニューラルネットワークは0または1をバイアスを境に出力するものでした。したがって、恒等関数はこの役割を充足していないので、活性化関数として意味を持ちません。
この初期の活性化関数は出力結果が0または1と単純なもののため、中間的な事象をうまく表現できません。そこで、計算結果に応じて0~1の実数を出力するsigmoid関数が導入されることになります。しかしながら、このsigmoid関数を使った場合、勾配消失という問題が生じることが確認され、これを回避できるものとしてrelu関数が考案されました。
以上を踏まえて質問に回答すると、以下になると思います。
1.恒等関数が使用されない理由
活性化関数の本来の機能を果たせない(特に論理演算。よって回帰の場合、恒等関数でも問題ないことがある)
2.reluを用いるメリット
勾配消失を回避する
実際に勾配消失が発生するようなケースは相当複雑なモデルなので、それほど多層でなければsigmoidやtanhでも充分でしょう。