サーバー自動復旧（インスタンス数の維持）のためのAuto Scalingの設定内容を知りたい

Question

Rails初心者エンジニアです。
WebアプリのプロトタイプをAWS上にデプロイ・運用していく予定で、本番環境の構築を進めております。

###実現したいこと
EC2上のWebアプリの可用性を維持（インスタンス数１台を維持）するため、AWS EC2 Auto Scalingでサーバーを自動復旧する設定をしたい

###実施内容
0. EC2で立てたインスタンス（インスタンスタイプ：t2.micro, ストレージ：8G）からAMIを作成
0. 上記1で作成したAMIを使用し、起動設定を作成（インスタンスタイプ、ストレージ、セキュリティグループなどの設定は1と同じ。自動起動したインスタンスにも同じ鍵でSSHログインしたいため、既存のキーペアを選択。）
0. 上記2の起動設定を使用してAuto Scalingグループを作成

**Auto Scalingグループの設定内容**
```

・グループサイズ : 希望する容量1、最小キャパシティ1、最大キャパシティ1
・サブネット ： 既存のEC2インスタンスと同じものを選択
・ロードバランシング : チェックを入れ、ターゲットグループを選択
・ヘルスチェックのタイプ : EC2 & ELB
・ヘルスチェックの猶予期間 : 300
・インスタンスのスケールイン保護 : 保護なし スケールインから
・終了ポリシー : Default
・デフォルトのクールダウン : 300

```

###発生事象
EC2インスタンス（キャプチャのstart-aws-instance）に問題が無いにも関わらず、Auto Scallingによって、インスタンスの自動生成・終了が約8分毎に繰り返されてしまう。

**インスタンス一覧**
![イメージ説明](aef7429f6a43b373856ecd55b69cdda4.png)

**ELBのターゲット一覧（Auto Scalingのヘルスチェックがhealthyとならない）**
![イメージ説明](2848268833489530adff10bba94b917b.png)

**Auto Scalingグループのアクティビティ履歴（約8分毎にインスタンスの起動・終了を繰り返している）**
![イメージ説明](01cdb3fa70807c0a08ea03fcc0206b40.png)

**ポート状態の確認結果**
```unhealty
Netid   State     Recv-Q    Send-Q                         Local Address:Port         Peer Address:Port     
udp     UNCONN    0         0                                  127.0.0.1:323               0.0.0.0:*        
udp     UNCONN    0         0                                    0.0.0.0:68                0.0.0.0:*        
udp     UNCONN    0         0                                    0.0.0.0:111               0.0.0.0:*        
udp     UNCONN    0         0                                    0.0.0.0:728               0.0.0.0:*        
udp     UNCONN    0         0                                      [::1]:323                  [::]:*        
udp     UNCONN    0         0             [fe80::89d:beff:fed1:a24]%eth0:546                  [::]:*        
udp     UNCONN    0         0                                       [::]:111                  [::]:*        
udp     UNCONN    0         0                                       [::]:728                  [::]:*        
tcp     LISTEN    0         128                                  0.0.0.0:22                0.0.0.0:*        
tcp     LISTEN    0         100                                127.0.0.1:25                0.0.0.0:*        
tcp     LISTEN    0         128                                  0.0.0.0:111               0.0.0.0:*        
tcp     ESTAB     0         36                             172.31.11.230:22          60.60.230.194:51511    
tcp     LISTEN    0         128                                     [::]:22                   [::]:*        
tcp     LISTEN    0         128                                     [::]:111                  [::]:* 
```
```healty
Netid    State         Recv-Q     Send-Q                            Local Address:Port          Peer Address:Port     
udp      UNCONN        0          0                                     127.0.0.1:323                0.0.0.0:*        
udp      UNCONN        0          0                                       0.0.0.0:68                 0.0.0.0:*        
udp      UNCONN        0          0                                       0.0.0.0:111                0.0.0.0:*        
udp      UNCONN        0          0                                       0.0.0.0:727                0.0.0.0:*        
udp      UNCONN        0          0                                         [::1]:323                   [::]:*        
udp      UNCONN        0          0               [fe80::884:abff:fe94:f3e4]%eth0:546                   [::]:*        
udp      UNCONN        0          0                                          [::]:111                   [::]:*        
udp      UNCONN        0          0                                          [::]:727                   [::]:*        
tcp      LISTEN        0          128                                     0.0.0.0:111                0.0.0.0:*        
tcp      LISTEN        0          128                                     0.0.0.0:80                 0.0.0.0:*        
tcp      LISTEN        0          128                                     0.0.0.0:22                 0.0.0.0:*        
tcp      LISTEN        0          100                                   127.0.0.1:25                 0.0.0.0:*        
tcp      TIME-WAIT     0          0                                  172.31.14.50:80           172.31.28.107:60516    
tcp      ESTAB         0          36                                 172.31.14.50:22           60.60.230.194:51517    
tcp      TIME-WAIT     0          0                                  172.31.14.50:80            172.31.6.186:34352    
tcp      TIME-WAIT     0          0                                  172.31.14.50:80           172.31.28.107:60502    
tcp      TIME-WAIT     0          0                                  172.31.14.50:80            172.31.6.186:34362    
tcp      TIME-WAIT     0          0                                  172.31.14.50:80            172.31.6.186:34376    
tcp      LISTEN        0          128                                        [::]:111                   [::]:*        
tcp      LISTEN        0          128                                        [::]:80                    [::]:*        
tcp      LISTEN        0          128                                        [::]:22                    [::]:*       
```


###質問
インスタンス乱立の要因は、Auto Scalingのヘルスチェックが上手くできてないことと想定しておりますが、詳細分かっておらず困っております。
EC2インスタンス（キャプチャのstart-aws-instance）に問題が生じた場合のみ、Auto Scalingで1台のサーバーを自動復旧するようにしたいのですが、発生事象の原因と対処法について、アドバイスいただきたく、よろしくお願いいたします。

Accepted Answer

tanatさんの回答でほぼ確認すべきことは書かれているので自分はヘルスチェックについて書きます。

ヘルスチェックで何を行っているのかというところですが、ヘルスチェックはELBからEC2インスタンスのプライベートIPの指定されたパスに対してリクエストを送り、そのレスポンスコードが指定したものになっているかを確認しています。（デフォルトだと80番ポートにリクエストを送り、`200 OK`が返ってくるどうかを見ている）
これはターゲットグループの設定でカスタマイズできます。

なので、**ELBがEC2インスタンスに対してリクエストを送った時に、想定したレスポンスコードを返すようにEC2側で設定していなければヘルスチェックは失敗します**。
失敗の要因はEC2側でリクエストを受け付けられる状態になっていなかったり、セキュリティグループでELBからの通信を許可していなかったり、EC2側で８０番ポート宛のリクエストをリダイレクトしていたり（リダイレクトは300番台のコードなので）…等色々ありますが、調べてみてください。

あまりおすすめしない方法として、一時的にヘルスチェックをOKとみなすレスポンスコードを変えたり範囲を広げたりする、というのがありますが、これをやるのはあくまでもデバッグ中くらいで、実際に動かす時にこれをやってしまったらヘルスチェックの意味がなくなります。

Answer

> インスタンス乱立の要因は、Auto Scalingのヘルスチェックが上手くできてないことと想定しておりますが、詳細分かっておらず困っております。

まずは
[Application Load Balancer のトラブルシューティングを行い、ヘルスチェックの失敗を修正する方法を教えてください。](https://aws.amazon.com/jp/premiumsupport/knowledge-center/elb-fix-failing-health-checks-alb/)
等を参考に切り分けてみてください。

個人的には、いきなりWebアプリケーションの動いているAutoScalingGroupを作るのではなく、
1. 最初に静的なHTMLを表示するだけのELBとEC2のセットを作り、ヘルスチェックをクリアできるようにする(Apacheやnginxがインストールされ、静的HTMLを表示するだけのwebサーバのインスタンスを用意する。ELBも今触っているのとは別に作る）
2. 1のAMIとELBでAutoScaingGroupを作ってみる
3. 2が出来たら、2と同じく静的なHTMLをヘルスチェック対象としたAutoScalingGroupを作ってみて、質問中で使用しているAMIで動く様にする
4. 3が出来たら、動的なヘルスチェックを行う（質問中で目指しているであろう）環境を作る

というステップを踏んで、順に切り分け方法を把握するのが近道だと思います。

関連した質問