Kaggle Titanic問題でデータ分析を勉強しているのですが、以下のようなケースをどう扱えば良いかわからないので教えてください。データ解析初心者なので、的外れなことを言っていたらご容赦ください。
(データ分析を始めて2週間の初心者で、scikit-learnを使って各種回帰分析やランダムフォレストなどで結果を確認しています。testデータの答えは別のサイトから探して、正解率を判定しています)
(1) 説明変数が全て同じで、結果変数だけが異なるデータ
以下は3等級(一番下)の女性の生存(Survived)のトレーニングデータです。
説明変数全てが同じで、名前だけが違うのですが、名前から民族の推測は僕にはできずで、これらを回帰分析やランダムフォレストにかけてPredictしても、Pclass=3(3等級) Sex=1(女性)の乗客の生死は、ほぼ死亡となってしまいます。(集計からPclass=3(3等級) Sex=1(女性) SibSP+Parch=0(家族人数)の生存確率は 50%)
PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked 816 817 0 3 Heininen, Miss. Wendla Maria 1 23.0 0 0 STON/O2. 3101290 7.9250 NaN 2.0 474 475 0 3 Strandberg, Miss. Ida Sofia 1 22.0 0 0 7553 9.8375 NaN 2.0 649 650 1 3 Stanley, Miss. Amy Zillah Elsie 1 23.0 0 0 CA. 2314 7.5500 NaN 2.0 376 377 1 3 Landergren, Miss. Aurora Adelia 1 22.0 0 0 C 7077 7.2500 NaN 2.0
(2) 説明変数に有意性はなく、ただその変数によって生存率が得られるケースにおいては、どのような分析を使えば良いのでしょうか? 回帰分析などでは、coef/intercept に確率的要素は反映されないので、どう反映させることができるのかと考えています。
- 結果変数を Survived ではなく Pclass+Sex の生存率にして、回帰分析を回して、得たresult と 当該行の生存率を比較してresult が上回れば生存、なんて形で生存率を反映させる分析も試みたのですが、、、結果は散々で。
よろしくお願いします。
追加施策として、Pclass=3 で Nameに NickName がある乗船者の生存率が倍以上になるため、これを反映した回帰分析をしたところ、正解率が 78->80%になりました。

バッドをするには、ログインかつ
こちらの条件を満たす必要があります。