下手に予測時に使用出来ない特徴量を学習させて、モデルの重要度を上げてしまうよりかは、
そもそも使用しないほうが良いのでしょうか。
状況がわかりませんが、降水確率を予測したいのであれば、使用できない特徴量を使うというのは全く意味がありません。「モデルの重要度」というのは学習データで精度の良いモデルというくらいの意味かと思いますが、逆にそれが出来たとしてどう予測するのでしょうか?
引用テキストあとDF型のデータを予測時に入れる際、項目の並びも予測時に合わせたほうが良いのでしょうか。
引用テキスト個人的には、項目名さえ一致していれば並びは関係ないと思っているのですが、少なからず予測に影響してないか不安です。
DF型というのはデータフレーム型のことかと思います。
PythonかRか分かりませんが学習や予測にめちゃくちゃコストがかかるならばともかく、そうではないですよね。「不安です」と悩むのではなく、どっちも試してみればよいのではないでしょうか。
データ分析は理論を突き詰めて学ぶというのもありますが、実際に自分で試してみるのほうが早いですし、実感して理解できる面が多々あります。
一応コメント差し上げると、
学習データと予測のテストデータで項目名の並びをわざわざ分ける意図が分かりません。
間違えのもとですので一致させておいたほうがよいと思います。
アルゴリズムによるかとは思いますが通常は特徴量の順番は関係ないと思います。
ただ、途中の処理で項目名ではなく列番号等で処理などしていると当然ながら全く異なる処理をしてしまうことになるかと思います。
どうしてもの特段の理由がない限り項目の順番は合わせておいたほうが無難です。