Python重回帰分析のエラーを解決したい

Pythonで、重回帰分析を行う際に、説明変数を決めて、プログラムを実行しましたら、
添付のエラーが出てしまいました。

変数を数字にしていることがよくないのでしょうか？
解決方法がわかるかたいらっしゃればご教示いただければ幸いです。

＜以下はエラーの表記です。＞

＜以下は、回帰分析をするためのデータフレームです＞

＜データフレームの右側に、数字の変数が並んでいます。＞

＜エラーのコードです＞

python
1# 目的変数と説明変数に分割
2
3columnList =['city_code','region_code','emailer_for_promotion','homepage_featured','TYPE_B','TYPE_C','Biryani','Desert','Extras',\
4             'Fish','Other Snacks','Pasta','Pizza','Rice Bowl','Salad','Sandwich','Seafood','Soup','Starters','Indian','Italian','Thai'\
5             '1.9','2.0','2.4','2.7','2.8','2.9','3.0','3.2','3.4','3.5','3.6','3.7','3.8','3.9','4.0','4.1','4.2','4.4','4.5',\
6             '4.6','4.7','4.8','5.0','5.1','5.3','5.6','6.3','6.7','7.0']
7
8X = train_query.loc[:,columnList]
9y = train_query.loc[:, ['num_rank']]
10
11# モデル構築用データ、モデル検証用データに分割（80:20に分割）
12X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
13
14print(X_train.shape)
15print(X_test.shape)
16
17print(y_train.shape)
18print(y_test.shape)

<エラー表記です。＞

Python
1KeyError                                  Traceback (most recent call last)
2<ipython-input-175-37e26af03518> in <module>()
3     18 columnList =['city_code','region_code','emailer_for_promotion','homepage_featured','TYPE_B','TYPE_C','Biryani','Desert','Extras',             'Fish','Other Snacks','Pasta','Pizza','Rice Bowl','Salad','Sandwich','Seafood','Soup','Starters','Indian','Italian','Thai'             '1.9','2.0','2.4','2.7','2.8','2.9','3.0','3.2','3.4','3.5','3.6','3.7','3.8','3.9','4.0','4.1','4.2','4.4','4.5',             '4.6','4.7','4.8','5.0','5.1','5.3'...
4     19 
5---> 20 X = train_query.loc[:,columnList]
6     21 y = train_query.loc[:, ['num_rank']]
7     22 
8
96 frames
10/usr/local/lib/python3.7/dist-packages/pandas/core/indexing.py in _validate_read_indexer(self, key, indexer, axis, raise_missing)
11   1314                 with option_context("display.max_seq_items", 10, "display.width", 80):
12   1315                     raise KeyError(
13-> 1316                         "Passing list-likes to .loc or [] with any missing labels "
14   1317                         "is no longer supported. "
15   1318                         f"The following labels were missing: {not_found}. "
16
17KeyError: "Passing list-likes to .loc or [] with any missing labels is no longer supported. The following labels were missing: Index(['Thai1.9', '2.0', '2.4', '2.7', '2.8',\n       ...\n       '5.3', '5.6', '6.3', '6.7', '7.0'],\n      dtype='object', length=29). See https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#deprecate-loc-reindex-listlike"

<
＜カンマを追記したコード＞

# 目的変数と説明変数に分割

columnList =['city_code','region_code','emailer_for_promotion','homepage_featured','TYPE_B','TYPE_C','Biryani','Desert','Extras',\
             'Fish','Other Snacks','Pasta','Pizza','Rice Bowl','Salad','Sandwich','Seafood','Soup','Starters','Indian','Italian','Thai',\
             '1.9','2.0','2.4','2.7','2.8','2.9','3.0','3.2','3.4','3.5','3.6','3.7','3.8','3.9','4.0','4.1','4.2','4.4','4.5',\
             '4.6','4.7','4.8','5.0','5.1','5.3','5.6','6.3','6.7','7.0']

X = train_query.loc[:,columnList]
y = train_query.loc[:, ['num_rank']]

# モデル構築用データ、モデル検証用データに分割（80:20に分割）
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(X_train.shape)
print(X_test.shape)

print(y_train.shape)
print(y_test.shape)

＜エラーコード＞

KeyError                                  Traceback (most recent call last)
<ipython-input-106-09c4fefa540e> in <module>()
     26 columnList =['city_code','region_code','emailer_for_promotion','homepage_featured','TYPE_B','TYPE_C','Biryani','Desert','Extras',             'Fish','Other Snacks','Pasta','Pizza','Rice Bowl','Salad','Sandwich','Seafood','Soup','Starters','Indian','Italian','Thai',             '1.9','2.0','2.4','2.7','2.8','2.9','3.0','3.2','3.4','3.5','3.6','3.7','3.8','3.9','4.0','4.1','4.2','4.4','4.5',             '4.6','4.7','4.8','5.0','5.1',...
     27 
---> 28 X = train_query.loc[:,columnList]
     29 y = train_query.loc[:, ['num_rank']]
     30 

6 frames
/usr/local/lib/python3.7/dist-packages/pandas/core/indexing.py in _validate_read_indexer(self, key, indexer, axis, raise_missing)
   1314                 with option_context("display.max_seq_items", 10, "display.width", 80):
   1315                     raise KeyError(
-> 1316                         "Passing list-likes to .loc or [] with any missing labels "
   1317                         "is no longer supported. "
   1318                         f"The following labels were missing: {not_found}. "

KeyError: "Passing list-likes to .loc or [] with any missing labels is no longer supported. The following labels were missing: Index(['1.9', '2.0', '2.4', '2.7', '2.8',\n       ...\n       '5.3', '5.6', '6.3', '6.7', '7.0'],\n      dtype='object', length=29). See https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#deprecate-loc-reindex-listlike"

takasima20

2021/10/20 11:11

関係ないかもですけど columList 定義の行末に \ がついてたりついてなかったりするのはどうなんしょ? コメントの例では全部ついてるようですが。

jbpb0

2021/10/20 11:11

Pythonのコードを、画像ではなく、テキストで質問に追記してください (ここに書くのではなく、質問を編集して追記する) コードを追記する際は、https://teratail.storage.googleapis.com/uploads/contributed_images/56957fe805d9d7befa7dba6a98676d2b.gif を見て、そのようにしてください

Shin_go

2021/10/20 11:19

ありがとうございます。コードを直接貼り付けました。もし解決方法がわかればご教示いただければ幸いです。説明変数にfoat型が混じっていて、 float型をstr型に変える必要があるような気がしているのですが、その変え方がわかりません。

jbpb0

2021/10/20 15:07 編集

> The following labels were missing: Index(['Thai1.9', '2.0',... 「Thai」と「1.9」がくっ付いてますね > ...'Italian','Thai'\ 「'Thai'」と「\」の間にカンマが要るのではないですかね

jbpb0

2021/10/20 15:12

> 説明変数にfoat型が混じっていて、 float型をstr型に変える必要があるような気がしているのですが、その変え方がわかりません。これ？ https://note.nkmk.me/python-pandas-str-num-conversion/

Shin_go

2021/10/20 15:22

ありがとうございます。カンマは要れてみましたが同じくエラー出てしまいました。私も同じサイトに辿りつきて、データ型の変換を試みたのですが、やり方が間違えているのか、同じエラーとなってしまいました。

jbpb0

2021/10/20 15:37

> カンマは要れてみましたが同じくエラー出てしまいました。カンマを追加したら、 > The following labels were missing: Index(['Thai1.9', '2.0',... の「Thai」と「1.9」がくっ付いてるのは無くなるはずなので、エラーの内容は違うはずですから、その情報を出してください別のエラーが出てるのなら、その原因は別にあるはずですが、エラー内容が分からないと原因も分かりませんカンマを追加したコードと、それを実行した時のエラーを、質問を編集して追記してください

Shin_go

2021/10/20 15:44

追記いたしました。申し上げととおり変わらないですよね。。エラーは。

jbpb0

2021/10/20 15:46

> Passing list-likes to .loc or [] with any missing labels is no longer supported. は、 https://qiita.com/chase0213/items/654f7feb06a1c650e36e に書いてあるように存在しないキーを参照してるエラーなので、「columnList =...」の内容とデータフレームが矛盾してないかを確認することです「Thai」と「1.9」がくっ付いたら、それは当然存在してませんよねそれを直してもまだ同じエラーが出てるのなら、おそらくまだどこかに矛盾が残ってるのです

jbpb0

2021/10/20 15:48

> 申し上げととおり変わらないですよね。。エラーは。変わってますよね「'Thai1.9'」は無くなってます

jbpb0

2021/10/20 16:25 編集

> 変数を数字にしていることがよくないのでしょうか？内容が aaa,bbb,ccc,1.0,1.1,1.2 0,1,2,3,4,5 0,1,2,3,4,5 0,1,2,3,4,5 0,1,2,3,4,5 0,1,2,3,4,5 のCSVファイルを作って、下記のようにそれを読み込んで処理しても、エラー出ません import pandas as pd train_query = pd.read_csv('ttest.csv') columnList = ['aaa', 'bbb', '1.0', '1.1'] X = train_query.loc[:, columnList] 質問のコードのように、「columnList =...」の途中で改行しても、エラー出ませんなので、質問者さんの環境では、「columnList =...」の内容とデータフレームの間に何か矛盾があるのだと思うのですがたとえば、データフレームのヘッダー(「1.9」とか)が、全角文字が含まれてたり、数字の前か後にスペースが付いてたり、何かそういうことありませんか？ print(train_query['1.9']) は、エラー出ずに実行できますか？ print(list(train_query)) を実行したらヘッダーが表示されるのですが、「columnList =...」と相違ありませんか？

行動規範の内容に同意します

回答1件

変数を数字にしていることがよくないのでしょうか？

内容が

csv
1aaa,bbb,ccc,1.0,1.1,1.2
20,1,2,3,4,5
30,1,2,3,4,5
40,1,2,3,4,5
50,1,2,3,4,5
60,1,2,3,4,5

のCSVファイルを作って、下記のようにそれを読み込んで処理しても、エラー出ません

python
1import pandas as pd
2train_query = pd.read_csv('ttest.csv')
3columnList = ['aaa', 'bbb', '1.0', '1.1']
4X = train_query.loc[:, columnList]

質問のコードのように、「columnList =...」の途中で改行しても、エラー出ません
変数が数字でも、問題無いと思います

「columnList =...」の内容とデータフレームの間に何か矛盾があるかもしれません
たとえば、データフレームのヘッダー(「1.9」とか)が、全角文字が含まれてたり、数字の前か後にスペースが付いてたり、等
下記を実行したらヘッダーが表示されるので、「columnList =...」と相違無いか確認してみてください