Pandas の関数 loc のスライス [start:stop] に stop が含まれるのはなぜでしょうか？

Python においてリストなどにスライス [start:stop] を用いると一般的に start 以上 stop 未満となります。
例えば

python
1list1 = [1, 2, 3, 4, 5]
2print(list1[0:3])

の出力はこのようになります。

[1, 2, 3]

--
一方、Pandas の関数 loc にスライスを用いると start 以上 stop 以下となります。

python
1df = pd.DataFrame([[1, 1], [2, 2], [3, 3], [4, 4], [5, 5]])
2df.loc[0:3]

の出力は以下のようになります。

--
なぜ、loc 関数だけ start 以上 stop 以下となるのでしょうか？
そういうものだからと言われれればそうなのかもしれませんが、設計思想のようなものがあるのなら伺いたです。

行動規範の内容に同意します

回答1件

ベストアンサー

なぜ、loc 関数だけ start 以上 stop 以下となるのでしょうか？

loc によるスライスは、行や列の位置に基づくスライスではなく、ラベルに基づくスライスだからです。
DataFrame は行方向に index (列名)、列方向に columns (行名) というラベルを持っています。
ここでいうインデックス (index) という用語は、リストやタプルなどの文脈で使うインデックスの意味ではなく、DataFrame.index で取得できる行方向のラベルを指していることに注意してください。

インデックスは明示的に指定しない場合、0, 1, ... と整数が割り当てられますが、文字を割り当てることもでき、df.loc["a":"c"] のようにスライスもできます。

python
1import pandas as pd
2
3df = pd.DataFrame([[1, 1], [2, 2], [3, 3], [4, 4], [5, 5]], index=["a", "b", "c", "d", "e"])
4print(df.loc["a":"c"])
5#    0  1
6# a  1  1
7# b  2  2
8# c  3  3

なので、loc[0:3] は「1行目～4行目までを取得する」という意味ではなく、「index の値が 0 ~ 3 の行を取得する」という意味になります。
位置を基準にスライスする場合は別に iloc を使います。こちらはリストやタプルのスライス同様、終端は含まれません。

python
1import pandas as pd
2
3df = pd.DataFrame([[1, 1], [2, 2], [3, 3], [4, 4], [5, 5]])
4print(df.loc[0:3])
5#    0  1
6# 0  1  1
7# 1  2  2
8# 2  3  3
9# 3  4  4
10
11df = pd.DataFrame([[1, 1], [2, 2], [3, 3], [4, 4], [5, 5]])
12print(df.iloc[0:3])
13#    0  1
14# a  1  1
15# b  2  2
16# c  3  3