PythonのPandasを使って組み合わせ計算の最大値を求めたい(Excel、スプレッドシート)

Question

### 前提

PythonのPandasを使って組み合わせ計算の最大値を求めたい

### 実現したいこと
下記のようなデータ表を作りました。
4つの動物を選択し、列２の値の合計と列３の値の合計値をかけた積の最大を求めたいです。
例えばかめ、うさぎ、うぉんばっと、まんとひひを選んだ場合、
(18897+20312+24282+23890)＊(0.6717759+0.43125207+0.31928901+0.944748929)
と言った感じで、結果は206836.586194329となります。
計算結果が最大になる動物の組み合わせを出したいと考えています。

|列1|列2|列3|
|:--|:--:|--:|
かめ||18897||0.6717759
うさぎ||20312||0.43125207
ねこ||17557||0.621294404
ごりら||24416||0.659812699
うぉんばっと||24282||0.31928901
まんとひひ||23890||0.944748929
ねずみ||23768||0.445755777

### 発生している問題・エラーメッセージ
エクセルファイルを読み込ませようとしたのですが、
FileNotFoundError: [Errno 2] No such file or directory: 'パンダ用.xlsx'
と表示が出ました。
また、この作業がPythonでできるのか疑問になってきました。

### 試したこと

先ずはいつも使っているGoogleでなんとかなると思い、スプレッドシートの関数、スクリプトで試みましたが、挫折しました。その後ググりまくってPandasなら統計を扱えるという記事を見つけインストールしました。
考えられる組み合わせをすべて挙げ、計算結果を出した上で並べ替えればいいだろうと考えたのですが、もとのデータは500行超あるため、並べあげるだけでスプレッドシートで扱える18278行を超過し断念しました。また、製品版Excelを持っていないためVBAが使えません

### 補足情報（FW/ツールのバージョンなど）
Windows11
Python
WPS　Office
すべて最新だと思います。

Accepted Answer

> エクセルファイルを読み込ませようとしたのですが、FileNotFoundError: [Errno 2] No such file or directory: 'パンダ用.xlsx' と表示が出ました。
元のコードと実行環境(ファイル配置等)がわからないままでは，解決のしようがありません．
したがって，
> この作業がPythonでできるのか疑問になってきました。
の方を解決すべくコードを例示します．
> もとのデータは500行超あるため、並べあげるだけでスプレッドシートで扱える18278行を超過
仮にデータが500件だと仮定しても4つ選ぶ組み合わせ(Combinations)は
`nCr = 500C4 = 500! / (4! x 496!) = 2573031125`通りです．500件より多い場合は更に時間がかかることに注意してください．例えば現状の500件から600件に2割だけ増えたとしても5346164850組あるので約10割もの処理時間増加になります．
組み合わせ列挙は[Python標準のモジュール`itertools`](https://docs.python.org/ja/3/library/itertools.html#itertools.combinations)を利用して解決します．

```Python
import pandas as pd
from itertools import combinations

df = pd.DataFrame({
    "列1": ['かめ', 'うさぎ', 'ねこ', 'ごりら', 'うぉんばっと', 'まんとひひ', 'ねずみ'],
    "列2": [18897, 20312, 17557, 24416, 24282, 23890, 23768],
    "列3": [0.6717759, 0.43125207, 0.621294404, 0.659812699, 0.31928901, 0.944748929, 0.445755777],
}) # pd.read_excel()が成功すれば同じデータになるはず

data = df.values

mx, result = -1, None
for row in combinations(data, 4): # 4つ選ぶ
    value = sum([c1 for _, c1, _ in row]) * sum([c2 for _, _, c2 in row])
    if mx < value:
        mx = value
        result = [name for name, _, _ in row]

print(result, mx) # ['かめ', 'ごりら', 'まんとひひ', 'ねずみ'] 247631.550049155

# 3行短縮Ver.
calc = lambda row: sum([c1 for _, c1, _ in row]) * sum([c2 for _, _, c2 in row])
result = max(combinations(data, 4), key = calc)
print(f"{', '.join([name for name, _, _ in result])}: {calc(result)}") # かめ, ごりら, まんとひひ, ねずみ: 247631.550049155
```
エクセルファイルを適切に読み込めて，例示コードの`data`と同等のものが得られたら，欲しい組み合わせも得られるでしょう．

Answer

> もとのデータは500行超あるため、並べあげるだけでスプレッドシートで扱える18278行を超過

さすがに組み合わせ総数が大きすぎ、非線形な組み合わせ最適化問題だと思うので、あくまで近似解を求める考えとしての回答です。

列2, 列3, 列2*列3の各値のトップｎ（ｎは４以上の適当な値）行をそれぞれ求め、それらの行（の和集合）のみを対象として探すとそれなりに可能性の高い結果が得られそうです。
ただし各列の値の範囲が狭い（似た者同士）だと精度は落ちるような気がしますが。
```Python
import pandas as pd
from itertools import combinations
import numpy as np

# 厳密解
def solve1(df, cnt=4):
    data = df.values
    max_v, max_idx = -1, None
    for idx in combinations(range(len(data)), cnt):
        v = data[idx,1].sum() * data[idx,2].sum()
        if v > max_v:
            max_v = v
            max_idx = idx

return max_v, sorted(data[max_idx,0]) # 分かりやすいよう名前は昇順に

# 近似解
# ratio :候補抽出時の 安全（余裕）率
def solve2(df, cnt=4, ratio=2):

# 各値の大きいものを候補として抽出
    idx = set()
    for sr in [df['v1'], df['v2'], df['v1']*df['v2']]:
        idx |=  set(sr.sort_values(ascending=False).head(cnt*ratio).index.tolist())

df2 = df.loc[list(idx),:]
    return solve1(df2, cnt)

# テストデータ作成
def make_data(N):
    return pd.DataFrame({"name": [f'Name{i+1}' for i in range(N)],
        "v1": np.random.randint(10000,30000, N),
        "v2": np.random.rand(N)})

np.random.seed(110)

df = make_data(100)
print(solve2(df))# (440805.0780829406, ['Name23', 'Name74', 'Name79', 'Name94'])
print(solve1(df))# (440805.0780829406, ['Name23', 'Name74', 'Name79', 'Name94'])

df = make_data(500)
print(solve2(df))# (437755.98156119185, ['Name122', 'Name131', 'Name16', 'Name248'])
#print(solve1(df))
```

列1	列2	列3
かめ	18897	0.6717759
うさぎ	20312	0.43125207
ねこ	17557	0.621294404
ごりら	24416	0.659812699
うぉんばっと	24282	0.31928901
まんとひひ	23890	0.944748929
ねずみ	23768	0.445755777

前提

実現したいこと

発生している問題・エラーメッセージ

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問