平均に近いものを探すプログラム

a b c
東京　3 2 6
名古屋 4 5 7
大阪　5 8 9
福岡　 1 9 2

のようなデータが無数に連なるcsvファイルにおいて、平均を計算させ、その値を求める事を行いました。例えば、bの平均が3.75といった具合です。
その求めたbの3.75という平均値を用いて、平均に最も近い場所、遠い場所を出力するプログラムを作成したいです。

python3
1import numpy as np
2import pandas as pd
3import os
4
5# Call fail from os
6# Add "r" to the string to stop the interpretation of special characters
7
8os.chdir(r"C:\Users\-\Desktop")
9df = pd.read_csv("prefecture.csv")
10

上記のコードのようにcsvファイルを読み込むところまでは理解しています。
どうかお力添え頂けませんか。
よろしくおねがいします。

行動規範の内容に同意します

回答2件

各値から平均を引いた値の絶対値を求め、その値をソートした先頭と末尾のインデックスを出力するとよいのではないでしょうか。
（値が重複する場合は想定しておりません）

Python
1closest, farthest = (df['b'] - df['b'].mean()).abs().sort_values().iloc[[0,-1]].index

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.mean.html

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.abs.html

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.sort_values.html

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.iloc.html

投稿2020/04/29 10:17

magichan

総合スコア15898

magichan

2020/04/29 10:17

遅かった・・

退会済みユーザー

2020/04/29 10:47

分かりやすくて初心者の自分には非常にありがたいです。

行動規範の内容に同意します

ベストアンサー

以下の手順でできます。

DataFrame.mean() で列ごとの平均を計算する
(df - df.mean()).abs() で平均との距離を計算する。
idxmin() で平均に最も近いインデックスを取得する
idxmax() で平均から最も遠いインデックスを取得する

python
1from io import StringIO
2
3import pandas as pd
4
5text = StringIO("""a b c
6東京 3 2 6
7名古屋 4 5 7
8大阪 5 8 9
9福岡 1 9 2""")
10
11df = pd.read_csv(text, delim_whitespace=True)
12print(df.mean())
13# a    3.25
14# b    6.00
15# c    6.00
16# dtype: float64
17
18# 平均との差
19diff = (df - df.mean()).abs()
20
21# 平均に最も近いインデックス
22print(diff.idxmin())
23# a     東京
24# b    名古屋
25# c     東京
26# dtype: object
27
28# 平均から最も遠いインデックス
29print(diff.idxmax())
30# a    福岡
31# b    東京
32# c    福岡
33# dtype: object