python csvファイルの集計

前提・実現したいこと

お世話になります。
プログラミングの学習を始めて2週間の初心者です。
何をお伝えすればよいかまだ分からないため、必要な情報が不足していたら申し訳ありません。

pythonにてCSVファイルのデータを集計するプログラムを作成しております。

1.対象のCSVファイルの対象の列から全行の数値(正、負、0)を読み取り、
2.その数値を絶対値にして
3.閾値(30)以上のデータだけを抽出し
4.平均化して
5.1~4を繰り返して列を結合させ、
6.1つのCSVファイルに複数の列の平均値を出力するというプログラムを作成しています。

大変見苦しいプログラムかと思いますが、お力添えいただけると幸いです。

発生している問題・エラーメッセージ

平均化したデータの一部が-2147483648となります。
本来ならば1000にも満たない数字です。
うまく平均化することができる列もありますが、
いくつかのデータは-214783648となります。

該当のソースコード

python
1import pandas as pd
2import glob
3from datetime import datetime as dt
4from datetime import timedelta
5
6c_list = ['列名1','列名2','列名3','列名4','列名5','列名6']
7
8df_0 = pd.DataFrame()
9for i in range(0,6):
10    target = c_list[i]
11    df = pd.read_csv('入力するファイル.csv',encoding= 'shift-jis')
12    df = df[target].abs()
13    df = df.fillna(0)
14    df = df[df>=30]
15    df = df.describe()['mean'].round(0)
16    df = df.astype('int')
17    print(target + '平均' + str(df))
18    df_1 = pd.DataFrame([[int(df)]],columns=[target],index=[date])
19    df_0 = pd.concat([df_0,df_1],axis=1)
20    i += 1
21df_0.to_csv('出力するファイル.csv'.,encoding= 'shift-jis')
22

試したこと

df = df[df>=30]
の行を抜くと-2147483648は出なくなりましたが、
閾値未満の数字は無視する必要があります。

よろしくお願いいたします。

補足情報（FW/ツールのバージョンなど）

python 3.9.1

cleaner

2021/02/15 09:00

閾値以上かどうかは普通はif文を使うのではないでしょうか？パイソンはそういう書き方でもいいのでしょうか？

rererenji

2021/02/15 09:34

お世話になります。ご回答いただきありがとうございます。私がpython以外のコンピュータ言語を知らないため他との比較ができないのですが、 ifは一つのデータを比較するようなイメージでした。回答者様がおっしゃるようにifを用いて閾値以上のデータ抽出も可能かと思いますが、私にはその術がまだ具体的に思い浮かびませんでした。

cleaner

2021/02/15 09:43

分かりました。既に回答がついているのを見ると文法的には正しそうですね。おそらく問題なのは閾値の処理をしたときに、閾値未満の値がどんな数値になっているかだと思います。 ppaulさんの回答はそれを解消しているようです。

rererenji

2021/02/15 10:32

ご回答いただきありがとうございます。おっしゃる通り、閾値未満のデータの処理ができていないかったようです。

行動規範の内容に同意します

回答1件

ベストアンサー

バグを修正しました。

行のすべてのデータが30未満であれば、nanを整数にして、-214783648になります。
~~テストはしていませんが、だいたいこんな感じです。~~

python
1import pandas as pd
2import numpy as np
3
4c_list = ['列名1','列名2','列名3','列名4','列名5','列名6']
5df_all = pd.read_csv('入力するファイル.csv',encoding= 'shift-jis')
6
7df_0 = pd.DataFrame()
8for i in range(0,6):
9    target = c_list[i]
10    df = df_all[target].abs()
11    df = df.fillna(0)
12    df = df[df>=30]
13    if df.shape[0] == 0:
14        df = pd.Series([0], name=target, dtype='int64')
15    df = df.describe()['mean'].round(0)
16    df = df.astype('int')
17    print(target + '平均' + str(df))
18    df_1 = pd.DataFrame([[int(df)]],columns=[target])
19    df_0 = pd.concat([df_0,df_1],axis=1)
20df_0.to_csv('出力するファイル.csv'.,encoding= 'shift-jis')

i += 1は不要なので消してあります。
ファイルの読み込みは一回で良いのでループの外に出しました。

実行テストは以下です。

python
1>>> import pandas as pd
2>>> import io
3>>>
4>>> indata = '''列名1 列名2 列名3 列名4 列名5 列名6
5... 10 60 30 100 300 54
6... 20 70 20 200 40 50'''
7>>>
8>>> with io.StringIO(indata) as f:
9...     df_all = pd.read_csv(f, sep=' +', engine='python')
10...
11>>> print(df_all)
12   列名1  列名2  列名3  列名4  列名5  列名6
130   10   60   30  100  300   54
141   20   70   20  200   40   50
15>>>
16>>> c_list = ['列名1','列名2','列名3','列名4','列名5','列名6']
17>>> #df_all = pd.read_csv('入力するファイル.csv',encoding= 'shift-jis')
18>>>
19>>> df_0 = pd.DataFrame()
20>>> for i in range(0,6):
21...     target = c_list[i]
22...     df = df_all[target].abs()
23...     df = df.fillna(0)
24...     df = df[df>=30]
25...     if df.shape[0] == 0:
26...         df = pd.Series([0], name=target, dtype='int64')
27...     df = df.describe()['mean'].round(0)
28...     df = df.astype('int')
29...     print(target + '平均' + str(df))
30...     df_1 = pd.DataFrame([[int(df)]],columns=[target])
31...     df_0 = pd.concat([df_0,df_1],axis=1)
32...
33列名1平均0
34列名2平均65
35列名3平均30
36列名4平均150
37列名5平均170
38列名6平均52
39>>> #    i += 1
40>>> #df_0.to_csv('出力するファイル.csv'.,encoding= 'shift-jis')
41>>> print(df_0)
42   列名1  列名2  列名3  列名4  列名5  列名6
430    0   65   30  150  170   52