Pythonで粒子の解析

Question

Python初心者です。

100×100×500cmの箱があり、そこに以下のような座標を持つ10種類の粒子(ABCDE...)あったとします。

    X     Y     Z
A  30.4  40.0  430.3
B  20.8  60.4  320.4
H  50.5  30.9  330.3 
D　10.2  50.0  100.2
G  90.6  40.4  480.9
I　　　　・
H　　　　・ 　      　
C　　　　・      　

行数は2万行ほどあり、表示される粒子の順番はランダムです。
上記のような座標を1セットとして、座標の違うものが10000セットほどあります。

そこでPythonを用いて、Z軸が0~5,10~15,15~20cmのように0から50まで5cm刻みに距離をとったときその範囲に存在する粒子Aの数やBの数を数えるためにはどのようなプログラムを書けばいいのでしょうか？

最終的に10000セット分数えて、それらを平均した値を算出したいです。

まったくわからず困っています。

なにかアドバイスを頂けたら嬉しいです。
よろしくお願いします。

Accepted Answer

試しに下記コードを書いてみました。

```python
import csv
import math
import collections

TI = 0 # 粒子の種類のインデックス（左から０番目）
ZI = 3 # Z軸座標のインデックス（左から３番目）
ZMAX = 500 #cm
ZSPLITWIDTH = 5 #cm

# tsvファイルを開く
tsvFile = open('data.tsv', 'r')
tsv = csv.reader(tsvFile, delimiter = '	')

# カウンタ変数の配列数を計算
n = int(ZMAX / ZSPLITWIDTH)
# n個の辞書を初回アクセス時に0で初期化されるようにする
particle_counter = [collections.defaultdict(int) for i in range(n)] 

# 粒子数を数える
for data in tsv:
	index = math.floor(float(data[ZI]) / ZSPLITWIDTH)
	particle_counter[index][data[TI]] = particle_counter[index][data[TI]] + 1

# 標準出力
for i in range(n):
	min = str(i * ZSPLITWIDTH)
	max = str((i + 1) * ZSPLITWIDTH)
	print("[" + min + "〜" + max + "]: " + str(dict(particle_counter[i])))
```

Answer

この手の処理を行うのでしたら、``pandas`` をお勧めしておきます。

処理の仕方は以下のような感じ。
複雑なコードに見えるかもしれませんが、実際処理しているのは
データを分割している箇所とPivotテーブル作成の２行のみとシンプルに記述できます。

あと、データ生成部は、実際のコードでは``df = pd.read_csv(...)``に置き換わります。


```Python
import pandas as pd
import numpy as np

# ダミーデータ生成
N = 10000
df = pd.DataFrame({
    'Type': np.random.choice(('A','B','C','D','E','F','G','H','I','J'), N),
    'X': np.random.uniform(0., 100., N),
    'Y': np.random.uniform(0., 100., N),
    'Z': np.random.uniform(0., 500., N)
})

# 先頭を表示
print(df.head())
#   Type          X          Y           Z
# 0    I   7.451914  88.958929  141.680257
# 1    F  15.252552  77.376957  366.378657
# 2    H  49.445101  88.428184   23.725902
# 3    A   7.169748   0.063047  451.124719
# 4    J  33.558887  97.523463   97.186348

# Z を 0～50 の範囲で　5 刻みで分割
df['Range'] = pd.cut(x=df['Z'], bins=np.arange(0,55,5))
# カウントデータを縦軸を範囲、横軸をTypeとしてpovotテーブルで表示
result = pd.pivot_table(df, columns='Type', index='Range', values='Z', aggfunc='count')
print(result)
# Type       A   B   C   D   E   F   G   H   I   J
# Range
# (0, 5]    16  13   6   7   6   7   8   5   9   9
# (5, 10]    6  12   8  14  12  11   9  13   8   7
# (10, 15]  12  10   8  10  12   8   7  12  11  11
# (15, 20]  12  18  14   6   7  11   7  10   9  15
# (20, 25]  15  11   9  12   7  11   6  12   6  14
# (25, 30]   7  10   4  14   7   5  12  12   9  14
# (30, 35]  15  15   8   5   8   9  11   4  10  12
# (35, 40]   7  13  15   9   9   9   6  12  11  10
# (40, 45]  11   6  14   3  11  10   6  11  11   9
# (45, 50]  15  18   9  11  12  15   8  10   9  15
```

関連した質問