pythonでのデータ加工について（文字列からカテゴリーを抽出し、カテゴリーごとにまとめる方法について）

neighbor

index	0	1	2	3	4
0	A中学校（中学校）まで445m	Aストア（スーパー）まで500m	A病院（病院）まで350m	Aパーク（公園）まで600m	A小学校（小学校）まで800m
1	B-1ストア（スーパー）まで600m	B-2ストア（スーパー）まで800m	B病院（病院）まで400m	B中学校（中学校）まで655m	Bパーク（公園）まで300m
2	C-1ストア（スーパー）まで300m	C警察署（警察署）まで600m	C-2ストア（スーパー）まで900m	C病院（病院）まで600m	C中学校（中学校）まで445m

のようなデータがあります。
これを

category_data

スーパー	公園	小学校	中学校	警察署	病院
500	600	800	445	NaN	350
600	300	NaN	655	NaN	400
300	NaN	NaN	445	600	600

のようなカテゴリーに分けて距離(m)を整理したいです。カテゴリーがダブっている場合は最小値を採用します。
大きな流れとして、各カテゴリーごとに最小値をもとめcategory_dataに代入していきたいと思い、まずスーパーの値を求めるために各列がスーパーに該当するか？もし該当する場合は距離を返すように以下のコードを実行しました

for i in range(5):
    neighbor[i + 6] = neighbor[i].str.split(pat='まで',expand=True)[1].where(neighbor[i].str.contains('スーパー') == True)

ここから最小値を出すところで止まってしまいました。

neighbor['Super'] = neighbor.iloc[:,6:11].min(axis=1)

を実行すると、すべてNaNになってしまいます。

他にいい方法がないかご教授していただきたいです。よろしくお願いいたします。

行動規範の内容に同意します

回答2件

ベストアンサー

python
1import pandas as pd
2import io
3
4pd.set_option('display.unicode.east_asian_width', True)
5
6csv_data = '''
7index,0,1,2,3,4
80,A中学校（中学校）まで445m,Aストア（スーパー）まで500m,A病院（病院）まで350m,Aパーク（公園）まで600m,A小学校（小学校）まで800m
91,B-1ストア（スーパー）まで600m,B-2ストア（スーパー）まで800m,B病院（病院）まで400m,B中学校（中学校）まで655m,Bパーク（公園）まで300m
102,C-1ストア（スーパー）まで300m,C警察署（警察署）まで600m,C-2ストア（スーパー）まで900m,C病院（病院）まで600m,C中学校（中学校）まで445m
11'''
12df = pd.read_csv(io.StringIO(csv_data))
13
14#
15cols = ['スーパー', '公園', '小学校', '中学校', '警察署', '病院']
16category= (
17  df.set_index('index')
18    .apply(lambda x:
19      x.str.extract(r'（(?P<category>.+)）.*?(?P<distance>\d+)m$', expand=True)
20       .pivot_table(columns='category', values='distance', aggfunc='min')
21       .stack(), axis=1)
22    .droplevel(level=0, axis=1)[cols].reset_index().rename_axis(None, axis=1))
23
24print(category.to_markdown(index=False))

index	スーパー	公園	小学校	中学校	警察署	病院
0	500	600	800	445	nan	350
1	600	300	nan	655	nan	400
2	300	nan	nan	445	600	600

投稿2022/03/09 14:47

編集2022/03/09 15:55

melian

総合スコア19747

Misa

2022/03/10 01:56

ありがとうございます！こちらでやってみたいと思います

行動規範の内容に同意します

pandas の話ですね。前提条件は落とさずに書いた方がよいです。

切り出したデータが '500m' のように文字列のままになっているので、数値が必要なところですべて NaN になります。

下記のように、切り出した文字列の末尾の 'm' を取り除いてから、数値に変換してみてください。

for i in range(5):
    neighbor[i + 6] = neighbor[i].str.split(pat='まで',expand=True)[1].str.strip('m').astype(float).where(neighbor[i].str.contains('スーパー') == True)

投稿2022/03/09 08:29