考えていること

座標のデータx,yを座標の面積を表すデータx1,y1,x2,y2,x3,y3,x4,y4と突合し、フラグを立てたいです。

df =
x y
440 495
440 462
451 507
449 507
443 506

df_area =
x1,y1,x2,y2,x3,y3,x4,y4,area
556 250 2371 250 2371 672 556 672 a
551 261 555 675 563 680 577 711 b
511 257 2322 256 2322 680 511 680 c
543 86 2311 86 2311 515 543 515 d

dfnew
x y area
440 495 該当するエリア
440 462 該当するエリア
451 507 該当するエリア
449 507 該当するエリア
443 506 該当するエリア

困っていること

該当するエリアが複数対応するときに、x,yの組み合わせ（レコード自体）を増やしてダブルカウントにしたいのですが、
その部分ができず困っています。

お知恵を拝借できましたら幸いです。
何卒よろしくお願い申し上げます。

行動規範の内容に同意します

回答1件

ベストアンサー

方法としては、

1. df の各行を引数に受け取り、突合判定の結果Trueとなったareaを Series型で返す関数を

Python
1def check(row):
2    x = row['x']
3    y = row['y']
4    # ここで、df_area と判定を行い 下記のように対応する``area``をSeries型で返す
5    return pd.Series(['a', 'b'])

のように実装する

2. この関数を df.apply() で呼び、その結果を stack()する

3. 上記の結果を元のdfと結合する

で望んだ結果が得られるかと思います。

以下サンプル

import pandas as pd
import io
import numpy as np

df = pd.read_csv(io.StringIO("""
x,y
440,495
440,462
451,507
449,507
443,506
"""))

# このサンプルでは使っていないが一応・・
df_area = pd.read_csv(io.StringIO("""
x1,y1,x2,y2,x3,y3,x4,y4,area
556,250,2371,250,2371,672,556,672,a
551,261,555,675,563,680,577,711,b
511,257,2322,256,2322,680,511,680,c
543,86,2311,86,2311,515,543,515,d
"""))


# df_area の各エリアとの突合判定を行う関数
def check(data):
    ### サンプルとしては、ランダムでareaを返す ###
    # 対応するareaの数（ランダムで１～２個）
    n = np.random.randint(1,3)
    # ランダムで``area``のSeriesを返す（重複がある可能性があるがサンプルなので無視）
    return pd.Series(np.random.choice(['a','b','c','d','e','f'],n))


# 判定結果をstack()する
ret = df.apply(check, axis=1).stack().reset_index(level=1, drop=True).rename('area')
# 元のDataFrameと結合
ret = df.join(ret)
print(ret)
#     x    y area
#0  440  495    d
#1  440  462    a
#2  451  507    b
#2  451  507    a
#3  449  507    f
#4  443  506    a
#4  443  506    d

投稿2019/09/18 03:21