🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中!

\teratail特別グッズやAmazonギフトカード最大2,000円分が当たる!/

詳細はこちら
NumPy

NumPyはPythonのプログラミング言語の科学的と数学的なコンピューティングに関する拡張モジュールです。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

1回答

919閲覧

座標のデータx,yを座標の面積を表すデータx1,y1,x2,y2,x3,y3,x4,y4と突合し、カウントしたい

mi2

総合スコア63

NumPy

NumPyはPythonのプログラミング言語の科学的と数学的なコンピューティングに関する拡張モジュールです。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2019/09/18 02:09

考えていること

座標のデータx,yを座標の面積を表すデータx1,y1,x2,y2,x3,y3,x4,y4と突合し、フラグを立てたいです。

df =
x y
440 495
440 462
451 507
449 507
443 506

df_area =
x1,y1,x2,y2,x3,y3,x4,y4,area
556 250 2371 250 2371 672 556 672 a
551 261 555 675 563 680 577 711 b
511 257 2322 256 2322 680 511 680 c
543 86 2311 86 2311 515 543 515 d

dfnew
x y area
440 495 該当するエリア
440 462 該当するエリア
451 507 該当するエリア
449 507 該当するエリア
443 506 該当するエリア

困っていること

該当するエリアが複数対応するときに、x,yの組み合わせ(レコード自体)を増やしてダブルカウントにしたいのですが、
その部分ができず困っています。

お知恵を拝借できましたら幸いです。
何卒よろしくお願い申し上げます。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

方法としては、

1. df の各行を引数に受け取り、突合判定の結果TrueとなったareaSeries型で返す関数を

Python

1def check(row): 2 x = row['x'] 3 y = row['y'] 4 # ここで、df_area と判定を行い 下記のように対応する``area``をSeries型で返す 5 return pd.Series(['a', 'b'])

のように実装する

2. この関数を df.apply() で呼び、その結果を stack()する

3. 上記の結果を元のdfと結合する

で望んだ結果が得られるかと思います。

以下サンプル

import pandas as pd import io import numpy as np df = pd.read_csv(io.StringIO(""" x,y 440,495 440,462 451,507 449,507 443,506 """)) # このサンプルでは使っていないが一応・・ df_area = pd.read_csv(io.StringIO(""" x1,y1,x2,y2,x3,y3,x4,y4,area 556,250,2371,250,2371,672,556,672,a 551,261,555,675,563,680,577,711,b 511,257,2322,256,2322,680,511,680,c 543,86,2311,86,2311,515,543,515,d """)) # df_area の各エリアとの突合判定を行う関数 def check(data): ### サンプルとしては、ランダムでareaを返す ### # 対応するareaの数(ランダムで1~2個) n = np.random.randint(1,3) # ランダムで``area``のSeriesを返す(重複がある可能性があるがサンプルなので無視) return pd.Series(np.random.choice(['a','b','c','d','e','f'],n)) # 判定結果をstack()する ret = df.apply(check, axis=1).stack().reset_index(level=1, drop=True).rename('area') # 元のDataFrameと結合 ret = df.join(ret) print(ret) # x y area #0 440 495 d #1 440 462 a #2 451 507 b #2 451 507 a #3 449 507 f #4 443 506 a #4 443 506 d

投稿2019/09/18 03:21

magichan

総合スコア15898

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

mi2

2019/09/26 01:49

ありがとうございます。わかりやすかったです。
mi2

2019/10/08 10:09 編集

ありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問