標題の通り、pyapark Dataframeについて、2つの列の値を比較して新しい列を作成する方法をご教授いただきたいです。
python
1s = """a,b 210,1 39,2 48,3 57,4 66,5 75,6 84,7 93,8 102,9 111,10""" 12df = spark.read.csv(StringIO(s), parse_dates=['entry_time']) 13# 各業に対してdf[a], df[b]のうち大きい方の値を採用し、df[c]としてカラム追加
psandas Dataframeであれば
python
1iimport numpy as np 2 3df['C'] = np.where(df['A']>df['B'], df['A'], df['B']) 4
という形で実現可能かと思いますが、pysparkで同様の操作を行うためのメソッド等御座いますでしょうか?
どうぞよろしくお願いいたします。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。