DataFrameからSQLで値のみを取得する方法

お世話になっております。

YYYYMMDDでパーティション分割したデータがあります。
これを DataFrame に登録してパーティションの情報をSQLで取得し、
パーティション情報をリストとして後続の処理で利用したいと考えています。

#読み込み
partitioninfo = spark.read.csv(PartitionPath, header=False, encoding='utf-8', sep="\t")

#SQLアクセスのため一時テーブルへ
dfPartitionInfo.registerTempTable("partition_info")

#SQLでリスト抽出
partitionList=sqlContext.sql("select distinct p_ymd from partition_info where p_ymd >= '" + BeforeYmd + "' and p_ymd <= '" + AfterYmd + "'" )

#ループ処理
for Part in partitionList:
    ・・・・・
    ・・・・・

上の方法で定義したデータを show でみると以下のように登録されているのですが、
値のみを取得する方法がわかりません。


>>> partitionList.show()
+--------------+   <-- 不要
|        p_ymd |   <-- 不要
+--------------+   <-- 不要
|20180401000000|   <-- 値のみ必要
|20180402000000|   <-- 値のみ必要
|20180403000000|   <-- 値のみ必要
|20180404000000|   <-- 値のみ必要
|20151001000000|   <-- 値のみ必要
|20160401000000|   <-- 値のみ必要
+--------------+

値だけを取得する方法をご教示いただきたく、お願いいたします。
SQLを使っていますが、要件が満たせるのであればSQLの利用にはこだわっていません。

よろしくお願いいたします。

行動規範の内容に同意します

回答1件

ベストアンサー

Spark触ったことないので憶測回答です。

Dataframeから列を取り出す

特定の列を取り出すには、df.select("userID").map(lambda x: x[0]).collect()で、"userID"列のList(not RDD/Dataframe)が取り出せる

とあるので、以下のようにしてリストに変換することで目的が果たせないでしょうか？

Python
1partList = partitionList.select('p_ymd').map(lambda x: x[0]).collect()
2for part in partList:
3	print(part)

投稿2018/06/26 09:58

can110

総合スコア38268

退会済みユーザー

2018/06/27 00:36 編集

ありがとうございます。 DataFrameは2.x以降mapがなくなっているため、RDDで取得できることを確認しました。 ``` partList = partitionList.select('p_ymd').rdd.map(lambda x: x[0]).collect() >>> print(partList) [20180401000000, 20151001000000, 20160401000000] ```

行動規範の内容に同意します