お世話になっております。
YYYYMMDDでパーティション分割したデータがあります。
これを DataFrame に登録してパーティションの情報をSQLで取得し、
パーティション情報をリストとして後続の処理で利用したいと考えています。
#読み込み partitioninfo = spark.read.csv(PartitionPath, header=False, encoding='utf-8', sep="\t") #SQLアクセスのため一時テーブルへ dfPartitionInfo.registerTempTable("partition_info") #SQLでリスト抽出 partitionList=sqlContext.sql("select distinct p_ymd from partition_info where p_ymd >= '" + BeforeYmd + "' and p_ymd <= '" + AfterYmd + "'" ) #ループ処理 for Part in partitionList: ・・・・・ ・・・・・
上の方法で定義したデータを show でみると以下のように登録されているのですが、
値のみを取得する方法がわかりません。
>>> partitionList.show() +--------------+ <-- 不要 | p_ymd | <-- 不要 +--------------+ <-- 不要 |20180401000000| <-- 値のみ必要 |20180402000000| <-- 値のみ必要 |20180403000000| <-- 値のみ必要 |20180404000000| <-- 値のみ必要 |20151001000000| <-- 値のみ必要 |20160401000000| <-- 値のみ必要 +--------------+
値だけを取得する方法をご教示いただきたく、お願いいたします。
SQLを使っていますが、要件が満たせるのであればSQLの利用にはこだわっていません。
よろしくお願いいたします。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
退会済みユーザー
2018/06/27 00:36 編集