質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.49%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Spark

Spark(Apache Spark)とは、膨大なデータを迅速、柔軟に分散並行処理を行うフレームワークです。分析ツールであるApache Hadoopと比較し、最大で100倍の速度でデータ処理ができるとされています。

Q&A

解決済

1回答

4058閲覧

PySparkで列の取得と加工と追加

utoka

総合スコア56

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Spark

Spark(Apache Spark)とは、膨大なデータを迅速、柔軟に分散並行処理を行うフレームワークです。分析ツールであるApache Hadoopと比較し、最大で100倍の速度でデータ処理ができるとされています。

0グッド

0クリップ

投稿2017/06/24 11:19

編集2017/06/24 11:32

PySparkで以下のような処理をできたらと思っています.
【処理内容】
タイムスタンプの列から文字列をとってきて,新しい列(dayとtime)に追加したいと考えています.
pythonとsparkがともに初心者のため,是非お教えいただければ幸甚です.

python

1//#import liblaries 2import pandas as pd 3import numpy as np 4 5month_f = 4 6month_l = 8 7time_f = 8 8time_l = 12 9//#大元のDataframe 10df = pd.DataFrame({ 'Number' : [1, 2, 3, 4, 5, 6, 7], 11 'TimeStamp' : ["20161206185800", "20161206185800", "20161206185800", "20161207185800", "20161208185800","20161208185800","20161209185800"]}) 12//#TimeStamp行を取ってくる 13tsArray = np.array(df.TimeStamp) 14 15//#dayとtimeに分ける 16dayArray = [] 17timeArray = [] 18for i in tsArray: 19 dayArray.append(i[month_f:month_l]) 20 timeArray.append(i[time_f:time_l]) 21//#大元に追加 22df["day"] = dayArray 23df["time"] = timeArray

列追加後のDataframe

よろしくお願いいたします.

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

sc.textFile('hoge.tsv').\ map(lambda x: x.split('\t')).\ map(lambda x: list(x) + [x[1][4:8], x[1][8:12]])

とかでいいんじゃないでしょうか。

sc.textFile('hoge.tsv')の部分はtsvを前提にしてますが、あなたの環境でRDDを生成する処理に置きかえてもらえればいいでしょう。

あるいはお望みなのはこんな雰囲気のサンプルですか?

>>> data = sc.parallelize( zip([1, 2, 3, 4, 5, 6, 7], ["20161206185800", "20161206185800", "20161206185800", "20161207185800", "20161208185800","20161208185800","20161209185800"])) >>> plus_day_time = data.map(lambda x: list(x) + [x[1][4:8], x[1][8:12]]) >>> plus_day_time.collect() [[1, '20161206185800', '1206', '1858'], [2, '20161206185800', '1206', '1858'], [3, '20161206185800', '1206', '1858'], [4, '20161207185800', '1207', '1858'], [5, '20161208185800', '1208', '1858'], [6, '20161208185800', '1208', '1858'], [7, '20161209185800', '1209', '1858']]

投稿2017/07/01 13:28

quickquip

総合スコア11038

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

utoka

2017/07/01 23:19

お教えいただきありがとうございます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.49%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問