常連

##  Aws Glueローカル開発環境の構築内容

[参考リンク](https://docs.aws.amazon.com/ja_jp/glue/latest/dg/aws-glue-programming-etl-libraries.html)

▪️image
aws-glue-libs:glue_libs_3.0.0_image_01 

▪️開発環境
mac ノート
vscode を使いたい

▪️vscode の変更箇所
Dec Containers の拡張機能追加
これに伴う json ファイルの修正


```docker
docker run -e AWS_ACCESS_KEY_ID="⚫️⚫️⚫️⚫️⚫️⚫️⚫️⚫️⚫️⚫️" \
		-e AWS_SECRET_ACCESS_KEY="⚫️⚫️⚫️⚫️⚫️⚫️⚫️⚫️⚫️⚫️" \
		-e AWS_DEFAULT_REGION="ap-northeast-1" \
		-itd -v ~/.aws:/home/glue_user/.aws -v $WORKSPACE_LOCATION:/home/glue_user/workspace/  \
		-e AWS_PROFILE=$PROFILE_NAME \
		-e DISABLE_SSL=true --rm -p 4040:4040 -p 18080:18080 --name glue_pyspark \
		amazon/aws-glue-libs:glue_libs_3.0.0_image_01 pyspark
```

```spark
import sys
from pyspark.context import SparkContext, SparkConf  ←修正
from awsglue.context import GlueContext
from awsglue.job import Job
from awsglue.utils import getResolvedOptions


class GluePythonSampleTest:
    def __init__(self):
        params = []
        if '--JOB_NAME' in sys.argv:
            params.append('JOB_NAME')
        args = getResolvedOptions(sys.argv, params)

        # args = {}
        # args["format_options"]     = {"quoteChar":"\"","escaper":"","withHeader":True,"separator":","}
        # args["connection_type"]    = "s3"
        # args["format"]             = "csv"
        # args["connection_options"] = {"paths": ["s3://★★★★/★★★★/input/"], "recurse":True}
        # args["transformation_ctx"] = "DataSource0"


        conf = SparkConf().set("spark.ui.port","4041")　←修正
        sc = SparkContext.getOrCreate(conf=conf)　←修正
        self.context = GlueContext(sc)　←修正
        # self.context = GlueContext(SparkContext.getOrCreate())

        self.job = Job(self.context)

        if 'JOB_NAME' in args:
            jobname = args['JOB_NAME']
        else:
            jobname = "test"
        self.job.init(jobname, args)

    def run(self):
        dyf = read_json(self.context, "s3://★★★★/★★★★/order_data_1/sample1.csv")
        dyf.printSchema()

        self.job.commit()


def read_json(glue_context, path):
    dynamicframe = glue_context.create_dynamic_frame.from_options(
        connection_type='s3',
        connection_options={
            'paths': [path],
            'recurse': True
        },
        format='csv'
    )
    return dynamicframe


if __name__ == '__main__':
    GluePythonSampleTest().run()

```


## エラーが解決できません
最初は、下記エラーた出たのでSparkConf を修正
**Service 'SparkUI' could not bind on port 4040. Attempting port 4041**
	
このエラーは出なくなりました
　⇨上の spark 修正
〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜
その後
下記エラーが出ましたが、解決できません
**SLF4J: Class path contains multiple SLF4J bindings**

解決方法もある様ですが、image を使っているので
修正方法がわかりません　[参考ページ](https://ja.getdocs.org/slf4j-classpath-multiple-bindings)　｡ﾟ(Ｔ^Ｔ)ﾟ｡ﾟ
〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜

このエラーの解決方法でなくても問題ございません
**aws glue のjob を動かすローカル開発環境の構築方法を
ご教授いただけますでしょうか？**

よろしくお願いいたします　v(｡-_-｡)v

**★vscode変更**
![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2023-06-26/45e3cbd2-44e2-4e0d-a0f1-fc3ed8d44ea0.jpeg)

**★動作確認**
![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2023-06-26/831d8569-531d-457b-9086-9926297c9845.jpeg)

**★エラー**
![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2023-06-26/2fe7a213-06a4-44bd-898e-bf731d061121.jpeg)










AWS Glue の開発環境をローカルで構築できません。vscode

Timestamp_date:2021-04-01T16:55:11のようなTimestampフォーマット
String_date: 20210405のような文字列のフォーマット
というカラムを持ったpyspark sdfに対して、日にちの差を取得したいです。

```ここに言語を入力
sdf= sdf.withColumn("DATEDIFF_Timestamp-String", F.datediff(F.col('Timestamp_date'), F.col('String_date').cast(TimestampType())))
```

で実行すると計算結果がnullになっていました。
どのようにしたらdatimeとstringの日時の演算をpysparkで行えるでしょうか？

pysparkでdatime日時とstring日時の差分

Pysparkライブラリの中にある、coalesce()の挙動が理解できません。
下記に画像で、例を示します。

![イメージ説明](2c3fa62a165d20eb5c84e67d87e8cd98.jpeg)


両方とも同じ挙動なのですが、ここで、coalesce(1)を使う理由は、何か考えられますでしょうか？

Pyspark、.coalesce()メソッドの効果は？

いつもお世話になっております。
標題の通り、pyspark datadrameにて特定の列の重複する要素数をカウントする方法をご教授いただきたく質問を起票させて頂きました。
以下のようなidと配列を要素として各業に持つdataframeに対して、id+arrayの組み合わせで要素数をカウントする方法が知りたいです。
```python
|id|array|
|1|[1,2]|
|1|[1,2,3]|
|1|[1,2]|
|2|[1,2]|
|2|[1,2,4]|
|2|[1,2,4]|
|3|[1,3]|
|3|[1,3]|
|3|[1,3]|
```
これに対して以下の様な結果を得たいと考えております。
```python
|id|array|count|
|1|[1,2]|2|
|1|[1,2,3]|1|
|2|[1,2]|1|
|2|[1,2,4]|2|
|3|[1,3]|3|
```
id+arrayの組み合わせの数を新たにcount列として得たいのですが、distinct()+count()ですと単純にユニークな要素数を取得してしまい、意図した結果が得られず困っております。
どうぞご教授の程よろしくお願いいたします。

Pyspark Dataframeにて、重複する要素数をカウントする方法

### 実現したいこと
AWS Step Functions でGlue Job を複数並列で動かしたいですが
エラーが出ており、その原因がわかりません

どなた様か、何かアドバイス頂けますでしょうか？
ご確認いただければ幸いです

### 前提
Step Functionsではマシンステートが完了していますが
Glue Jobのログを見ると、エラーが出ています

３つのGlue Jobを動かしていますが
どのエラーも『⚫️⚫️⚫️のカラムがない』となっていますが、存在しています

スクリプト内でprint() している箇所を見ると
確かにカラムが存在しません。スキーマが読み込めていないです

Glue Jobを単体で動かしたり
Step Functionsでエラーが出ているGlue Jobを1つだけ実行すると完了します

〜〜〜〜〜〜〜〜〜〜〜〜〜〜【確認画像１】〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜
![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2023-10-11/c324e5e7-ff73-4c29-a13a-253f9e232185.jpeg)

〜〜〜〜〜〜〜〜〜〜〜〜〜〜【確認画像２】〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜

![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2023-10-11/1213ca9b-f21f-49f8-a812-14f4f3a6a632.jpeg)

〜〜〜〜〜〜〜〜〜〜〜〜〜〜【確認画像３】〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜
![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2023-10-11/e26695bf-2005-4503-abdf-dacec56dfa7c.jpeg)


### 発生している問題・エラーメッセージ

```
AnalysisException: Column '-------id' does not exist. Did you mean one of the following? [];. Note: This run was executed with Flex execution. Check the logs if run failed due to executor termination.
```

### 該当のソースコード

```ここに言語名を入力
ソースコード
```

### 試したこと

Did you mean one of the following?　で検索したり
Glue Job の並列実行での注意点
などで検索しましたが、似た様な事例や解決方法が見つかっておりません

bookmark が怪しかと思い、有効・無効で動かしてみましたが
ここではなさそうでした

![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2023-10-11/4cc8dfa8-7945-4f83-a74b-c5d018966ad7.jpeg)

### 補足情報（FW/ツールのバージョンなど）

SparkのGlue Job で バージョンは 4.0 です。PySparkで記述しています


AWS Glue Job をStep Functionsで並列に実行するとエラーになり原因がわかりません

### 実現したいこと

InteliJでSparkの環境構築がしたい

### 前提
ビルドシステム:sbt
JDK:OpenJDK 17.0.6
Scala:2.3.10
ApacheSpark:3.3.2

■■な機能を実装中に以下のエラーメッセージが発生しました。
### 発生している問題・エラーメッセージ

```
ターゲット VM に接続しました。アドレス : '127.0.0.1:51070'、トランスポート: 'ソケット'
Using Spark's default log4j profile: org/apache/spark/log4j2-defaults.properties
23/02/20 22:47:13 WARN Utils: Your hostname, hasegawayoshionoMacBook-Air.local resolves to a loopback address: 127.0.0.1; using 192.168.0.3 instead (on interface en0)
23/02/20 22:47:13 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
23/02/20 22:47:13 INFO SparkContext: Running Spark version 3.3.2
23/02/20 22:47:13 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
23/02/20 22:47:13 INFO ResourceUtils: ==============================================================
23/02/20 22:47:13 INFO ResourceUtils: No custom resources configured for spark.driver.
23/02/20 22:47:13 INFO ResourceUtils: ==============================================================
23/02/20 22:47:13 INFO SparkContext: Submitted application: 31c2c321-8c36-4df0-a1fa-979035f786da
23/02/20 22:47:13 INFO ResourceProfile: Default ResourceProfile created, executor resources: Map(cores -> name: cores, amount: 1, script: , vendor: , memory -> name: memory, amount: 1024, script: , vendor: , offHeap -> name: offHeap, amount: 0, script: , vendor: ), task resources: Map(cpus -> name: cpus, amount: 1.0)
23/02/20 22:47:13 INFO ResourceProfile: Limiting resource is cpu
23/02/20 22:47:13 INFO ResourceProfileManager: Added ResourceProfile id: 0
23/02/20 22:47:13 INFO SecurityManager: Changing view acls to: hasegawayoshio
23/02/20 22:47:13 INFO SecurityManager: Changing modify acls to: hasegawayoshio
23/02/20 22:47:13 INFO SecurityManager: Changing view acls groups to: 
23/02/20 22:47:13 INFO SecurityManager: Changing modify acls groups to: 
23/02/20 22:47:13 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users  with view permissions: Set(hasegawayoshio); groups with view permissions: Set(); users  with modify permissions: Set(hasegawayoshio); groups with modify permissions: Set()
23/02/20 22:47:13 INFO Utils: Successfully started service 'sparkDriver' on port 51073.
23/02/20 22:47:13 INFO SparkEnv: Registering MapOutputTracker
23/02/20 22:47:13 INFO SparkEnv: Registering BlockManagerMaster
23/02/20 22:47:13 INFO BlockManagerMasterEndpoint: Using org.apache.spark.storage.DefaultTopologyMapper for getting topology information
23/02/20 22:47:13 INFO BlockManagerMasterEndpoint: BlockManagerMasterEndpoint up
Exception in thread "main" java.lang.IllegalAccessError: class org.apache.spark.storage.StorageUtils$ (in unnamed module @0x791f145a) cannot access class sun.nio.ch.DirectBuffer (in module java.base) because module java.base does not export sun.nio.ch to unnamed module @0x791f145a
	at org.apache.spark.storage.StorageUtils$.<clinit>(StorageUtils.scala:213)
	at org.apache.spark.storage.BlockManagerMasterEndpoint.<init>(BlockManagerMasterEndpoint.scala:114)
	at org.apache.spark.SparkEnv$.$anonfun$create$9(SparkEnv.scala:353)
	at org.apache.spark.SparkEnv$.registerOrLookupEndpoint$1(SparkEnv.scala:290)
	at org.apache.spark.SparkEnv$.create(SparkEnv.scala:339)
	at org.apache.spark.SparkEnv$.createDriverEnv(SparkEnv.scala:194)
	at org.apache.spark.SparkContext.createSparkEnv(SparkContext.scala:279)
	at org.apache.spark.SparkContext.<init>(SparkContext.scala:464)
	at org.apache.spark.SparkContext$.getOrCreate(SparkContext.scala:2714)
	at org.apache.spark.sql.SparkSession$Builder.$anonfun$getOrCreate$2(SparkSession.scala:953)
	at scala.Option.getOrElse(Option.scala:201)
	at org.apache.spark.sql.SparkSession$Builder.getOrCreate(SparkSession.scala:947)
	at spark$.<clinit>(spark.scala:5)
	at spark.main(spark.scala)
ターゲット VM から切断されました。アドレス: '127.0.0.1:51070'、トランスポート: 'ソケット'

```


### 該当のソースコード

```build.sbt
ThisBuild / version := "0.1.0-SNAPSHOT"

ThisBuild / scalaVersion := "2.13.10"

lazy val root = (project in file("."))
  .settings(
    name := "spark"
  )
libraryDependencies += "org.apache.spark" %% "spark-sql" % "3.3.2"
libraryDependencies += "org.apache.spark" %% "spark-core" % "3.3.2"
```

```scala
import org.apache.spark.sql.{DataFrame, SparkSession}

object spark {

  val sc: SparkSession = SparkSession.builder.master(master = "local[2]").getOrCreate()
  def main(args: Array[String]): Unit = {
    val df = sc.read.csv(path = "data.csv")
    df.show()
  }
}
```
### 試したこと

下記YouTubeを参考に実施
https://www.youtube.com/watch?v=ugFBalvTEcE


Sparkの環境をInteliJで構築したがエラー発生

標題の通り、pyapark Dataframeについて、２つの列の値を比較して新しい列を作成する方法をご教授いただきたいです。

```python
s = """a,b
10,1
9,2 
8,3
7,4
6,5
5,6
4,7
3,8
2,9
1,10"""
df = spark.read.csv(StringIO(s), parse_dates=['entry_time'])
＃　各業に対してdf[a], df[b]のうち大きい方の値を採用し、df[c]としてカラム追加
```

psandas Dataframeであれば
```python
iimport numpy as np

df['C'] = np.where(df['A']>df['B'], df['A'], df['B'])

```

という形で実現可能かと思いますが、pysparkで同様の操作を行うためのメソッド等御座いますでしょうか？
どうぞよろしくお願いいたします。

pysparkで、各レコードが保持する２つの値に対して大きい方の値を取得して新規カラムとして保持する方法

## テーマ、知りたいこと
Spark java について学習をしたいと考えているのですが、調べても情報があまり集まっておりません。
そこで、おすすめの学習本やサイトなどがあれば教えていただきたいです。
また、Spark java　を調べると　Apache Spark　のサイトが出てしまいます。そういった中でうまく情報を精査する方法などあれば教えていただきたいです。
よろしくお願い致します。