前提・実現したいこと
pysparkを使って、scvファイルを読み込み
その加工をしようとしています。
発生している問題・エラーメッセージ
スキーマ定義をしSCVファイルの読み込みを行ったところ、ファイルの中身がnullと表示されるようになってしまいました。
+----------+----------+----------+ | column1 | column2 | column3 | +----------+----------+----------+ | null| null| null| | null| null| null| | null| null| null| | null| null| null| | null| null| null|
該当のソースコード
python
1from pyspark.sql import SparkSession 2spark_session = SparkSession.builder.getOrCreate() 3 4df_schema = StructType([ 5 StructField("column1", StringType(), False), 6 StructField("column2", StringType(), False), 7 StructField("column3", StringType(), False), 8]) 9 10df = spark_session.read.csv('data_CSV/test_data.csv', schema=df_schema) 11 12df.show(5)
試したこと
APACHE Sparkのdocumentation(http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.types.StructType)も参照しましたが、こちらの書き方で合っているようでした。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。