pysparkでscvを読み込むとNULLになってしまいます

前提・実現したいこと

pysparkを使って、scvファイルを読み込み
その加工をしようとしています。

発生している問題・エラーメッセージ

スキーマ定義をしSCVファイルの読み込みを行ったところ、ファイルの中身がnullと表示されるようになってしまいました。

+----------+----------+----------+
|  column1 |  column2 |  column3 |
+----------+----------+----------+
|      null|      null|      null|         
|      null|      null|      null|
|      null|      null|      null|
|      null|      null|      null|
|      null|      null|      null|

該当のソースコード

python
1from pyspark.sql import SparkSession
2spark_session = SparkSession.builder.getOrCreate()
3
4df_schema = StructType([
5    StructField("column1", StringType(), False),
6    StructField("column2", StringType(), False),
7    StructField("column3", StringType(), False),
8])
9
10df = spark_session.read.csv('data_CSV/test_data.csv', schema=df_schema)
11
12df.show(5)

試したこと

APACHE Sparkのdocumentation（http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.types.StructType）も参照しましたが、こちらの書き方で合っているようでした。

補足情報（FW/ツールのバージョンなど）

行動規範の内容に同意します

回答1件

昔pysparkを弄っていたことがあるのですが、前に同じようなものをjsonで作成したことがあり、前に見たスクリプトと比較したところ、

from pyspark.sql.types import ArrayType, StringType, LongType, StructType, StructField

がなかったため、これが原因なように感じました。

投稿2019/03/26 08:31

bamboo-nova

総合スコア1408

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！