spark dataframe における特定の文字列を含む列の削除について

Spark dataframe としてあるcsvファイルを読み込みました。
そして、そのcsvファイルについての以下の表を作成しました。

python
1!pip install wget
2!apt-get install openjdk-8-jdk-headless -qq > /dev/null
3!wget -q https://archive.apache.org/dist/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
4!tar xf spark-2.4.0-bin-hadoop2.7.tgz
5!pip install -q findspark
6import os
7os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
8os.environ["SPARK_HOME"] = "/content/spark-2.4.0-bin-hadoop2.7"
9
10import findspark
11findspark.init()
12from pyspark.sql import SparkSession 
13
14import wget
15link_to_data = 'https://github.com/tulip-lab/sit742/raw/master/Assessment/2019/data/bank.csv'
16DataSet = wget.download(link_to_data)
17
18!ls
19
20spark = SparkSession.builder.appName('ml-bank').getOrCreate()
21df = spark.read.csv('bank.csv', header = True, inferSchema = True) 
22df.printSchema() 
23df.show(5)
24
25df2 = df.select('age', 'job', 'marital', 'education', 'default', 'balance', 'housing', 'loan', 'campaign', 'pdays', 'previous', 'poutcome', 'deposit').show()
26

上の写真の表は上のコードのdf2で定義した表なのですが、その”unknown”という文字列を一つでも持つ列を表から削除したいと考えていまして、
そのためにまずどのようにコードを書いたら、”unknown” という文字列を一つでももった列を調べることが出来るのでしょうか。

行動規範の内容に同意します

回答1件

ベストアンサー

いったんpandasのDataFrameにするとよいかと思います。

Python
1df3 = df2.toPandas()
2df4 = df3[df3 != 'unknown'].dropna(how='any',axis=1)
3df4.head()
4df5 = spark.createDataFrame(df4)
5df5.show(5)
6"""
7+---+-------+-------+-------+-------+----+--------+-----+--------+-------+
8|age|marital|default|balance|housing|loan|campaign|pdays|previous|deposit|
9+---+-------+-------+-------+-------+----+--------+-----+--------+-------+
10| 59|married|     no|   2343|    yes|  no|       1|   -1|       0|    yes|
11| 56|married|     no|     45|     no|  no|       1|   -1|       0|    yes|
12| 41|married|     no|   1270|    yes|  no|       1|   -1|       0|    yes|
13| 55|married|     no|   2476|    yes|  no|       1|   -1|       0|    yes|
14| 54|married|     no|    184|     no|  no|       2|   -1|       0|    yes|
15+---+-------+-------+-------+-------+----+--------+-----+--------+-------+
16only showing top 5 rows
17"""