Pyspark、.coalesce()メソッドの効果は？

Pysparkライブラリの中にある、coalesce()の挙動が理解できません。
下記に画像で、例を示します。

両方とも同じ挙動なのですが、ここで、coalesce(1)を使う理由は、何か考えられますでしょうか？

行動規範の内容に同意します

回答1件

ベストアンサー

RDDが複数のパーティションに分割されている場合saveAsTextFileすると、複数のファイルができます。
1つのファイルで出力したい時にはcoalesce(1)します。

http://spark.apache.org/docs/2.4.0/api/python/pyspark.html#pyspark.RDD.coalesce

sc.parallelize(range(30), 5).saveAsTextFile('save_files')

の結果

$ ls save_files/
_SUCCESS  part-00000  part-00001  part-00002  part-00003  part-00004

sc.parallelize(range(30), 5).coalesce(1).saveAsTextFile('save_one')

の結果

$ ls save_one/
_SUCCESS  part-00000

あるいはDataFrameだと、

rdd = sc.parallelize(map(lambda x: (x,), range(30)), 5)
df = sqlContext.createDataFrame(rdd)
df.write.save('save_dir_df')
df.coalesce(1).write.save('save_one_df')

の結果が、

$ ls save_dir_df/
_SUCCESS
part-00000-02504364-0715-4f75-bc3b-b6260d94920c-c000.snappy.parquet
part-00001-02504364-0715-4f75-bc3b-b6260d94920c-c000.snappy.parquet
part-00002-02504364-0715-4f75-bc3b-b6260d94920c-c000.snappy.parquet
part-00003-02504364-0715-4f75-bc3b-b6260d94920c-c000.snappy.parquet
part-00004-02504364-0715-4f75-bc3b-b6260d94920c-c000.snappy.parquet
$ ls save_one_df/
_SUCCESS  part-00000-e2a82017-e3b6-4fe9-9196-8b2ee31cc4b1-c000.snappy.parquet

などとなります。

ローカル実行なので保存で確認しているだけですが、Sparkは分散実行するのがメインですから、RDDが複数ノードに分散している状態で操作すると作業も分散実行されます。（DataFrameの方はよく知りませんが同じではないかと）
coalesce(1)は、分散しているデータを1つのノードに集める操作になります。

操作している対象のデータが分散されていなければ、coalesce(1)に意味はありません。

投稿2019/01/08 10:56

quickquip

総合スコア11351

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.30%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する