並列処理の分散処理度合いについて

Spark初心者です。
Sparkはパーティション単位で並列処理が行われる認識です。

例えば

python
1df.coalesce(50).write.orc(path,mode="overwrite", compression ="none")

のように書いたときは、最大50分割で分散されるようにpathに書き込まれると思います。
ですが、

python
1df.coalesce(50).write.partitionBy("日付","性別").orc(path,mode="overwrite", compression ="none")

のように書いた場合、日付と性別ごとにpartitonが分かれるので、(日付,性別)が50組み合わせ以上ある場合はエラーとなるでしょうか？

行動規範の内容に同意します

回答1件

Sparkはまったく触ったことのない初心者ですが。

直感的には、
並列の最大処理数を超える分は、時間軸方向に自動的に配分されると思います。
そうでなければ、リファレンスマニュアルに「〜のケースではエラーになる」と明示されていると思います。

投稿2019/05/08 12:53

総合スコア765

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問