質問編集履歴

コードの修正

2016/04/11 15:43

投稿

bleurouge

スコア161

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -62,7 +62,7 @@
   return new Promise(function(resolve) {
 ：
     heavyDataKeyArr.forEach(function(redisKey) {
-      redisKey.get(redisKey, function(err, heavyData){
+      redis-client.get(redisKey, function(err, heavyData){
         // redisに保存されている redisKey:heavyData に対する計算
          :
         RedisSetter(redisKey, heavyData); // 場合により Promise then から resolveへ

補足情報を追記

2016/04/11 15:43

投稿

bleurouge

スコア161

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,19 +1,89 @@
-clusterモジュールを用いて特定の計算処理のみ子プロセスで処理を行っていましたが、結局のところ、clusterを用いた方法が効率的なのか分からなくなっています。定期的に発生する頻度の高いCPUバウンドな処理はchild_processのpool系モジュールを使った子プロセスで分散処理が良いのでは？？とも思います。
+clusterモジュールを用いて特定の重い計算処理のみ子プロセスで処理を行っていましたが、結局のところ、clusterを用いた方法が手法として効率的なのか分からなくなってきました。定期的に発生する頻度の高いCPUバウンドな処理はchild_processのpool系モジュールを使った子プロセスで分散処理が効率的ではないかと感じています。nodeでの分散処理の手法について、以下の考え方で妥当なのか、向き不向きについて知見がありましたら、ご意見いただければ幸いです。
+▼当初clusterを用いて分散処理を行った手法
+```javascript
+/////////////////////
+// master.js
+////////////////////
+var cluster   = require('cluster');
+var numCPUs   = require('os').cpus().length;
-nodeでの分散処理の手法について、以下の考え方で妥当なのか、向き不向きについて知見がありましたら、ご意見いただければ幸いです。
+var HeavyFunc = require('./heavy-func');
----
+：
-**▼nodeアプリケーション自体を並列化、スケールさせたいケース**
-→cluster.forkを使う
+if(cluster.isWorker) {
+  // master 側から処理対象データを受け取る箇所
+  process.on('message', function(msg) {
+    if(msg.signal === 'heavy-data') {
+      HeavyFunc(msg.data)
+      .then(function() {
+        // cluster で終了した処理を master 側に通知する箇所
+        process.send({ workerId: msg.workerId, status: 'complete' });
+      })
+      .catch(function(e) {
+        console.log(e);
+      });
+    }
+  });
+  return;
+}
+if(cluster.isMaster) {
+：
+  // master 側から処理対象のデータを cluster に引き渡す箇所
+  Object.keys(cluster.workers).forEach(function(id) {
+    cluster.workers[id].send(
+      { workerId: id, signal: 'heavy-data', data: heavyDataKeyArr }
+    );
+  });
+：
+  // cluster で終了した処理通知を master 側で受ける箇所
+  var returnWorkersId = [];
+  Object.keys(cluster.workers).forEach(function(id) {
+    cluster.workers[id].on('message', function(msg){
+      if(msg.status === 'complete') {
+        returnWorkersId.push(msg.workerId);
+        if(returnWorkersId.length === numCPUs) {
+          console.log('worker processes complete the computing');
+          returnWorkersId = [];
+        }
+        cluster.workers[msg.workerId].removeAllListeners('message');
+      }
+      return;
+    });
+  });
+：
+}
+：
+////////////////////
-clusterモジュールはアプリケーション自体を並列状態にしてスケールさせたいケースに向いている？？
+// heavy-func.js 分散処理対象のモジュール
-特定の処理を分散させるためにclusterでアプリ全体の子プロセスを持つのは非効率？？
+// masterプロセスのみで処理する場合、5000ms以上費やす計算
+////////////////////
+function HeavyFunc(heavyDataKeyArr) {
+  return new Promise(function(resolve) {
+：
+    heavyDataKeyArr.forEach(function(redisKey) {
+      redisKey.get(redisKey, function(err, heavyData){
+        // redisに保存されている redisKey:heavyData に対する計算
+         :
+        RedisSetter(redisKey, heavyData); // 場合により Promise then から resolveへ
+        resolve();
+      });
+    });
+：
+  });
+}
+：
+```
+上記方法により各プロセスごとに計算処理を振り分けることは可能でしたが、
-例）
+そもそも、
-webサーバのリクエスト待ち受け等、nodeアプリ全体を並列化してスケールさせたい場合
+- **親プロセス←→子プロセスでのデータの受け渡しと処理終了通知の通信が必要となる**
+- **上記特定処理（heavy-func.js）のみのために、記載コードすべてを含んだ子プロセス（アプリのコピー）が上がっている ※1 無駄な感じがある**
+- **上2点あわせて、無駄なコード・無駄なメモリ消費につながっている**
+以上、clusterを利用する手法はnodeアプリ自体を並列化・スケールさせる際に有効な手法なのではないかと感じました。それは、ドキュメントの[サンプル](https://nodejs.org/api/cluster.html#cluster_cluster)がwebサーバを並列化させていることとも関連していそうです。
-**【補足】**
+※1（補足）
 [http://postd.cc/setting-up-a-node-js-cluster/](http://postd.cc/setting-up-a-node-js-cluster/)
 > cluster.fork()とchild_process.fork()には、いくつかの主な違いがあります。
 > ：
@@ -21,33 +91,38 @@
 > したがって、アプリケーションのエントリポイントがindex.jsでありながらワーカがcluster-my-app.jsの
 > 中で生成された場合でも、ワーカはやはり、index.jsの先頭から実行コードを起動します。
+よって、nodeでの分散処理を考える場合、以下ケースになりそうだと感じています。再掲になりますが、nodeでの分散処理の手法について、以下の考え方で妥当なのか、向き不向きについて知見がありましたら、ご意見いただければ幸いです。
+---
+**▼nodeアプリケーション自体を並列化、スケールさせたいケース**
+→cluster.forkを使う
+clusterモジュールはアプリケーション自体を並列状態にしてスケールさせたいケースで有用
+使用例）
+nodeのwebサーバを含めて、nodeアプリ自体を並列化してスケールできる場合
 ---
 **▼発生頻度の低いCPUヘビーな処理をnodeで行いたいケース**
 →child_process.forkを使う
-処理発生時に子プロセスを立ち上げて自分で管理。メインのイベントループがブロックされないように、処理を逃したいケースに向いている？？
+処理発生時に子プロセスを立ち上げて処理終了時にクローズ。頻度の低い重い処理が発生した際、メインのイベントループがブロックされないように、処理を逃したいケースで有用
-処理が頻繁に発生する場合はnode-worker-farm等のpool系モジュールを利用したほうが効率的？？
-例）
+使用例）
-バッチ処理的な用途ほか、動画のエンコード、画像処理等ほか、頻度は低いが、数十秒〜数分の長い時間を要する計算処理（nodeでやるかは抜きで）
+バッチ処理的な用途ほか、動画のエンコード、画像処理等ほか、頻度は低いが、数十秒〜数分の長い時間を要する計算処理（そもそもnodeでやるかは置いといて）
 ---
 **▼発生頻度が高い、あるいは、定期的に発生するCPUバウンドな処理をnodeで行いたいケース**
 →node-worker-farmなどchild_processプール系モジュール利用
-プール状態のchild_processで、頻繁に発生する負荷のある処理を行いたいケースに向いている？？
+プール状態のchild_processで、頻繁に発生する負荷のある処理を行いたいケースで有用
-例）
+使用例）
-リアルタイム性の高い計算処理、集計処理など、頻度の高い数秒〜数十秒時間を要する計算処理
+リアルタイム性の高い計算処理、集計処理など、頻度の高い数秒〜数十秒時間を要する計算処理。私が上記コードでclusterを用いて行っていたような特定処理の分散用途
 ---
-**【参考情報】**
+**【参考にした情報】**
 [Why you should use Node.js for CPU-bound tasks](http://neilk.net/blog/2013/04/30/why-you-should-use-nodejs-for-CPU-bound-tasks/)
 [Worker Farm - npm](https://www.npmjs.com/package/worker-farm)
 [Node.jsのClusterをセットアップして、処理を並列化・高速化する](http://postd.cc/setting-up-a-node-js-cluster/)