編集履歴

回答編集履歴

一部脱字の修正

2019/10/30 00:46

投稿

スコア0

answer CHANGED Viewed

@@ -11,7 +11,7 @@
 ・DMA転送で、メインメモリにNICが書き込む
 ・OS/CPUが、各プロセスに書き込まれたメモリ領域を引き渡す
-この辺りは、後藤さんの記事(たとえば[これ](https://pc.watch.impress.co.jp/docs/column/kaigai/1075501.html))を読んで想像してもらうとわかるのですが、モダンなCPUでは直接CPUに接続されているため(Non Unified Memory Access : NUMA)、このNUMAのCPU Coreのノードを超えるメモリアクセスは、CPUインターコネクトをまたいだアクセスが発生し、アクセスレイテンシが増加し、内部バスの帯域を圧迫することになります。
+この辺りは、後藤さんの記事(たとえば[これ](https://pc.watch.impress.co.jp/docs/column/kaigai/1075501.html))を読んで想像してもらうとわかるのですが、モダンなCPUではメモリは、直接CPUに接続されているため(Non Unified Memory Access : NUMA)、このNUMAのCPU Coreのノードを超えるメモリアクセスは、CPUインターコネクトをまたいだアクセスが発生し、メモリアクセスレイテンシが増加し、CPU間及びCPU内部バスの帯域を圧迫することになります。
 理想的には、受け取りたい仮想マシン/プロセスが走行しているCPU CoreにNICがDMAで書き込んでくれることですが、マルチキューのすべてのEtherフレームが、なんの考慮もなしにバラバラのCPUコアに割り振られると、仮想マシン/プロセスがネットワークの通信を拾うのに、CPU間のデータ転送が頻繁に発生してしまいます。

論点を整理

2019/10/30 00:45

投稿

退会済みユーザー

スコア0

answer CHANGED Viewed

@@ -1,5 +1,21 @@
-現実的な話、少なくともLinuxの場合は、一部のNICのQueの割り込みは偏ります。
-けれどもそれは、どちらかというとドライバの作り込みやデフォルト設定値の問題です。
-でもこれには価値もあります。
-ご存知でしたら、釈迦に説法になって恐縮なんですが、もし、マルチキューのすべてのEtherフレームが、なんの考慮もなしにバラバラのCPUに割り振られると、NUMAノードを超えてメモリアクセスが発生してしまうため、不要にCPUインターコネクトの帯域を圧迫することになります。
-NIC側からも、ドライバ側からも、取り付けられて起動されるまで、どんなNUMAノード構成なのか、知る由もありませんから、結果的に、可変って事になってるのです。
+説明がちょっとざっくりしすぎてていたので、改めて説明を試みます。
+Linuxの場合は(そしておそらくWindowsであろうとも)一部のNICのQueの割り込みは偏ります。
+けれどもそれは、ドライバの作り込みやデフォルト設定値がそうなっているからです。
+でもこの偏りは意図的なもので、一定の価値があります。
+EtherフレームをPCが受信する場合の動作について想像してほしいのですが、
+・L2通信でNICに到着する
+・(ある種のNICによるネットワーク処理オフロードが行われる)
+・DMA転送で、メインメモリにNICが書き込む
+・OS/CPUが、各プロセスに書き込まれたメモリ領域を引き渡す
+この辺りは、後藤さんの記事(たとえば[これ](https://pc.watch.impress.co.jp/docs/column/kaigai/1075501.html))を読んで想像してもらうとわかるのですが、モダンなCPUでは直接CPUに接続されているため(Non Unified Memory Access : NUMA)、このNUMAのCPU Coreのノードを超えるメモリアクセスは、CPUインターコネクトをまたいだアクセスが発生し、アクセスレイテンシが増加し、内部バスの帯域を圧迫することになります。
+理想的には、受け取りたい仮想マシン/プロセスが走行しているCPU CoreにNICがDMAで書き込んでくれることですが、マルチキューのすべてのEtherフレームが、なんの考慮もなしにバラバラのCPUコアに割り振られると、仮想マシン/プロセスがネットワークの通信を拾うのに、CPU間のデータ転送が頻繁に発生してしまいます。
+元来、割り込み、というのは、CPUの処理を一旦中断するため、多量な割り込み処理は本来やりたかったタスクに処理能力が割けない、という事態を巻き起こしかねません。
+例えば少しでもコンピューティングパフォーマンスがほしい場合、ハイパフォーマンス・コンピューティングでは、ネットワーク転送量をできるだけ絞ったような処理になるようにプログラムされますから、割り込みが偏っていたほうが、他のCPUは余計な割り込み処理に振り回されることがなくて、そちらのほうが適しているということも言えるわけです。
+NIC側からも、ドライバ側からも、ハードウェアに取り付けられて起動されるまで、どんなNUMAノード構成なのか、知る由もありませんから、結果的に、可変って事になってる場合が多いようです。