pythonのpandasライブラリでのdf同士の結合アルゴリズムとインデックスについて

困っていることというより分からないことになります。

pandasライブラリの結合アルゴリズムは具体的にどういうアルゴリズムになるのでしょうか？

と言いますのも、当方はsqlクエリを業務で書いてあり最近pandasを使うようになりました。
データベースであれば結合するテーブルそれぞれの大きさなどからパフォーマンスに応じてネステッドループからハッシュ結合になるようにヒント句を加えるなどできます。
pandasではこういった結合方式の指定などはなさそうで、たんにネステッドループ結合のようなfor文でぐるぐるするようなことをやっているのかなとは思ってますが、あってますか？

またそもそもdbであればインデックスを貼ることにより高速な検索が可能(bツリーインデックスが内部的に生成され利用できる)となります。

pandasにもdfの生成時にindexを作成することはできますが、dbでいうインデックスとはことなりbツリーインデックスが作られて検索が高速になるなどはなく、スライシングがてきるようになる程度だと思ってますがあってますか？

meg_

2024/11/10 03:56

> pandasライブラリの結合アルゴリズムは具体的にどういうアルゴリズムになるのでしょうか？内部の動作が知りたいのであればソースコードを見られてはいかがでしょうか？ドキュメントにソースコードのリンクがあるかと思います。 https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html#pandas.DataFrame.merge

bsdfan

2024/11/10 07:53 編集

pandasのindexは行へのラベル付けみたいなもんです。高速化の役にはたたないし、むしろ行番号の数値でアクセスする方が速いはず。 pandasのmergeがどうなっているかは具体的に書かれたドキュメントが見つからないので、上にコメントあるようにソースを追って実装を確認するしかないんじゃないかと。 pandasの速度に不満があるケースでは、polarsとかduckdbとか別のライブラリを使うというのが、最近の流れだと思います。