質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
データベース

データベースとは、データの集合体を指します。また、そのデータの集合体の共用を可能にするシステムの意味を含めます

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

データマイニング

データマイニングは、購買履歴やクレジットカードの利用履歴、電話の通話履歴など企業にある大量のデータを解析して、その中に隠れたパターンやルールを探し出す技術です。DMと略されることもあります。

Q&A

解決済

1回答

2001閲覧

RAMメモリ以上のビックデータを扱う方法(実行時にショートする)

tyarinosuke

総合スコア9

データベース

データベースとは、データの集合体を指します。また、そのデータの集合体の共用を可能にするシステムの意味を含めます

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

データマイニング

データマイニングは、購買履歴やクレジットカードの利用履歴、電話の通話履歴など企業にある大量のデータを解析して、その中に隠れたパターンやルールを探し出す技術です。DMと略されることもあります。

0グッド

1クリップ

投稿2022/03/22 07:14

編集2022/03/22 07:48

RAMメモリ以上のビックデータを扱う方法(実行時にショートする)

データフレーム型の大容量csvファイル(20gb×2)をPythonのmerge機能を用いて結合させようとするとメモリ不足になりパソコンがショートします。

**pandas: merge

例)
#結合 左寄せ
df = pd.merge(x, y, on='ID, how='left')**

大容量のデータベースを使用する際、このようなメモリ以上をうまく扱う方法はあるのでしょうか。
・外付けSSDを一時的にRAMとして扱う方法があるか
・国レベルのビックデータの解析を行う時はどのような工夫をしているのか(62, 128gb以上のデータを扱うこともあると思います)

使用しているパソコンスペック
・RAM 32gb
・CPU intel 10750H
・GPU RTX 2000

プログラミングコードの話ではないですが、ご教授お願い致します。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

quickquip

2022/03/22 07:20

> Pythonのmerge機能 この部分、これだと説明が足りません。Pandasあたりでしょうか?
tyarinosuke

2022/03/22 07:32

はい、pandasの機能です #結合 左寄せ df = pd.merge(x, y, on='ID, how='left') 調べるとスワップ領域を増やす。 と出てきますが、これがキーワードでしょうか
quickquip

2022/03/22 07:41

この欄に書くのではなくて質問を編集してください。
hoshi-takanori

2022/03/22 07:41

仮想メモリを大量に用意すれば出来るのかもしれませんが、普通はデータベースというものを使うのでは…。
tyarinosuke

2022/03/22 07:49

quickquipさん、編集しました
tyarinosuke

2022/03/22 07:49

データベースというもの、とはどんなものでしょうか? ライブラリですか?windowsの機能ですか?
tyarinosuke

2022/03/22 08:20

jbpd0さん ありがとうござます。 pandasのライブラリを使用する際に、daskを用いて並列処理をさせることでしょうか? それとも、そもそもcsvをpandasではなく、dask dataframeで読み込むことでメモリ消費を目的としたデータ解析ができるということでしょうか。
68user

2022/03/22 15:09

クラウドでやってみては。例えばAmazon EC2の最大メモリは24TBです。
tyarinosuke

2022/03/22 23:50

68userさん ありがとうございます。 サーバー上で運用するんですね、、勉強になります。 大学院生であるため、あまりお金をかけない方法でできればと考えています
tyarinosuke

2022/03/22 23:51

jbpd0さん 仮想メモリの拡張、 daskでのcsv読み込み、mergeで実行できました。 ありがとうございます。 daskの仕組みもなんとなく理解できました。
guest

回答1

0

ベストアンサー

投稿2022/03/31 08:48

jbpb0

総合スコア7651

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問