質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.47%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

2回答

526閲覧

1000万レコードを辞書(配列)にいれる場合とインスタンスとしてもつ場合のメモリの使用量の違い

sdfguu6u

総合スコア5

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2022/12/17 02:46

https://www.yumemi.co.jp/serverside_recruit
イメージ説明
イメージ説明

上記の問題の解説記事を読んでわからなかったことを質問させていただきたいです。

https://qiita.com/yuu1111main/items/4776fec53fcdfad3a013
の記事において

イメージ説明
辞書にすべてのデータに入れるのではなく
クラスのインスタンスに1レコードの値を保持することでメモリ使用量をへらすことができたと述べています。

どうしてそれがいえるのでしょうか?
けっかとして、使用するメモリの使用量は変わらないのでは?と思いました。

こちらの記事から質問に関係するコードを抜粋しました。

class Player: """ プレイヤー型。 省メモリを実現するために、辞書と併用して利用することを想定してプレイヤーIDは保持していません。 """ _game_count: int = 0 # プレイしたゲームの数 _sum_score: int = 0 # 合計スコア def getAverage(self) -> int: """ プレイヤーの平均スコアを計算します。 :return: 四捨五入された平均スコアです。 """ if self._game_count == 0: # 0除算対策 return 0 # 平均を返す return round(self._sum_score / self._game_count) def addResult(self, score: int): """ ゲームの結果を追加します。 :param score: 加算するスコア """ # ゲームのカウント値とスコアを変動させる。 self._game_count += 1 self._sum_score += score def main(): # コマンドライン引数の読み取り args = get_option() file_name = str(args.fileName) # CSVを読み込む(エラーがあれば出力する。) error = True records: Dict[str, Player] = {} try: records = readCsv(file_name) except FileNotFoundError: print(f'"{file_name}"というファイルは見つかりませんでした。', file=sys.stderr) except IsADirectoryError: print('ディレクトリが指定されています', file=sys.stderr) except PermissionError as e: print('権限がありません\n', e, file=sys.stderr) except ValueError as e: print('CSVの値に想定外のものがありました\n', e, file=sys.stderr) except Exception as e: print('CSVの読み込みに失敗しました\n', e, file=sys.stderr) else: error = False if error: # エラーがあったのであればプログラムを終了する。 sys.exit(1)

どうぞよろしくお願い致します

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

melian

2022/12/17 02:54

全てのデータではなく、(計算した)合計点と件数の値のみをインスタンスとして保持している、ということではないでしょうか。
dameo

2022/12/17 03:30

全プレイヤーのプレイ履歴だと1.5GB 全プレイヤーのプレイヤーごとの合計点と件数だと12MB ということを皆さん言ってるみたい。
sdfguu6u

2022/12/17 04:05

コメントありがとうございました。盲点でした
guest

回答2

0

ベストアンサー

辞書にすべてのデータに入れるのではなく
クラスのインスタンスに1レコードの値を保持することでメモリ使用量をへらすことができたと述べています。

読み違えていますよ。
「1行ずつ配列に入れて」しまうと、すべてのデータを保持することになるので、 1.5GB以上の領域が必要になります。
ちゃんと読んでませんが、必要なのはIDと平均点です。 平均点を計算するためには、合計と件数があればいいのでファイルの内容を1行ずつ読むたびに「該当するIDのインスタンスの合計点に加算して件数を1増やし、読んだデータは捨ててしまう」ということをすれば、IDごとの件数と合計をIDの数だけ持てばいいことになるので、大幅に容量を減らすことができるます。
ってことだと思いますよ。

投稿2022/12/17 02:53

TakaiY

総合スコア12779

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

sdfguu6u

2022/12/17 04:04

回答ありがとうございます。 うっかりしていました。 最大1万のインスタンスで済むということなのですね。
sdfguu6u

2022/12/17 05:00

もうひとつ疑問に感じたのですが、 readCSV関数内で使われているcsvモジュールのDictReaderは遅延実行ではないため reader変数に1000万のレコードが溜まってしまうのではと思ったのですが、これも誤りなのでしょうか? よろしくお願いいたします
TakaiY

2022/12/17 06:21

DictReaderは遅延実行というか、通常のファイルオブジェクトと同様に、ファイルへの参照を持っていて読むと次の行を返す実装になっているので、生成したらすべてメモリに読み込むというようなことはありませんよ。
sdfguu6u

2022/12/17 08:01

回答いただきありがとうございます。 たとえば以下のようなコードの場合、 ``` with open(fileName, 'r') as f: reader = csv.DictReader(f, lineterminator="\n") for row in reader: # CSVの内容を読み込む player_id = row[PLAYER_ID_COLUMN] ``` for row in reader:においてファイルを参照して次の行を読むという理解であってますでしょうか?
TakaiY

2022/12/17 08:42

そうです。 なので、 withの外ではファイルが閉じているので使えません。
sdfguu6u

2022/12/17 11:56

ご回答いただきありがとうございました。
guest

0

クラスのインスタンスに1レコードの値を保持することでメモリ使用量をへらすことができたと述べています。

違います。1レコードではなく1プレイヤーの値を保持しています。
プレイヤー数はたかだか一万人なのでメモリ使用量を減らすことができます。

投稿2022/12/17 02:49

can110

総合スコア38266

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

sdfguu6u

2022/12/17 04:04

なるほど理解できました。ありがとうございます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.47%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問