空のndarrayを用意したい

前提

pytorchで機械学習を行うためのデータローダを作成しています。

実現したいこと

空のndarrayに.npyファイルから読み込んだ値を一つずつ格納していく。
その時、配列の宣言の際に、data = np.zeros(256)を行うことによって０詰めのいらない一行が入ってしまう。

発生している問題

device : cuda:0
list size : 5584
(5585, 256)

data[0]=[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
…
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]

data[1]=[-0.59893709  0.80101025  0.86713511  0.27356422  0.03806147  0.55685222
 -1.11983168 -0.46897823 -0.27684769  0.1312255   0.30654386 -0.07118449
…
  0.57396317 -0.56885028 -0.51682287 -1.14913428 -0.02551528  0.59562939
  0.98224401 -0.52175301 -0.33242595  0.01973815 -0.45488593 -0.34487733
  0.87223083  1.15911603  0.65931791  1.32030606]

該当のソースコード

python
1# PyTorch
2import torch
3import torch.nn as nn
4import torch.nn.functional as F
5
6#
7import glob
8import numpy as np
9
10batch_size = 128
11one_z_size = 256
12
13dev = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") 
14print("device :", dev)
15
16#データのファイル名取得
17path = '../../../data/z_out/acoustic_text_feature/'
18file_path_lists = glob.glob("{}/**".format(path), recursive=True)
19file_path_lists.pop(0)
20print("list size :",len(file_path_lists))
21
22data = np.zeros(256)
23data_name = np.empty(0)
24for i in range(len(file_path_lists)):
25    data_name = np.append(data_name, file_path_lists[i])
26    #print(np.load(file_path_lists[i]))
27    data = np.vstack((data, np.load(file_path_lists[i])))
28
29print(data.shape)
30print(data[0])

試したこと

data = np.zeros(256)のところで一応配列の定義のような作業を行っています。０詰めのデータなので、いらないのですが、これを消すと、dataが定義されていないというエラーがでます。空の配列を宣言したいのですが、そのような記事が見つけることができませんでした。もっとスマートなやり方があったら教えていただきたいです。

行動規範の内容に同意します

回答2件

ベストアンサー

dataの初期値を0×256の二次元配列として定義すればできると思います。

python
1data = np.empty((0, 256))
2for i in range(len(file_path_lists)):
3    data = np.vstack((data, np.load(file_path_lists[i])))

ただし、こういうときは、リストにappendしていって、最後にvstackするほうがお勧めです。
(ループでvstackすると、毎回配列のメモリを取り直すため、回数が多い場合は遅くなる場合があります)

python
1data_list = []
2for i in range(len(file_path_lists)):
3    data_list.append(np.load(file_path_lists[i]))
4data = np.vstack(data_list)

投稿2022/08/18 13:55

bsdfan

総合スコア4899

コード詳細確認できていませんが、以下のようにdataの有無で処理を分ければよいかと思います。

Python
1data = None
2for ～:
3    load_data = np.load(file_path_lists[i])
4    if data:
5        data = np.vstack(data, load_data)
6    else:
7        data = load_data