編集履歴

質問編集履歴

該当コードを追加しました。

2021/11/27 21:48

投稿

h_proc

スコア68

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -66,6 +66,324 @@
+以下長いですが、コードになります。
+```datasets.py
+def create_dataset(dataset_name,
+                   compute_node_feature_stats=True,
+                   node_feature_stats_filename=None,
+                   **dataset_params):
+    if (dataset_name == 'shrec_16'):
+        dataset = Shrec2016DualPrimal(**dataset_params)
+    elif (dataset_name == 'cubes'):
+        dataset = CubesDualPrimal(**dataset_params)
+    elif (dataset_name == 'coseg'):
+        dataset = CosegDualPrimal(**dataset_params)
+    elif (dataset_name == 'human_seg'):
+        dataset = HumanSegDualPrimal(**dataset_params)
+    elif(dataset_name == 'vessel'):
+        dataset = []
+    else:
+        raise KeyError(
+            f"No known dataset can be generated with the name '{dataset_name}'."
+        )
+    node_statistics = None
+    print(dataset)
+    if (compute_node_feature_stats):
+        dataset_params = dataset.input_parameters
+        (primal_graph_mean, primal_graph_std, dual_graph_mean,
+         dual_graph_std) = compute_mean_and_std(
+             dataset=dataset,
+             dataset_params=dataset_params,
+             filename=node_feature_stats_filename)
+        node_statistics = (primal_graph_mean, primal_graph_std, dual_graph_mean,
+                           dual_graph_std)
+    return dataset, node_statistics
+def compute_mean_and_std(dataset=None, dataset_params=None, filename=None):
+    if (dataset_params is not None):
+        for param_keyword in ['mean', 'std']:
+            for graph_keyword in ['primal', 'dual']:
+                keyword = f"{graph_keyword}_{param_keyword}"
+                if (keyword in dataset_params):
+                    raise KeyError(
+                        f"The parameters of the input dataset already contain "
+                        f"an entry '{keyword}'. Exiting.")
+    file_exists = False
+    if (filename is not None):
+        # Load the data from disk, if the file exists.
+        if (os.path.exists(filename)):
+            file_exists = True
+    if (file_exists):
+        assert (dataset_params is not None)
+        assert (isinstance(dataset_params, dict))
+        try:
+            with open(filename, "rb") as f:
+                data_from_disk = pkl.load(f)
+        except IOError:
+            raise IOError(f"Error loading cache mean-std file '{filename}'. "
+                          "Exiting.")
+        # Check that the file contains the mean and standard deviation.
+        for keyword in ['primal', 'dual']:
+            if (f'{keyword}_mean' not in data_from_disk):
+                raise KeyError(
+                    f"Cached file '{filename}' does not contain the mean of "
+                    f"the {keyword}-graph node features. Exiting.")
+            if (f'{keyword}_std' not in data_from_disk):
+                raise KeyError(
+                    f"Cached file '{filename}' does not contain the standard "
+                    f"deviation of the {keyword}-graph node features. Exiting.")
+        # Check that the size of the dataset is compatible.
+        try:
+            size_dataset_of_file = data_from_disk['dataset_size']
+        except KeyError:
+            raise KeyError(
+                f"Cached file '{filename}' does not contain the dataset size. "
+                f"Exiting.")
+        current_dataset_size = len(dataset)
+        if (size_dataset_of_file != current_dataset_size):
+            warnings.warn("Please note that the current dataset has size "
+                          f"{current_dataset_size}, whereas the cached file ("
+                          f"'{filename}') was generated from a dataset of size "
+                          f"{size_dataset_of_file}.")
+        # Check that the parameters match.
+        for param_name, param_value in dataset_params.items():
+            if (param_name not in data_from_disk):
+                raise KeyError(
+                    f"Could not find dataset parameter {param_name} in the "
+                    f"cached file '{filename}'. Please provide a different "
+                    "filename.")
+            else:
+                if (data_from_disk[param_name] != param_value):
+                    raise ValueError(
+                        f"Cached file '{filename}' is incompatible with "
+                        f"current dataset. Expected parameter {param_name} to "
+                        f"be {param_value}, found "
+                        f"{data_from_disk[param_name]}. Please provide a "
+                        "different filename.")
+        for cached_param_name in dataset_params.keys():
+            if (cached_param_name in [
+                    'primal_mean', 'primal_std', 'dual_mean', 'dual_std'
+            ]):
+                continue
+            if (cached_param_name not in dataset_params):
+                raise KeyError(
+                    f"Cached file '{filename}' is incompatible with "
+                    "current dataset, as it contains parameter "
+                    f"{cached_param_name}, which is missing in the input "
+                    "dataset. Please provide a different filename.")
+        # Return the cached data.
+        primal_graph_mean = data_from_disk['primal_mean']
+        primal_graph_std = data_from_disk['primal_std']
+        dual_graph_mean = data_from_disk['dual_mean']
+        dual_graph_std = data_from_disk['dual_std']
+    else:
+        # Compute the mean and standard deviation of the node features from
+        # scratch.
+        primal_graph_xs = torch.empty([0, dataset[0][0].x.shape[1]])
+        print('len',primal_graph_xs.size())
+        dual_graph_xs = torch.empty([0, dataset[0][1].x.shape[1]])
+        for sample_idx, (primal_graph, dual_graph, _, _) in enumerate(dataset):
+            primal_graph_xs = torch.cat([primal_graph_xs, primal_graph.x])
+            dual_graph_xs = torch.cat([dual_graph_xs, dual_graph.x])
+        assert (len(dataset) == sample_idx + 1)
+        primal_graph_mean = primal_graph_xs.mean(axis=0).numpy()
+        primal_graph_std = primal_graph_xs.std(axis=0).numpy()
+        dual_graph_mean = dual_graph_xs.mean(axis=0).numpy()
+        dual_graph_std = dual_graph_xs.std(axis=0).numpy()
+        assert (np.all(
+            primal_graph_std > 10 * np.finfo(primal_graph_std.dtype).eps))
+        assert (np.all(
+            dual_graph_std > 10 * np.finfo(dual_graph_std.dtype).eps))
+        if (filename is not None):
+            # Save the values to file, together with the dataset parameters and
+            # the dataset size, if required.
+            if (dataset_params is None):
+                dataset_params = {}
+            output_values = {
+                **dataset_params, 'primal_mean': primal_graph_mean,
+                'primal_std': primal_graph_std,
+                'dual_mean': dual_graph_mean,
+                'dual_std': dual_graph_std,
+                'dataset_size': sample_idx + 1
+            }
+            try:
+                with open(filename, 'wb') as f:
+                    pkl.dump(output_values, f)
+            except IOError:
+                raise IOError(
+                    "Unable to save mean-std data to file at location "
+                    f"{filename}.")
+    return (primal_graph_mean, primal_graph_std, dual_graph_mean,
+            dual_graph_std)
+```
 分かる方がいらっしゃいましたら回答いただけますと幸いです。
 よろしくお願い致します。