datasets update

CM-BF · CM-BF · commit 3bd83c727893 · 2022-11-14T13:51:42.000-06:00
diff --git a/GOOD/data/good_datasets/good_arxiv.py b/GOOD/data/good_datasets/good_arxiv.py
@@ -13,6 +13,7 @@
 import numpy as np
 import torch
 from munch import Munch
+from ogb.nodeproppred import PygNodePropPredDataset
 from torch_geometric.data import Data
 from torch_geometric.data import InMemoryDataset, extract_zip
 from torch_geometric.utils import degree, to_undirected
@@ -97,7 +98,7 @@ def __init__(self, root: str, domain: str, shift: str = 'no_shift', transform=No
         self.domain = domain
         self.metric = 'Accuracy'
         self.task = 'Multi-label classification'
-        self.url = 'https://drive.google.com/file/d/1-Wq7PoHTAiLsos20bLlq_xNvrV5AHSWu/view?usp=sharing'
+        self.url = 'https://drive.google.com/file/d/1r1OTQJ5YxQAAYJiYfyDmCknmpVmiUksi/view?usp=sharing'
 
         self.generate = generate
 
@@ -243,11 +244,6 @@ def get_covariate_shift_graph(self, sorted_data_list, graph):
 
         train_list, ood_val_list, ood_test_list = train_val_test_list
 
-        num_id_test = int(num_data * id_test_ratio)
-        random.shuffle(train_list)
-        train_list, id_val_list, id_test_list = train_list[: -2 * num_id_test], train_list[
-                                                                                -2 * num_id_test: - num_id_test], \
-                                                train_list[- num_id_test:]
         # Compose domains to environments
         num_env_train = 10
         num_per_env = len(train_list) // num_env_train
@@ -260,6 +256,12 @@ def get_covariate_shift_graph(self, sorted_data_list, graph):
             cur_domain_id = data.domain_id
             data.env_id = cur_env_id
 
+        num_id_test = int(num_data * id_test_ratio)
+        random.shuffle(train_list)
+        train_list, id_val_list, id_test_list = train_list[: -2 * num_id_test], train_list[
+                                                                                -2 * num_id_test: - num_id_test], \
+                                                train_list[- num_id_test:]
+
         return self.assign_masks(train_list, ood_val_list, ood_test_list, id_val_list, id_test_list, graph)
 
     def get_concept_shift_graph(self, sorted_domain_split_data_list, graph):
@@ -408,7 +410,7 @@ def get_domain_sorted_indices(self, graph, domain='degree'):
         return sorted_data_list, sorted_domain_split_data_list
 
     def process(self):
-        from ogb.nodeproppred import PygNodePropPredDataset
+
         dataset = PygNodePropPredDataset(root=self.root, name='ogbn-arxiv')
         graph = dataset[0]
         graph.edge_index = to_undirected(graph.edge_index, graph.num_nodes)
diff --git a/GOOD/data/good_datasets/good_cora.py b/GOOD/data/good_datasets/good_cora.py
@@ -94,7 +94,7 @@ def __init__(self, root: str, domain: str, shift: str = 'no_shift', transform=No
         self.domain = domain
         self.metric = 'Accuracy'
         self.task = 'Multi-label classification'
-        self.url = 'https://drive.google.com/file/d/1VD1nGDvLBn2xpYAp12irBLkTRRZ282Qm/view?usp=sharing'
+        self.url = 'https://drive.google.com/file/d/1OyMOwT4bn_4fLdpl5B3ie18OmGsUNQxS/view?usp=sharing'
 
         self.generate = generate
 
@@ -230,11 +230,6 @@ def get_covariate_shift_graph(self, sorted_data_list, graph):
 
         train_list, ood_val_list, ood_test_list = train_val_test_list
 
-        num_id_test = int(num_data * id_test_ratio)
-        random.shuffle(train_list)
-        train_list, id_val_list, id_test_list = train_list[: -2 * num_id_test], train_list[
-                                                                                -2 * num_id_test: - num_id_test], \
-                                                train_list[- num_id_test:]
         # Compose domains to environments
         num_env_train = 10
         num_per_env = len(train_list) // num_env_train
@@ -247,6 +242,12 @@ def get_covariate_shift_graph(self, sorted_data_list, graph):
             cur_domain_id = data.domain_id
             data.env_id = cur_env_id
 
+        num_id_test = int(num_data * id_test_ratio)
+        random.shuffle(train_list)
+        train_list, id_val_list, id_test_list = train_list[: -2 * num_id_test], train_list[
+                                                                                -2 * num_id_test: - num_id_test], \
+                                                train_list[- num_id_test:]
+
         return self.assign_masks(train_list, ood_val_list, ood_test_list, id_val_list, id_test_list, graph)
 
     def get_concept_shift_graph(self, sorted_domain_split_data_list, graph):
diff --git a/GOOD/data/good_datasets/good_hiv.py b/GOOD/data/good_datasets/good_hiv.py
@@ -23,6 +23,7 @@ class DomainGetter():
     r"""
     A class containing methods for data domain extraction.
     """
+
     def __init__(self):
         pass
 
@@ -81,7 +82,7 @@ def __init__(self, root: str, domain: str, shift: str = 'no_shift', subset: str
         self.domain = domain
         self.metric = 'ROC-AUC'
         self.task = 'Binary classification'
-        self.url = 'https://drive.google.com/file/d/1GNc0HUee5YQH4Vtlk8ZbDjyJBYTEyabo/view?usp=sharing'
+        self.url = 'https://drive.google.com/file/d/1CoOqYCuLObnG5M0D8a2P2NyL61WjbCzo/view?usp=sharing'
 
         self.generate = generate
 
@@ -163,11 +164,6 @@ def get_covariate_shift_list(self, sorted_data_list):
 
         train_list, ood_val_list, ood_test_list = train_val_test_list
 
-        num_id_test = int(num_data * test_ratio)
-        random.shuffle(train_list)
-        train_list, id_val_list, id_test_list = train_list[: -2 * num_id_test], train_list[
-                                                                                -2 * num_id_test: - num_id_test], \
-                                                train_list[- num_id_test:]
         # Compose domains to environments
         num_env_train = 10
         num_per_env = len(train_list) // num_env_train
@@ -179,6 +175,13 @@ def get_covariate_shift_list(self, sorted_data_list):
                 cur_env_id += 1
             cur_domain_id = data.domain_id
             data.env_id = cur_env_id
+
+        num_id_test = int(num_data * test_ratio)
+        random.shuffle(train_list)
+        train_list, id_val_list, id_test_list = train_list[: -2 * num_id_test], train_list[
+                                                                                -2 * num_id_test: - num_id_test], \
+                                                train_list[- num_id_test:]
+
         all_env_list = [train_list, ood_val_list, ood_test_list, id_val_list, id_test_list]
 
         return all_env_list
@@ -379,9 +382,11 @@ def load(dataset_root: str, domain: str, shift: str = 'no_shift', generate: bool
         train_dataset = GOODHIV(root=dataset_root,
                                 domain=domain, shift=shift, subset='train', generate=generate)
         id_val_dataset = GOODHIV(root=dataset_root,
-                                 domain=domain, shift=shift, subset='id_val', generate=generate) if shift != 'no_shift' else None
+                                 domain=domain, shift=shift, subset='id_val',
+                                 generate=generate) if shift != 'no_shift' else None
         id_test_dataset = GOODHIV(root=dataset_root,
-                                  domain=domain, shift=shift, subset='id_test', generate=generate) if shift != 'no_shift' else None
+                                  domain=domain, shift=shift, subset='id_test',
+                                  generate=generate) if shift != 'no_shift' else None
         val_dataset = GOODHIV(root=dataset_root,
                               domain=domain, shift=shift, subset='val', generate=generate)
         test_dataset = GOODHIV(root=dataset_root,
diff --git a/GOOD/data/good_datasets/good_pcba.py b/GOOD/data/good_datasets/good_pcba.py
@@ -81,7 +81,7 @@ def __init__(self, root: str, domain: str, shift: str = 'no_shift', subset: str
         self.domain = domain
         self.metric = 'Average Precision'
         self.task = 'Binary classification'
-        self.url = 'https://drive.google.com/file/d/1BGhI153CcJ1wuNAp7nQOhR9jGkmF-jwb/view?usp=sharing'
+        self.url = 'https://drive.google.com/file/d/1WGieOjtgNXtGoO6o1EGhKrZj0zWU7AJl/view?usp=sharing'
 
         self.generate = generate
 
@@ -161,11 +161,6 @@ def get_covariate_shift_list(self, sorted_data_list):
 
         train_list, ood_val_list, ood_test_list = train_val_test_list
 
-        num_id_test = int(num_data * test_ratio)
-        random.shuffle(train_list)
-        train_list, id_val_list, id_test_list = train_list[: -2 * num_id_test], train_list[
-                                                                                -2 * num_id_test: - num_id_test], \
-                                                train_list[- num_id_test:]
         # Compose domains to environments
         num_env_train = 10
         num_per_env = len(train_list) // num_env_train
@@ -177,6 +172,13 @@ def get_covariate_shift_list(self, sorted_data_list):
                 cur_env_id += 1
             cur_domain_id = data.domain_id
             data.env_id = cur_env_id
+
+        num_id_test = int(num_data * test_ratio)
+        random.shuffle(train_list)
+        train_list, id_val_list, id_test_list = train_list[: -2 * num_id_test], train_list[
+                                                                                -2 * num_id_test: - num_id_test], \
+                                                train_list[- num_id_test:]
+
         all_env_list = [train_list, ood_val_list, ood_test_list, id_val_list, id_test_list]
 
         return all_env_list
diff --git a/GOOD/data/good_datasets/good_sst2.py b/GOOD/data/good_datasets/good_sst2.py
@@ -10,19 +10,17 @@
 import gdown
 import numpy as np
 import torch
+from dig.xgraph.dataset import SentiGraphDataset
 from munch import Munch
-from rdkit import Chem
-from rdkit.Chem.Scaffolds import MurckoScaffold
 from torch_geometric.data import InMemoryDataset, extract_zip, Data
-from torch_geometric.datasets import MoleculeNet
 from tqdm import tqdm
-from dig.xgraph.dataset import SentiGraphDataset
 
 
 class DomainGetter():
     r"""
     A class containing methods for data domain extraction.
     """
+
     def __init__(self):
         pass
 
@@ -60,7 +58,7 @@ def __init__(self, root: str, domain: str, shift: str = 'no_shift', subset: str
         self.domain = domain
         self.metric = 'Accuracy'
         self.task = 'Binary classification'
-        self.url = 'https://drive.google.com/file/d/1e2GmmeN-mN6X5KL6t8CosBujS1kfjeNS/view?usp=sharing'
+        self.url = 'https://drive.google.com/file/d/1lGNMbQebKIbS-NnbPxmY4_uDGI7EWXBP/view?usp=sharing'
 
         self.generate = generate
 
@@ -140,12 +138,6 @@ def get_covariate_shift_list(self, sorted_data_list):
 
         train_list, ood_val_list, ood_test_list = train_val_test_list
 
-        id_test_ratio = 0.15
-        num_id_test = int(len(train_list) * id_test_ratio)
-        random.shuffle(train_list)
-        train_list, id_val_list, id_test_list = train_list[: -2 * num_id_test], train_list[
-                                                                                -2 * num_id_test: - num_id_test], \
-                                                train_list[- num_id_test:]
         # Compose domains to environments
         num_env_train = 10
         num_per_env = len(train_list) // num_env_train
@@ -157,6 +149,14 @@ def get_covariate_shift_list(self, sorted_data_list):
                 cur_env_id += 1
             cur_domain_id = data.domain_id
             data.env_id = cur_env_id
+
+        id_test_ratio = 0.15
+        num_id_test = int(len(train_list) * id_test_ratio)
+        random.shuffle(train_list)
+        train_list, id_val_list, id_test_list = train_list[: -2 * num_id_test], train_list[
+                                                                                -2 * num_id_test: - num_id_test], \
+                                                train_list[- num_id_test:]
+
         all_env_list = [train_list, ood_val_list, ood_test_list, id_val_list, id_test_list]
 
         return all_env_list
@@ -354,15 +354,17 @@ def load(dataset_root: str, domain: str, shift: str = 'no_shift', generate: bool
         meta_info.model_level = 'graph'
 
         train_dataset = GOODSST2(root=dataset_root,
-                                domain=domain, shift=shift, subset='train', generate=generate)
+                                 domain=domain, shift=shift, subset='train', generate=generate)
         id_val_dataset = GOODSST2(root=dataset_root,
-                                 domain=domain, shift=shift, subset='id_val', generate=generate) if shift != 'no_shift' else None
+                                  domain=domain, shift=shift, subset='id_val',
+                                  generate=generate) if shift != 'no_shift' else None
         id_test_dataset = GOODSST2(root=dataset_root,
-                                  domain=domain, shift=shift, subset='id_test', generate=generate) if shift != 'no_shift' else None
+                                   domain=domain, shift=shift, subset='id_test',
+                                   generate=generate) if shift != 'no_shift' else None
         val_dataset = GOODSST2(root=dataset_root,
-                              domain=domain, shift=shift, subset='val', generate=generate)
+                               domain=domain, shift=shift, subset='val', generate=generate)
         test_dataset = GOODSST2(root=dataset_root,
-                               domain=domain, shift=shift, subset='test', generate=generate)
+                                domain=domain, shift=shift, subset='test', generate=generate)
 
         meta_info.dim_node = train_dataset.num_node_features
         meta_info.dim_edge = train_dataset.num_edge_features
diff --git a/GOOD/data/good_datasets/good_twitch.py b/GOOD/data/good_datasets/good_twitch.py
@@ -82,7 +82,7 @@ def __init__(self, root: str, domain: str, shift: str = 'no_shift', transform=No
         assert domain in ['language']
         self.metric = 'ROC-AUC'
         self.task = 'Binary classification'
-        self.url = 'https://drive.google.com/file/d/1PuO-pWsVFfCwiXx7TzKP12-QXAx6vz4O/view?usp=sharing'
+        self.url = 'https://drive.google.com/file/d/1wii9CWmtTAUofNTgg-GkpRz_iECcbQzK/view?usp=sharing'
 
         self.generate = generate
 
@@ -212,11 +212,6 @@ def get_covariate_shift_graph(self, sorted_data_list, graph):
 
         train_list, ood_val_list, ood_test_list = train_val_test_list
 
-        num_id_test = int(num_data * id_test_ratio)
-        random.shuffle(train_list)
-        train_list, id_val_list, id_test_list = train_list[: -2 * num_id_test], train_list[
-                                                                                -2 * num_id_test: - num_id_test], \
-                                                train_list[- num_id_test:]
         # Compose domains to environments
         num_env_train = 10
         num_per_env = len(train_list) // num_env_train
@@ -229,6 +224,12 @@ def get_covariate_shift_graph(self, sorted_data_list, graph):
             cur_domain_id = data.domain_id
             data.env_id = cur_env_id
 
+        num_id_test = int(num_data * id_test_ratio)
+        random.shuffle(train_list)
+        train_list, id_val_list, id_test_list = train_list[: -2 * num_id_test], train_list[
+                                                                                -2 * num_id_test: - num_id_test], \
+                                                train_list[- num_id_test:]
+
         return self.assign_masks(train_list, ood_val_list, ood_test_list, id_val_list, id_test_list, graph)
 
     def get_concept_shift_graph(self, sorted_domain_split_data_list, graph):
diff --git a/GOOD/data/good_datasets/good_webkb.py b/GOOD/data/good_datasets/good_webkb.py
@@ -81,7 +81,7 @@ def __init__(self, root: str, domain: str, shift: str = 'no_shift', transform=No
         assert domain in ['university']
         self.metric = 'Accuracy'
         self.task = 'Multi-label classification'
-        self.url = 'https://drive.google.com/file/d/1tatdDrcwZAS2iUZujB4AEsTvPF-3LYoX/view?usp=sharing'
+        self.url = 'https://drive.google.com/file/d/1DOdUOzAMBtcHXTphrWrKhNWPxzMDNvnb/view?usp=sharing'
 
         self.generate = generate
 
@@ -215,11 +215,6 @@ def get_covariate_shift_graph(self, sorted_data_list, graph):
         ood_val_list = ood_test_list[: len(ood_test_list) // 2]
         ood_test_list = ood_test_list[len(ood_test_list) // 2:]
 
-        num_id_test = int(num_data * id_test_ratio)
-        random.shuffle(train_list)
-        train_list, id_val_list, id_test_list = train_list[: -2 * num_id_test], \
-                                                train_list[-2 * num_id_test: - num_id_test], \
-                                                train_list[- num_id_test:]
         # Compose domains to environments
         num_env_train = 2
         num_per_env = len(train_list) // num_env_train
@@ -232,6 +227,12 @@ def get_covariate_shift_graph(self, sorted_data_list, graph):
             cur_domain_id = data.domain_id
             data.env_id = cur_env_id
 
+        num_id_test = int(num_data * id_test_ratio)
+        random.shuffle(train_list)
+        train_list, id_val_list, id_test_list = train_list[: -2 * num_id_test], \
+                                                train_list[-2 * num_id_test: - num_id_test], \
+                                                train_list[- num_id_test:]
+
         return self.assign_masks(train_list, ood_val_list, ood_test_list, id_val_list, id_test_list, graph)
 
     def get_concept_shift_graph(self, sorted_domain_split_data_list, graph):
diff --git a/GOOD/data/good_datasets/good_zinc.py b/GOOD/data/good_datasets/good_zinc.py
@@ -83,7 +83,7 @@ def __init__(self, root: str, domain: str, shift: str = 'no_shift', subset: str
         self.domain = domain
         self.metric = 'MAE'
         self.task = 'Regression'
-        self.url = 'https://drive.google.com/file/d/1IDxJdFJXPngH1vK06jZqzTvmy865BHn2/view?usp=sharing'
+        self.url = 'https://drive.google.com/file/d/1CHR0I1JcNoBqrqFicAZVKU3213hbsEPZ/view?usp=sharing'
 
         self.generate = generate
 
@@ -164,11 +164,6 @@ def get_covariate_shift_list(self, sorted_data_list):
 
         train_list, ood_val_list, ood_test_list = train_val_test_list
 
-        num_id_test = int(num_data * test_ratio)
-        random.shuffle(train_list)
-        train_list, id_val_list, id_test_list = train_list[: -2 * num_id_test], \
-                                                train_list[-2 * num_id_test: - num_id_test], \
-                                                train_list[- num_id_test:]
         # Compose domains to environments
         num_env_train = 10
         num_per_env = len(train_list) // num_env_train
@@ -180,6 +175,13 @@ def get_covariate_shift_list(self, sorted_data_list):
                 cur_env_id += 1
             cur_domain_id = data.domain_id
             data.env_id = cur_env_id
+
+        num_id_test = int(num_data * test_ratio)
+        random.shuffle(train_list)
+        train_list, id_val_list, id_test_list = train_list[: -2 * num_id_test], \
+                                                train_list[-2 * num_id_test: - num_id_test], \
+                                                train_list[- num_id_test:]
+
         all_env_list = [train_list, ood_val_list, ood_test_list, id_val_list, id_test_list]
 
         return all_env_list
diff --git a/test/test_reproduce_sample/test_regenerate_datasets.py b/test/test_reproduce_sample/test_regenerate_datasets.py
@@ -100,7 +100,7 @@ def regenerate_dataset(config_path):
         return regenerator.config.dataset.dataset_name
 
     for dataset_path in dataset_paths:
-        if 'GOODSST2' in dataset_path:
+        if 'GOODSST2' in dataset_path or 'GOODArxiv' in dataset_path:
             return
         dataset_name = regenerate_dataset(dataset_path)
     # release regenerate datasets space