sfluegel05 · Oct 14, 2021
diff --git a/‎chem/data/collect_all.py
+113-28 b/‎chem/data/collect_all.py
+113-28
diff --git a/‎chem/data/datasets.py
+784-677 b/‎chem/data/datasets.py
+784-677
diff --git a/‎chem/data/reader.py
+14-16 b/‎chem/data/reader.py
+14-16
diff --git a/‎chem/data/structures.py
+16-8 b/‎chem/data/structures.py
+16-8
diff --git a/‎chem/model.py
+45-15 b/‎chem/model.py
+45-15
diff --git a/‎chem/models/base.py
+77-19 b/‎chem/models/base.py
+77-19
diff --git a/‎chem/models/chemyk.py
+20-9 b/‎chem/models/chemyk.py
+20-9
diff --git a/‎chem/models/electra.py
+3-1 b/‎chem/models/electra.py
+3-1
diff --git a/‎chem/models/graph.py
+32-16 b/‎chem/models/graph.py
+32-16
diff --git a/‎chem/models/graph_k2.py
+8-5 b/‎chem/models/graph_k2.py
+8-5
diff --git a/‎chem/models/graphyk.py
+32-13 b/‎chem/models/graphyk.py
+32-13
diff --git a/‎chem/models/lstm.py
+7-2 b/‎chem/models/lstm.py
+7-2
diff --git a/‎chem/models/recursive.py
+16-7 b/‎chem/models/recursive.py
+16-7
diff --git a/‎chem/molecule.py
+165-60 b/‎chem/molecule.py
+165-60
diff --git a/‎chem/run.py
+23-12 b/‎chem/run.py
+23-12
diff --git a/‎chem/train.py
+148-72 b/‎chem/train.py
+148-72
@@ -1,4 +1,3 @@
-
 import os
 import sys
 from sklearn.metrics import f1_score
@@ -17,19 +16,23 @@
 from data import ClassificationData, JCIClassificationData
 
 import logging
-logging.getLogger('pysmiles').setLevel(logging.CRITICAL)
 
+logging.getLogger("pysmiles").setLevel(logging.CRITICAL)
 
-class PartOfNet(pl.LightningModule):
 
+class PartOfNet(pl.LightningModule):
     def __init__(self, in_length, loops=10):
         super().__init__()
-        self.loops=loops
+        self.loops = loops
         self.left_graph_net = tgnn.GATConv(in_length, in_length)
         self.right_graph_net = tgnn.GATConv(in_length, in_length)
         self.attention = nn.Linear(in_length, 1)
         self.global_attention = tgnn.GlobalAttention(self.attention)
-        self.output_net = nn.Sequential(nn.Linear(2*in_length,2*in_length), nn.Linear(2*in_length,in_length), nn.Linear(in_length,500))
+        self.output_net = nn.Sequential(
+            nn.Linear(2 * in_length, 2 * in_length),
+            nn.Linear(2 * in_length, in_length),
+            nn.Linear(in_length, 500),
+        )
         self.f1 = F1(1, threshold=0.5)
 
     def _execute(self, batch, batch_idx):
@@ -40,60 +43,130 @@ def _execute(self, batch, batch_idx):
 
     def training_step(self, *args, **kwargs):
         loss, f1 = self._execute(*args, **kwargs)
-        self.log('train_loss', loss.detach().item(), on_step=True, on_epoch=True, prog_bar=True, logger=True)
-        self.log('train_f1', f1.item(), on_step=True, on_epoch=True, prog_bar=True, logger=True)
+        self.log(
+            "train_loss",
+            loss.detach().item(),
+            on_step=True,
+            on_epoch=True,
+            prog_bar=True,
+            logger=True,
+        )
+        self.log(
+            "train_f1",
+            f1.item(),
+            on_step=True,
+            on_epoch=True,
+            prog_bar=True,
+            logger=True,
+        )
         return loss
 
     def validation_step(self, *args, **kwargs):
         with torch.no_grad():
             loss, f1 = self._execute(*args, **kwargs)
-            self.log('val_loss', loss.detach().item(), on_step=True, on_epoch=True, prog_bar=True, logger=True)
-            self.log('val_f1', f1.item(), on_step=True, on_epoch=True, prog_bar=True, logger=True)
+            self.log(
+                "val_loss",
+                loss.detach().item(),
+                on_step=True,
+                on_epoch=True,
+                prog_bar=True,
+                logger=True,
+            )
+            self.log(
+                "val_f1",
+                f1.item(),
+                on_step=True,
+                on_epoch=True,
+                prog_bar=True,
+                logger=True,
+            )
             return loss
 
     def forward(self, x):
         a = self.left_graph_net(x.x_s, x.edge_index_s.long())
         b = self.right_graph_net(x.x_t, x.edge_index_t.long())
-        return self.output_net(torch.cat([self.global_attention(a, x.x_s_batch),self.global_attention(b, x.x_t_batch)], dim=1))
+        return self.output_net(
+            torch.cat(
+                [
+                    self.global_attention(a, x.x_s_batch),
+                    self.global_attention(b, x.x_t_batch),
+                ],
+                dim=1,
+            )
+        )
 
     def configure_optimizers(self):
         optimizer = torch.optim.Adam(self.parameters())
         return optimizer
 
 
 class JCINet(pl.LightningModule):
-
     def __init__(self, in_length, hidden_length, num_classes, loops=10):
         super().__init__()
-        self.loops=loops
+        self.loops = loops
 
-        self.node_net = nn.Sequential(nn.Linear(self.loops*in_length,hidden_length), nn.ReLU())
+        self.node_net = nn.Sequential(
+            nn.Linear(self.loops * in_length, hidden_length), nn.ReLU()
+        )
         self.embedding = torch.nn.Embedding(800, in_length)
         self.left_graph_net = tgnn.GATConv(in_length, in_length, dropout=0.1)
         self.final_graph_net = tgnn.GATConv(in_length, hidden_length, dropout=0.1)
         self.attention = nn.Linear(hidden_length, 1)
         self.global_attention = tgnn.GlobalAttention(self.attention)
-        self.output_net = nn.Sequential(nn.Linear(hidden_length,hidden_length), nn.Linear(hidden_length, num_classes))
+        self.output_net = nn.Sequential(
+            nn.Linear(hidden_length, hidden_length),
+            nn.Linear(hidden_length, num_classes),
+        )
         self.f1 = F1(num_classes, threshold=0.5)
 
     def _execute(self, batch, batch_idx):
         pred = self(batch)
         labels = batch.label.float()
         loss = F.binary_cross_entropy_with_logits(pred, labels)
-        f1 = f1_score(labels.cpu()>0.5, torch.sigmoid(pred).cpu()>0.5, average="micro")
+        f1 = f1_score(
+            labels.cpu() > 0.5, torch.sigmoid(pred).cpu() > 0.5, average="micro"
+        )
         return loss, f1
 
     def training_step(self, *args, **kwargs):
         loss, f1 = self._execute(*args, **kwargs)
-        self.log('train_loss', loss.detach().item(), on_step=False, on_epoch=True, prog_bar=True, logger=True)
-        self.log('train_f1', f1.item(), on_step=False, on_epoch=True, prog_bar=True, logger=True)
+        self.log(
+            "train_loss",
+            loss.detach().item(),
+            on_step=False,
+            on_epoch=True,
+            prog_bar=True,
+            logger=True,
+        )
+        self.log(
+            "train_f1",
+            f1.item(),
+            on_step=False,
+            on_epoch=True,
+            prog_bar=True,
+            logger=True,
+        )
         return loss
 
     def validation_step(self, *args, **kwargs):
         with torch.no_grad():
             loss, f1 = self._execute(*args, **kwargs)
-            self.log('val_loss', loss.detach().item(), on_step=False, on_epoch=True, prog_bar=True, logger=True)
-            self.log('val_f1', f1.item(), on_step=False, on_epoch=True, prog_bar=True, logger=True)
+            self.log(
+                "val_loss",
+                loss.detach().item(),
+                on_step=False,
+                on_epoch=True,
+                prog_bar=True,
+                logger=True,
+            )
+            self.log(
+                "val_f1",
+                f1.item(),
+                on_step=False,
+                on_epoch=True,
+                prog_bar=True,
+                logger=True,
+            )
             return loss
 
     def forward(self, x):
@@ -102,7 +175,7 @@ def forward(self, x):
         for _ in range(self.loops):
             a = self.left_graph_net(a, x.edge_index.long())
             l.append(a)
-        at = self.global_attention(self.node_net(torch.cat(l,dim=1)), x.x_batch)
+        at = self.global_attention(self.node_net(torch.cat(l, dim=1)), x.x_batch)
         return self.output_net(at)
 
     def configure_optimizers(self):
@@ -116,28 +189,40 @@ def train(train_loader, validation_loader):
     else:
         trainer_kwargs = dict(gpus=0)
     net = JCINet(100, 100, 500)
-    tb_logger = pl_loggers.CSVLogger('../../logs/')
+    tb_logger = pl_loggers.CSVLogger("../../logs/")
     checkpoint_callback = ModelCheckpoint(
         dirpath=os.path.join(tb_logger.log_dir, "checkpoints"),
         filename="{epoch}-{step}-{val_loss:.7f}",
         save_top_k=5,
         save_last=True,
         verbose=True,
-        monitor='val_loss',
-        mode='min'
+        monitor="val_loss",
+        mode="min",
+    )
+    trainer = pl.Trainer(
+        logger=tb_logger,
+        callbacks=[checkpoint_callback],
+        replace_sampler_ddp=False,
+        **trainer_kwargs
     )
-    trainer = pl.Trainer(logger=tb_logger, callbacks=[checkpoint_callback], replace_sampler_ddp=False, **trainer_kwargs)
     trainer.fit(net, train_loader, val_dataloaders=validation_loader)
 
 
 if __name__ == "__main__":
     batch_size = int(sys.argv[1])
-    #vl = ClassificationData("data/full_chebi", split="validation")
-    #tr = ClassificationData("data/full_chebi", split="train")
+    # vl = ClassificationData("data/full_chebi", split="validation")
+    # tr = ClassificationData("data/full_chebi", split="train")
     tr = JCIClassificationData("data/JCI_data", split="train")
     vl = JCIClassificationData("data/JCI_data", split="validation")
 
-    train_loader = DataLoader(tr, shuffle=True, batch_size=batch_size, follow_batch=["x", "edge_index", "label"])
-    validation_loader = DataLoader(vl, batch_size=batch_size, follow_batch=["x", "edge_index", "label"])
+    train_loader = DataLoader(
+        tr,
+        shuffle=True,
+        batch_size=batch_size,
+        follow_batch=["x", "edge_index", "label"],
+    )
+    validation_loader = DataLoader(
+        vl, batch_size=batch_size, follow_batch=["x", "edge_index", "label"]
+    )
 
     train(train_loader, validation_loader)
@@ -5,7 +5,6 @@
 
 
 class DataReader:
-
     def _get_raw_data(self, row):
         return row[0]
 
@@ -23,11 +22,12 @@ def _read_label(self, raw_label):
         return raw_label
 
     def to_data(self, row):
-        return self._read_data(self._get_raw_data(row)), self._read_label(self._get_raw_label(row))
+        return self._read_data(self._get_raw_data(row)), self._read_label(
+            self._get_raw_label(row)
+        )
 
 
 class ChemDataReader(DataReader):
-
     @classmethod
     def name(cls):
         return "smiles_token"
@@ -54,7 +54,6 @@ def _read_data(self, raw_data):
 
 
 class OrdReader(DataReader):
-
     @classmethod
     def name(cls):
         return "ord"
@@ -64,7 +63,6 @@ def _read_data(self, raw_data):
 
 
 class MolDatareader(DataReader):
-
     @classmethod
     def name(cls):
         return "mol"
@@ -73,10 +71,10 @@ def __init__(self, batch_size, **kwargs):
         super().__init__(batch_size, **kwargs)
         self.cache = []
 
-
-
     def to_data(self, row):
-            return self.get_encoded_mol(row[self.SMILES_INDEX], self.cache),self._get_label(row)
+        return self.get_encoded_mol(
+            row[self.SMILES_INDEX], self.cache
+        ), self._get_label(row)
 
     def get_encoded_mol(self, smiles, cache):
         try:
@@ -102,25 +100,26 @@ def get_encoded_mol(self, smiles, cache):
 
 
 class GraphDataset(DataReader):
-
     @classmethod
     def name(cls):
         return "graph"
 
     def __init__(self, batch_size, **kwargs):
         super().__init__(batch_size, **kwargs)
-        self.collater = Collater(follow_batch=["x", "edge_attr", "edge_index", "label"], exclude_keys=[])
+        self.collater = Collater(
+            follow_batch=["x", "edge_attr", "edge_index", "label"], exclude_keys=[]
+        )
         self.cache = []
 
     def process_smiles(self, smiles):
-
         def cache(m):
             try:
                 x = self.cache.index(m)
             except ValueError:
                 x = len(self.cache)
                 self.cache.append(m)
             return x
+
         try:
             mol = ps.read_smiles(smiles)
         except ValueError:
@@ -150,7 +149,7 @@ def to_data(self, df):
         for row in df.values[:DATA_LIMIT]:
             d = self.process_smiles(row[self.SMILES_INDEX])
             if d is not None and d.num_nodes > 1:
-                d.y = torch.tensor(row[self.LABEL_INDEX:].astype(bool)).unsqueeze(0)
+                d.y = torch.tensor(row[self.LABEL_INDEX :].astype(bool)).unsqueeze(0)
                 yield d
 
 
@@ -160,15 +159,15 @@ def to_data(self, df):
     pass
 else:
     from k_gnn.dataloader import collate
-    class GraphTwoDataset(GraphDataset):
 
+    class GraphTwoDataset(GraphDataset):
         @classmethod
         def name(cls):
             return "graph_k2"
 
         def to_data(self, df: pd.DataFrame):
             for data in super().to_data(df)[:DATA_LIMIT]:
-                if data.num_nodes >=6:
+                if data.num_nodes >= 6:
                     x = data.x
                     data.x = data.x.unsqueeze(0)
                     data = TwoMalkin()(data)
@@ -178,9 +177,8 @@ def to_data(self, df: pd.DataFrame):
         def collate(self, list_of_tuples):
             return collate(list_of_tuples)
 
-
     class JCIExtendedGraphTwoData(JCIExtendedBase, GraphTwoDataset):
         pass
 
     class JCIGraphTwoData(JCIBase, GraphTwoDataset):
-        pass
+        pass
@@ -28,16 +28,15 @@ def __init__(self, ppd: PrePairData, graph):
         self.label = ppd.label
 
     def __inc__(self, key, value):
-        if key == 'edge_index_s':
+        if key == "edge_index_s":
             return self.x_s.size(0)
-        if key == 'edge_index_t':
+        if key == "edge_index_t":
             return self.x_t.size(0)
         else:
             return super().__inc__(key, value)
 
 
 class XYData(torch.utils.data.Dataset, TransferableDataType):
-
     def __getitem__(self, index) -> T_co:
         return self.x[index], self.y[index]
 
@@ -52,7 +51,9 @@ def __init__(self, x, y, additional_fields=None, **kwargs):
         self.x = x
         self.y = y
 
-        self.additional_fields = list(additional_fields.keys()) if additional_fields else []
+        self.additional_fields = (
+            list(additional_fields.keys()) if additional_fields else []
+        )
 
     def to_x(self, device):
         return self.x.to(device)
@@ -63,15 +64,22 @@ def to_y(self, device):
     def to(self, device):
         x = self.to_x(device)
         y = self.to_y(device)
-        return XYData(x, y, additional_fields={k: getattr(self, k) for k in self.additional_fields} )
+        return XYData(
+            x,
+            y,
+            additional_fields={k: getattr(self, k) for k in self.additional_fields},
+        )
 
 
 class XYMolData(XYData):
-
     def to_x(self, device):
         l = []
         for g in self.x:
             graph = g.copy()
-            nx.set_node_attributes(graph, {k: v.to(device) for k, v in nx.get_node_attributes(g, "x").items()}, "x")
+            nx.set_node_attributes(
+                graph,
+                {k: v.to(device) for k, v in nx.get_node_attributes(g, "x").items()},
+                "x",
+            )
             l.append(graph)
-        return tuple(l)
+        return tuple(l)
@@ -8,6 +8,7 @@
 import pytorch_lightning as pl
 from pytorch_lightning.metrics import F1
 
+
 class ChEBIRecNN(pl.LightningModule):
     def __init__(self):
         super(ChEBIRecNN, self).__init__()
@@ -22,10 +23,7 @@ def __init__(self):
         self._f1 = F1(500, threshold=0.5)
         self._loss_fun = F.binary_cross_entropy_with_logits
 
-        self.metrics = {
-            "loss": self._loss_fun,
-            "f1": self._f1
-        }
+        self.metrics = {"loss": self._loss_fun, "f1": self._f1}
 
         self.c1 = nn.Linear(self.length, self.length)
         self.c2 = nn.Linear(self.length, self.length)
@@ -34,11 +32,31 @@ def __init__(self):
         self.c5 = nn.Linear(self.length, self.length)
         self.c = {1: self.c1, 2: self.c2, 3: self.c3, 4: self.c4, 5: self.c5}
 
-        self.NN_single_node = nn.Sequential(nn.Linear(self.atom_enc, self.length), nn.ReLU(), nn.Linear(self.length, self.length))
-        self.merge = nn.Sequential(nn.Linear(2*self.length, self.length), nn.ReLU(), nn.Linear(self.length, self.length))
-        self.register_parameter("attention_weight", torch.nn.Parameter(torch.rand(self.length,1, requires_grad=True)))
-        self.register_parameter("dag_weight", torch.nn.Parameter(torch.rand(self.length,1, requires_grad=True)))
-        self.final = nn.Sequential(nn.Linear(self.length, self.length), nn.ReLU(), nn.Linear(self.length, self.length), nn.ReLU(), nn.Linear(self.length, self.num_of_classes))
+        self.NN_single_node = nn.Sequential(
+            nn.Linear(self.atom_enc, self.length),
+            nn.ReLU(),
+            nn.Linear(self.length, self.length),
+        )
+        self.merge = nn.Sequential(
+            nn.Linear(2 * self.length, self.length),
+            nn.ReLU(),
+            nn.Linear(self.length, self.length),
+        )
+        self.register_parameter(
+            "attention_weight",
+            torch.nn.Parameter(torch.rand(self.length, 1, requires_grad=True)),
+        )
+        self.register_parameter(
+            "dag_weight",
+            torch.nn.Parameter(torch.rand(self.length, 1, requires_grad=True)),
+        )
+        self.final = nn.Sequential(
+            nn.Linear(self.length, self.length),
+            nn.ReLU(),
+            nn.Linear(self.length, self.length),
+            nn.ReLU(),
+            nn.Linear(self.length, self.num_of_classes),
+        )
 
     def forward(self, molecules: Iterable[Molecule]):
         return torch.stack([self._proc_single_mol(molecule) for molecule in molecules])
@@ -60,7 +78,12 @@ def _proc_single_mol(self, molecule):
                     output = F.relu(self.merge(inp)) + inp_prev
                 for succ in dag.successors(node):
                     try:
-                        inputs[succ] = torch.cat((self.c[num_inputs[succ]](inputs[succ]), output.unsqueeze(0)))
+                        inputs[succ] = torch.cat(
+                            (
+                                self.c[num_inputs[succ]](inputs[succ]),
+                                output.unsqueeze(0),
+                            )
+                        )
                         num_inputs[succ] += 1
                     except KeyError:
                         inputs[succ] = output.unsqueeze(0)
@@ -87,23 +110,30 @@ def validation_step(self, batch, batch_idx):
         return self._calculate_metrics(prediction, labels, prefix="val_")
 
     def process_atom(self, node, molecule):
-        return F.dropout(F.relu(self.NN_single_node(molecule.get_atom_features(node).to(self.device))), p=0.1)
+        return F.dropout(
+            F.relu(
+                self.NN_single_node(molecule.get_atom_features(node).to(self.device))
+            ),
+            p=0.1,
+        )
 
     def training_epoch_end(self, outputs) -> None:
         for metric in self.metrics:
-            avg = torch.stack([o[metric] for o in  outputs]).mean()
+            avg = torch.stack([o[metric] for o in outputs]).mean()
             self.log(metric, avg)
 
     def validation_epoch_end(self, outputs) -> None:
         if not self.trainer.running_sanity_check:
             for metric in self.metrics:
-                avg = torch.stack([o[metric] for o in  outputs]).mean()
+                avg = torch.stack([o[metric] for o in outputs]).mean()
                 self.log("val_" + metric, avg)
 
     @staticmethod
     def attention(weights, x):
-        return torch.sum(torch.mul(torch.softmax(torch.matmul(x, weights), dim=0),x), dim=0)
+        return torch.sum(
+            torch.mul(torch.softmax(torch.matmul(x, weights), dim=0), x), dim=0
+        )
 
     def configure_optimizers(self):
         optimizer = torch.optim.Adam(self.parameters(), lr=1e-3)
-        return optimizer
+        return optimizer
@@ -11,7 +11,7 @@
 import logging
 import sys
 
-logging.getLogger('pysmiles').setLevel(logging.CRITICAL)
+logging.getLogger("pysmiles").setLevel(logging.CRITICAL)
 
 
 class JCIBaseNet(pl.LightningModule):
@@ -39,19 +39,59 @@ def _execute(self, batch, batch_idx):
 
     def training_step(self, *args, **kwargs):
         loss, f1, mse = self._execute(*args, **kwargs)
-        self.log('train_loss', loss.detach().item(), on_step=False, on_epoch=True, prog_bar=True, logger=True)
-        self.log('train_f1', f1.detach().item(), on_step=False, on_epoch=True, prog_bar=True, logger=True)
-        self.log('train_mse', mse.detach().item(), on_step=False, on_epoch=True,
-                 prog_bar=True, logger=True)
+        self.log(
+            "train_loss",
+            loss.detach().item(),
+            on_step=False,
+            on_epoch=True,
+            prog_bar=True,
+            logger=True,
+        )
+        self.log(
+            "train_f1",
+            f1.detach().item(),
+            on_step=False,
+            on_epoch=True,
+            prog_bar=True,
+            logger=True,
+        )
+        self.log(
+            "train_mse",
+            mse.detach().item(),
+            on_step=False,
+            on_epoch=True,
+            prog_bar=True,
+            logger=True,
+        )
         return loss
 
     def validation_step(self, *args, **kwargs):
         with torch.no_grad():
             loss, f1, mse = self._execute(*args, **kwargs)
-            self.log('val_loss', loss.detach().item(), on_step=False, on_epoch=True, prog_bar=True, logger=True)
-            self.log('val_f1', f1.detach().item(), on_step=False, on_epoch=True, prog_bar=True, logger=True)
-            self.log('val_mse', mse.detach().item(), on_step=False, on_epoch=True,
-                     prog_bar=True, logger=True)
+            self.log(
+                "val_loss",
+                loss.detach().item(),
+                on_step=False,
+                on_epoch=True,
+                prog_bar=True,
+                logger=True,
+            )
+            self.log(
+                "val_f1",
+                f1.detach().item(),
+                on_step=False,
+                on_epoch=True,
+                prog_bar=True,
+                logger=True,
+            )
+            self.log(
+                "val_mse",
+                mse.detach().item(),
+                on_step=False,
+                on_epoch=True,
+                prog_bar=True,
+                logger=True,
+            )
             return loss
 
     def forward(self, x):
@@ -62,7 +102,14 @@ def configure_optimizers(self):
         return optimizer
 
     @classmethod
-    def run(cls, data, name, model_args: list = None, model_kwargs: dict = None, weighted=False):
+    def run(
+        cls,
+        data,
+        name,
+        model_args: list = None,
+        model_kwargs: dict = None,
+        weighted=False,
+    ):
         if model_args is None:
             model_args = []
         if model_kwargs is None:
@@ -76,8 +123,10 @@ def run(cls, data, name, model_args: list = None, model_kwargs: dict = None, wei
         if weighted:
             weights = model_kwargs.get("weights")
             if weights is None:
-                weights = 1 + torch.sum(torch.cat([data.y for data in train_data]).float(), dim=0)
-                weights = torch.mean(weights)/weights
+                weights = 1 + torch.sum(
+                    torch.cat([data.y for data in train_data]).float(), dim=0
+                )
+                weights = torch.mean(weights) / weights
                 name += "__weighted"
             model_kwargs["weights"] = weights
         else:
@@ -91,25 +140,34 @@ def run(cls, data, name, model_args: list = None, model_kwargs: dict = None, wei
         else:
             trainer_kwargs = dict(gpus=0)
 
-        tb_logger = pl_loggers.TensorBoardLogger('logs/', name=name)
+        tb_logger = pl_loggers.TensorBoardLogger("logs/", name=name)
         checkpoint_callback = ModelCheckpoint(
             dirpath=os.path.join(tb_logger.log_dir, "checkpoints"),
             filename="{epoch}-{step}-{val_loss:.7f}",
             save_top_k=5,
             save_last=True,
             verbose=True,
-            monitor='val_loss',
-            mode='min'
+            monitor="val_loss",
+            mode="min",
         )
 
         # Calculate weights per class
 
         net = cls(*model_args, **model_kwargs)
 
         # Early stopping seems to be bugged right now with ddp accelerator :(
-        es = EarlyStopping(monitor='val_loss', patience=10, min_delta=0.00,
-           verbose=False,
+        es = EarlyStopping(
+            monitor="val_loss",
+            patience=10,
+            min_delta=0.00,
+            verbose=False,
         )
 
-        trainer = pl.Trainer(logger=tb_logger,max_epochs=300, callbacks=[checkpoint_callback], replace_sampler_ddp=False, **trainer_kwargs)
-        trainer.fit(net, train_data, val_dataloaders=val_data)
+        trainer = pl.Trainer(
+            logger=tb_logger,
+            max_epochs=300,
+            callbacks=[checkpoint_callback],
+            replace_sampler_ddp=False,
+            **trainer_kwargs
+        )
+        trainer.fit(net, train_data, val_dataloaders=val_data)
@@ -11,7 +11,7 @@
 import logging
 from chem.models.base import JCIBaseNet
 
-logging.getLogger('pysmiles').setLevel(logging.CRITICAL)
+logging.getLogger("pysmiles").setLevel(logging.CRITICAL)
 
 
 class ChemYK(JCIBaseNet):
@@ -28,25 +28,36 @@ def __init__(self, in_d, out_d, num_classes, **kwargs):
         self.w_l = nn.Linear(d_internal, d_internal)
         self.w_r = nn.Linear(d_internal, d_internal)
         self.norm = nn.LayerNorm(d_internal)
-        self.output = nn.Sequential(nn.Linear(in_d, in_d), nn.ReLU(), nn.Dropout(0.2), nn.Linear(in_d, num_classes))
+        self.output = nn.Sequential(
+            nn.Linear(in_d, in_d),
+            nn.ReLU(),
+            nn.Dropout(0.2),
+            nn.Linear(in_d, num_classes),
+        )
 
     def forward(self, data, *args, **kwargs):
         m = self.embedding(data.x)
         max_width = m.shape[1]
-        h = [m] #torch.zeros(emb.shape[0], max_width, *emb.shape[1:])
-        #h[:, 0] = emb
+        h = [m]  # torch.zeros(emb.shape[0], max_width, *emb.shape[1:])
+        # h[:, 0] = emb
         for width in range(1, max_width):
-            l = torch.stack(tuple(h[i][:, :(max_width-width)] for i in range(width)))
-            r = torch.stack(tuple(h[i][:,(width-i):] for i in range(0, width))).flip(0)
-            m = self.merge(l,r)
+            l = torch.stack(tuple(h[i][:, : (max_width - width)] for i in range(width)))
+            r = torch.stack(
+                tuple(h[i][:, (width - i) :] for i in range(0, width))
+            ).flip(0)
+            m = self.merge(l, r)
             h.append(m)
         return self.output(m).squeeze(1)
 
     def merge(self, l, r):
         x = torch.stack([self.a_l(l), self.a_r(r)])
         beta = torch.softmax(x, 0)
-        return F.leaky_relu(self.attention(torch.sum(beta*torch.stack([self.w_l(l), self.w_r(r)]), dim=0)))
+        return F.leaky_relu(
+            self.attention(
+                torch.sum(beta * torch.stack([self.w_l(l), self.w_r(r)]), dim=0)
+            )
+        )
 
     def attention(self, parts):
         at = torch.softmax(self.s(parts), 1)
-        return torch.sum(at*parts, dim=0)
+        return torch.sum(at * parts, dim=0)
@@ -5,10 +5,12 @@
 import logging
 from chem.models.base import JCIBaseNet
 
-logging.getLogger('pysmiles').setLevel(logging.CRITICAL)
+logging.getLogger("pysmiles").setLevel(logging.CRITICAL)
+
 
 class ElectraPre(JCIBaseNet):
     NAME = "Electra"
+
     def __init__(self, config=None, **kwargs):
         super().__init__(**kwargs)
         config = ElectraConfig(**config)
 
@@ -9,7 +9,7 @@
 
 from chem.models.base import JCIBaseNet
 
-logging.getLogger('pysmiles').setLevel(logging.CRITICAL)
+logging.getLogger("pysmiles").setLevel(logging.CRITICAL)
 
 
 class JCIGraphNet(JCIBaseNet):
@@ -23,11 +23,16 @@ def __init__(self, in_length, hidden_length, num_classes, **kwargs):
         self.conv2 = tgnn.GraphConv(in_length, in_length)
         self.conv3 = tgnn.GraphConv(in_length, hidden_length)
 
-        self.output_net = nn.Sequential(nn.Linear(hidden_length,hidden_length), nn.ELU(), nn.Linear(hidden_length,hidden_length), nn.ELU(), nn.Linear(hidden_length, num_classes))
+        self.output_net = nn.Sequential(
+            nn.Linear(hidden_length, hidden_length),
+            nn.ELU(),
+            nn.Linear(hidden_length, hidden_length),
+            nn.ELU(),
+            nn.Linear(hidden_length, num_classes),
+        )
 
         self.dropout = nn.Dropout(0.1)
 
-
     def forward(self, x):
         a = self.embedding(x.x)
         a = self.dropout(a)
@@ -38,24 +43,37 @@ def forward(self, x):
         a = scatter_add(a, x.batch, dim=0)
         return self.output_net(a)
 
+
 class JCIGraphAttentionNet(JCIBaseNet):
     NAME = "AGNN"
 
     def __init__(self, in_length, hidden_length, num_classes, **kwargs):
         super().__init__(num_classes, **kwargs)
         self.embedding = torch.nn.Embedding(800, in_length)
         self.edge_embedding = torch.nn.Embedding(4, in_length)
-        in_length = in_length+10
-        self.conv1 = tgnn.GATConv(in_length, in_length, 5, concat=False, dropout=0.1, add_self_loops=True)
-        self.conv2 = tgnn.GATConv(in_length, in_length, 5, concat=False, add_self_loops=True)
-        self.conv3 = tgnn.GATConv(in_length, in_length, 5, concat=False, add_self_loops=True)
-        self.conv4 = tgnn.GATConv(in_length, in_length, 5, concat=False, add_self_loops=True)
-        self.conv5 = tgnn.GATConv(in_length, in_length, 5, concat=False, add_self_loops=True)
-        self.output_net = nn.Sequential(nn.Linear(in_length, hidden_length),
-                                        nn.LeakyReLU(),
-                                        nn.Linear(hidden_length, hidden_length),
-                                        nn.LeakyReLU(),
-                                        nn.Linear(hidden_length, num_classes))
+        in_length = in_length + 10
+        self.conv1 = tgnn.GATConv(
+            in_length, in_length, 5, concat=False, dropout=0.1, add_self_loops=True
+        )
+        self.conv2 = tgnn.GATConv(
+            in_length, in_length, 5, concat=False, add_self_loops=True
+        )
+        self.conv3 = tgnn.GATConv(
+            in_length, in_length, 5, concat=False, add_self_loops=True
+        )
+        self.conv4 = tgnn.GATConv(
+            in_length, in_length, 5, concat=False, add_self_loops=True
+        )
+        self.conv5 = tgnn.GATConv(
+            in_length, in_length, 5, concat=False, add_self_loops=True
+        )
+        self.output_net = nn.Sequential(
+            nn.Linear(in_length, hidden_length),
+            nn.LeakyReLU(),
+            nn.Linear(hidden_length, hidden_length),
+            nn.LeakyReLU(),
+            nn.Linear(hidden_length, num_classes),
+        )
         self.dropout = nn.Dropout(0.1)
 
     def forward(self, batch):
@@ -71,5 +89,3 @@ def forward(self, batch):
         a = scatter_mean(a, batch.batch, dim=0)
         a = self.output_net(a)
         return a
-
-
 
@@ -11,7 +11,7 @@
 
 from chem.models.base import JCIBaseNet
 
-logging.getLogger('pysmiles').setLevel(logging.CRITICAL)
+logging.getLogger("pysmiles").setLevel(logging.CRITICAL)
 
 
 class JCIGraphK2Net(JCIBaseNet):
@@ -29,9 +29,13 @@ def __init__(self, in_length, hidden_length, num_classes, weights=None, **kwargs
         self.conv2_2 = tgnn.GraphConv(in_length, in_length)
         self.conv2_3 = tgnn.GraphConv(in_length, hidden_length)
 
-        self.output_net = nn.Sequential(nn.Linear(hidden_length*2, hidden_length), nn.ELU(),
-                                        nn.Linear(hidden_length, hidden_length), nn.ELU(),
-                                        nn.Linear(hidden_length, num_classes))
+        self.output_net = nn.Sequential(
+            nn.Linear(hidden_length * 2, hidden_length),
+            nn.ELU(),
+            nn.Linear(hidden_length, hidden_length),
+            nn.ELU(),
+            nn.Linear(hidden_length, num_classes),
+        )
 
         self.dropout = nn.Dropout(0.1)
 
@@ -54,4 +58,3 @@ def forward(self, x):
 
         a = self.dropout(a)
         return self.output_net(a)
-
 
@@ -9,7 +9,7 @@
 from chem.models.base import JCIBaseNet
 
 
-logging.getLogger('pysmiles').setLevel(logging.CRITICAL)
+logging.getLogger("pysmiles").setLevel(logging.CRITICAL)
 
 
 class ChemYK(JCIBaseNet):
@@ -26,16 +26,36 @@ def __init__(self, in_d, out_d, num_classes, **kwargs):
         self.softmax = nn.Softmax()
         self.attention_weight = nn.Linear(in_d, in_d)
         self.top_level_attention_weight = nn.Linear(in_d, in_d)
-        self.output = nn.Sequential(nn.Linear(in_d, in_d), nn.ReLU(), nn.Dropout(0.2), nn.Linear(in_d, num_classes))
+        self.output = nn.Sequential(
+            nn.Linear(in_d, in_d),
+            nn.ReLU(),
+            nn.Dropout(0.2),
+            nn.Linear(in_d, num_classes),
+        )
 
     def forward(self, batch, max_width=5):
         result = []
         for data in batch.x:
             # Calculate embeddings
-            clusters = [(frozenset({x, y}), self.merge([(self.embedding(data.nodes[x]["x"]), self.embedding(data.nodes[y]["x"]))])) for x,y in data.edges]
+            clusters = [
+                (
+                    frozenset({x, y}),
+                    self.merge(
+                        [
+                            (
+                                self.embedding(data.nodes[x]["x"]),
+                                self.embedding(data.nodes[y]["x"]),
+                            )
+                        ]
+                    ),
+                )
+                for x, y in data.edges
+            ]
             while len(clusters[0][0]) < max_width:
                 new_clusters = dict()
-                for (cluster_l, value_l), (cluster_r, value_r) in combinations(clusters, 2):
+                for (cluster_l, value_l), (cluster_r, value_r) in combinations(
+                    clusters, 2
+                ):
                     if len(cluster_l.union(cluster_r)) == len(cluster_l) + 1:
                         u = cluster_l.union(cluster_r)
                         new_clusters[u] = new_clusters.get(u, []) + [(value_l, value_r)]
@@ -46,22 +66,21 @@ def forward(self, batch, max_width=5):
         return self.output(torch.stack(result))
 
     def merge(self, pairs):
-        return sum(self.fold(self._pair_merge(x,y)) for x, y in pairs)
+        return sum(self.fold(self._pair_merge(x, y)) for x, y in pairs)
 
-    def _pair_merge(self, x,y):
-        beta = self.softmax(torch.stack([self.left(x),self.right(y)]))
-        h2 = beta[0]*self.w_l(x) + beta[1]*self.w_r(y)
+    def _pair_merge(self, x, y):
+        beta = self.softmax(torch.stack([self.left(x), self.right(y)]))
+        h2 = beta[0] * self.w_l(x) + beta[1] * self.w_r(y)
         return self.ff_rep(h2) + h2
 
     def fold(self, h):
-        return exp(self.attention_weight(h))*h
+        return exp(self.attention_weight(h)) * h
 
     def top_level_merge(self, clusters):
-        t = torch.stack([c for (_,c) in clusters])
+        t = torch.stack([c for (_, c) in clusters])
         sm = self.softmax(self.top_level_attention_weight(t))
-        return torch.sum(t*sm, dim=0)
-
+        return torch.sum(t * sm, dim=0)
 
 
 def graphyk(graph: nx.Graph):
-    graph.nodes()
+    graph.nodes()
@@ -5,7 +5,7 @@
 import sys
 from chem.models.base import JCIBaseNet
 
-logging.getLogger('pysmiles').setLevel(logging.CRITICAL)
+logging.getLogger("pysmiles").setLevel(logging.CRITICAL)
 
 
 class ChemLSTM(JCIBaseNet):
@@ -15,7 +15,12 @@ def __init__(self, in_d, out_d, num_classes, **kwargs):
         super().__init__(num_classes, **kwargs)
         self.lstm = nn.LSTM(in_d, out_d, batch_first=True)
         self.embedding = nn.Embedding(800, 100)
-        self.output = nn.Sequential(nn.Linear(out_d, in_d), nn.ReLU(), nn.Dropout(0.2), nn.Linear(in_d, num_classes))
+        self.output = nn.Sequential(
+            nn.Linear(out_d, in_d),
+            nn.ReLU(),
+            nn.Dropout(0.2),
+            nn.Linear(in_d, num_classes),
+        )
 
     def forward(self, data):
         x = data.x
 
@@ -6,7 +6,7 @@
 from chem.models.base import JCIBaseNet
 
 
-logging.getLogger('pysmiles').setLevel(logging.CRITICAL)
+logging.getLogger("pysmiles").setLevel(logging.CRITICAL)
 
 
 class Recursive(JCIBaseNet):
@@ -40,7 +40,12 @@ def __init__(self, in_d, out_d, num_classes, **kwargs):
 
         self.base = torch.nn.parameter.Parameter(torch.empty((in_d,)))
         self.base_memory = torch.nn.parameter.Parameter(torch.empty((mem_len,)))
-        self.output = nn.Sequential(nn.Linear(in_d, in_d), nn.ReLU(), nn.Dropout(0.2), nn.Linear(in_d, num_classes))
+        self.output = nn.Sequential(
+            nn.Linear(in_d, in_d),
+            nn.ReLU(),
+            nn.Dropout(0.2),
+            nn.Linear(in_d, num_classes),
+        )
 
     def forward(self, batch):
         result = []
@@ -49,7 +54,9 @@ def forward(self, batch):
             c = nx.center(graph)[0]
             d = nx.single_source_shortest_path(graph, c)
             if graph.edges:
-                digraph = nx.DiGraph((a,b) if d[a] > d[b] else (b,a) for (a,b) in graph.edges)
+                digraph = nx.DiGraph(
+                    (a, b) if d[a] > d[b] else (b, a) for (a, b) in graph.edges
+                )
             else:
                 digraph = nx.DiGraph(graph)
             child_results = {}
@@ -68,19 +75,21 @@ def forward(self, batch):
         return torch.stack(result)
 
     def merge_childen(self, child_values, x):
-        stack = torch.stack(child_values).unsqueeze(0).transpose(1,0)
-        att = self.children_attention(x.expand(1, stack.shape[1], -1).transpose(1, 0), stack, stack)[0]
+        stack = torch.stack(child_values).unsqueeze(0).transpose(1, 0)
+        att = self.children_attention(
+            x.expand(1, stack.shape[1], -1).transpose(1, 0), stack, stack
+        )[0]
         return torch.sum(att.squeeze(0), dim=0)
 
     def input(self, x0, hidden):
 
         x = x0.unsqueeze(0).unsqueeze(0)
-        a = self.input_norm_1(x + self.input_attention(x,x,x)[0])
+        a = self.input_norm_1(x + self.input_attention(x, x, x)[0])
         a = self.input_norm_2(a + F.relu(self.input_post(a)))
 
         h0 = hidden.unsqueeze(0).unsqueeze(0)
         b = self.hidden_norm_1(h0 + self.input_attention(h0, h0, h0)[0])
-        #b = self.norm(b + self.hidden_post(b))
+        # b = self.norm(b + self.hidden_post(b))
 
         c = self.merge_norm_1(b + self.merge_attention(a, b, b)[0])
         c = self.merge_norm_2(c + F.relu(self.merge_post(c)))
 
@@ -33,22 +33,28 @@ def __init__(self, smile, logp=None, contract_rings=False):
 
         for i in range(self.no_of_atoms):
             atom = m.GetAtomWithIdx(i)
-            self.graph.add_node(i, attr_dict={"atom_features": Molecule.atom_features(atom)})
+            self.graph.add_node(
+                i, attr_dict={"atom_features": Molecule.atom_features(atom)}
+            )
             for neighbour in atom.GetNeighbors():
                 neighbour_idx = neighbour.GetIdx()
                 bond = m.GetBondBetweenAtoms(i, neighbour_idx)
-                self.graph.add_edge(i, neighbour_idx,
-                                attr_dict={"bond_features": Molecule.bond_features(bond)})
+                self.graph.add_edge(
+                    i,
+                    neighbour_idx,
+                    attr_dict={"bond_features": Molecule.bond_features(bond)},
+                )
 
         self.create_directed_graphs()
-        #self.create_feature_vectors()
+        # self.create_feature_vectors()
 
     def create_directed_graphs(self):
-        '''
+        """
         :return:
-        '''
+        """
         self.directed_graphs = np.empty(
-            (self.no_of_atoms, self.no_of_atoms - 1, 3), dtype=int)
+            (self.no_of_atoms, self.no_of_atoms - 1, 3), dtype=int
+        )
 
         self.dag_to_node = {}
 
@@ -66,32 +72,34 @@ def create_directed_graphs(self):
             break
 
     def create_feature_vectors(self):
-        '''
+        """
         :return:
-        '''
+        """
         # create a three dimesnional matrix I,
         # such that Iij is the local input vector for jth vertex in ith DAG
 
         length_of_bond_features = Molecule.num_bond_features()
         length_of_atom_features = Molecule.num_atom_features()
 
         self.local_input_vector = np.zeros(
-            (self.no_of_atoms, self.no_of_atoms, Molecule.num_of_features()))
-
+            (self.no_of_atoms, self.no_of_atoms, Molecule.num_of_features())
+        )
 
         for idx in range(self.no_of_atoms):
             sorted_path = self.directed_graphs[idx, :, :]
 
-            self.local_input_vector[idx, idx, :length_of_atom_features] = \
-                self.get_atom_features(idx)
+            self.local_input_vector[
+                idx, idx, :length_of_atom_features
+            ] = self.get_atom_features(idx)
 
             no_of_incoming_edges = {}
             for i in range(self.no_of_atoms - 1):
                 node1 = sorted_path[i, 0]
                 node2 = sorted_path[i, 1]
 
-                self.local_input_vector[idx, node1, :length_of_atom_features] = \
-                    self.get_atom_features(node1)
+                self.local_input_vector[
+                    idx, node1, :length_of_atom_features
+                ] = self.get_atom_features(node1)
 
                 if node2 in no_of_incoming_edges:
                     index = no_of_incoming_edges[node2]
@@ -102,12 +110,12 @@ def create_feature_vectors(self):
                     index = 0
                     no_of_incoming_edges[node2] = 1
 
-
-                start = length_of_atom_features + index* length_of_bond_features
+                start = length_of_atom_features + index * length_of_bond_features
                 end = start + length_of_bond_features
 
-                self.local_input_vector[idx, node2, start:end] = \
-                    self.get_bond_features(node1, node2)
+                self.local_input_vector[idx, node2, start:end] = self.get_bond_features(
+                    node1, node2
+                )
 
     def get_cycle(self):
         try:
@@ -116,7 +124,12 @@ def get_cycle(self):
             return []
 
     def collect_atom_features(self):
-        self.af = {node_id: torch.tensor(self.graph.nodes[node_id]["attr_dict"]["atom_features"]).float() for node_id in range(self.no_of_atoms)}
+        self.af = {
+            node_id: torch.tensor(
+                self.graph.nodes[node_id]["attr_dict"]["atom_features"]
+            ).float()
+            for node_id in range(self.no_of_atoms)
+        }
 
     def get_atom_features(self, node_id):
         return self.af[node_id]
@@ -127,37 +140,121 @@ def get_bond_features(self, node1, node2):
 
     @staticmethod
     def atom_features(atom):
-        return np.array(Molecule.one_of_k_encoding_unk(atom.GetSymbol(),
-                                                       ['C', 'N', 'O', 'S', 'F', 'Si', 'P', 'Cl',
-                                                        'Br', 'Mg', 'Na',
-                                                        'Ca', 'Fe', 'As', 'Al', 'I', 'B', 'V', 'K',
-                                                        'Tl', 'Yb',
-                                                        'Sb', 'Sn', 'Ag', 'Pd', 'Co', 'Se', 'Ti',
-                                                        'Zn', 'H',  # H?
-                                                        'Li', 'Ge', 'Cu', 'Au', 'Ni', 'Cd', 'In',
-                                                        'Mn',
-                                                        'Zr', 'Cr', 'Pt', 'Hg', 'Pb', 'Unknown']) +
-                        Molecule.one_of_k_encoding(atom.GetDegree(), [0, 1, 2, 3, 4, 5]) +
-                        Molecule.one_of_k_encoding_unk(atom.GetTotalNumHs(), [0, 1, 2, 3, 4]) +
-                        Molecule.one_of_k_encoding_unk(atom.GetImplicitValence(),
-                                                       [0, 1, 2, 3, 4, 5]) + [atom.GetIsAromatic()])
+        return np.array(
+            Molecule.one_of_k_encoding_unk(
+                atom.GetSymbol(),
+                [
+                    "C",
+                    "N",
+                    "O",
+                    "S",
+                    "F",
+                    "Si",
+                    "P",
+                    "Cl",
+                    "Br",
+                    "Mg",
+                    "Na",
+                    "Ca",
+                    "Fe",
+                    "As",
+                    "Al",
+                    "I",
+                    "B",
+                    "V",
+                    "K",
+                    "Tl",
+                    "Yb",
+                    "Sb",
+                    "Sn",
+                    "Ag",
+                    "Pd",
+                    "Co",
+                    "Se",
+                    "Ti",
+                    "Zn",
+                    "H",  # H?
+                    "Li",
+                    "Ge",
+                    "Cu",
+                    "Au",
+                    "Ni",
+                    "Cd",
+                    "In",
+                    "Mn",
+                    "Zr",
+                    "Cr",
+                    "Pt",
+                    "Hg",
+                    "Pb",
+                    "Unknown",
+                ],
+            )
+            + Molecule.one_of_k_encoding(atom.GetDegree(), [0, 1, 2, 3, 4, 5])
+            + Molecule.one_of_k_encoding_unk(atom.GetTotalNumHs(), [0, 1, 2, 3, 4])
+            + Molecule.one_of_k_encoding_unk(
+                atom.GetImplicitValence(), [0, 1, 2, 3, 4, 5]
+            )
+            + [atom.GetIsAromatic()]
+        )
 
     @staticmethod
     def atom_features_of_contract_rings(degree):
-        return np.array(Molecule.one_of_k_encoding_unk('Unknown',
-                                                       ['C', 'N', 'O', 'S', 'F', 'Si', 'P', 'Cl',
-                                                        'Br', 'Mg', 'Na',
-                                                        'Ca', 'Fe', 'As', 'Al', 'I', 'B', 'V', 'K',
-                                                        'Tl', 'Yb',
-                                                        'Sb', 'Sn', 'Ag', 'Pd', 'Co', 'Se', 'Ti',
-                                                        'Zn', 'H',  # H?
-                                                        'Li', 'Ge', 'Cu', 'Au', 'Ni', 'Cd', 'In',
-                                                        'Mn', 'Zr',
-                                                        'Cr', 'Pt', 'Hg', 'Pb', 'Unknown']) +
-                        Molecule.one_of_k_encoding(degree, [0, 1, 2, 3, 4, 5]) +
-                        Molecule.one_of_k_encoding_unk(0, [0, 1, 2, 3, 4]) +
-                        Molecule.one_of_k_encoding_unk(0, [0, 1, 2, 3, 4, 5]) +
-                        [0])
+        return np.array(
+            Molecule.one_of_k_encoding_unk(
+                "Unknown",
+                [
+                    "C",
+                    "N",
+                    "O",
+                    "S",
+                    "F",
+                    "Si",
+                    "P",
+                    "Cl",
+                    "Br",
+                    "Mg",
+                    "Na",
+                    "Ca",
+                    "Fe",
+                    "As",
+                    "Al",
+                    "I",
+                    "B",
+                    "V",
+                    "K",
+                    "Tl",
+                    "Yb",
+                    "Sb",
+                    "Sn",
+                    "Ag",
+                    "Pd",
+                    "Co",
+                    "Se",
+                    "Ti",
+                    "Zn",
+                    "H",  # H?
+                    "Li",
+                    "Ge",
+                    "Cu",
+                    "Au",
+                    "Ni",
+                    "Cd",
+                    "In",
+                    "Mn",
+                    "Zr",
+                    "Cr",
+                    "Pt",
+                    "Hg",
+                    "Pb",
+                    "Unknown",
+                ],
+            )
+            + Molecule.one_of_k_encoding(degree, [0, 1, 2, 3, 4, 5])
+            + Molecule.one_of_k_encoding_unk(0, [0, 1, 2, 3, 4])
+            + Molecule.one_of_k_encoding_unk(0, [0, 1, 2, 3, 4, 5])
+            + [0]
+        )
 
     @staticmethod
     def bond_features_between_contract_rings():
@@ -166,22 +263,30 @@ def bond_features_between_contract_rings():
     @staticmethod
     def bond_features(bond):
         bt = bond.GetBondType()
-        return np.array([bt == Chem.rdchem.BondType.SINGLE,
-                         bt == Chem.rdchem.BondType.DOUBLE,
-                         bt == Chem.rdchem.BondType.TRIPLE,
-                         bt == Chem.rdchem.BondType.AROMATIC,
-                         bond.GetIsConjugated(),
-                         bond.IsInRing()])
+        return np.array(
+            [
+                bt == Chem.rdchem.BondType.SINGLE,
+                bt == Chem.rdchem.BondType.DOUBLE,
+                bt == Chem.rdchem.BondType.TRIPLE,
+                bt == Chem.rdchem.BondType.AROMATIC,
+                bond.GetIsConjugated(),
+                bond.IsInRing(),
+            ]
+        )
 
     @staticmethod
     def num_of_features():
-        return Molecule.max_number_of_parents*Molecule.num_bond_features() + Molecule.num_atom_features()
+        return (
+            Molecule.max_number_of_parents * Molecule.num_bond_features()
+            + Molecule.num_atom_features()
+        )
 
     @staticmethod
     def one_of_k_encoding(x, allowable_set):
         if x not in allowable_set:
             raise Exception(
-                "input {0} not in allowable set{1}:".format(x, allowable_set))
+                "input {0} not in allowable set{1}:".format(x, allowable_set)
+            )
         return list(map(lambda s: x == s, allowable_set))
 
     @staticmethod
@@ -194,20 +299,20 @@ def one_of_k_encoding_unk(x, allowable_set):
     @staticmethod
     def num_atom_features():
         # Return length of feature vector using a very simple molecule.
-        m = Chem.MolFromSmiles('CC')
+        m = Chem.MolFromSmiles("CC")
         alist = m.GetAtoms()
         a = alist[0]
         return len(Molecule.atom_features(a))
 
     @staticmethod
     def num_bond_features():
         # Return length of feature vector using a very simple molecule.
-        simple_mol = Chem.MolFromSmiles('CC')
+        simple_mol = Chem.MolFromSmiles("CC")
         Chem.SanitizeMol(simple_mol)
         return len(Molecule.bond_features(simple_mol.GetBonds()[0]))
 
 
-if __name__ == '__main__':
-    log_format = '%(asctime)s - %(name)s - %(levelname)s - %(message)s'
+if __name__ == "__main__":
+    log_format = "%(asctime)s - %(name)s - %(levelname)s - %(message)s"
     logging.basicConfig(level=logging.INFO, format=log_format)
     logger = logging.getLogger(__name__)
@@ -2,23 +2,34 @@
 from chem.data import datasets as ds
 import sys
 
+
 def main(batch_size):
     exps = [
-        (electra.ElectraPre,
-         dict(
-             lr=1e-4,
-             config=dict(
-                vocab_size=1400,
-                max_position_embeddings=1800,
-                num_attention_heads=8,
-                num_hidden_layers=6,
-                type_vocab_size=1)),
-         (ds.PubChemFullToken,)),
+        (
+            electra.ElectraPre,
+            dict(
+                lr=1e-4,
+                config=dict(
+                    vocab_size=1400,
+                    max_position_embeddings=1800,
+                    num_attention_heads=8,
+                    num_hidden_layers=6,
+                    type_vocab_size=1,
+                ),
+            ),
+            (ds.PubChemFullToken,),
+        ),
     ]
     for net_cls, model_kwargs, datasets in exps:
         for dataset in datasets:
             for weighted in [False]:
-                net_cls.run(dataset(batch_size), net_cls.NAME, model_kwargs=model_kwargs, weighted=weighted)
+                net_cls.run(
+                    dataset(batch_size),
+                    net_cls.NAME,
+                    model_kwargs=model_kwargs,
+                    weighted=weighted,
+                )
+
 
 if __name__ == "__main__":
-    main(int(sys.argv[1]))
+    main(int(sys.argv[1]))
@@ -20,50 +20,54 @@
 NUM_EPOCHS = 100
 LEARNING_RATE = 0.01
 
+
 def eval_model(model, dataset, test_labels):
-  raw_values = []
-  predictions = []
-  final_scores = []
+    raw_values = []
+    predictions = []
+    final_scores = []
 
-  with torch.no_grad():
-      for batch in dataset:
-          for molecule, label in batch:
-              model_outputs = model(molecule)
-              prediction = [1.0 if i > 0.5 else 0.0 for i in model_outputs]
-              predictions.append(prediction)
-              raw_values.append(model_outputs)
-              final_scores.append(f1_score(prediction, label.tolist()))
+    with torch.no_grad():
+        for batch in dataset:
+            for molecule, label in batch:
+                model_outputs = model(molecule)
+                prediction = [1.0 if i > 0.5 else 0.0 for i in model_outputs]
+                predictions.append(prediction)
+                raw_values.append(model_outputs)
+                final_scores.append(f1_score(prediction, label.tolist()))
 
-      avg_f1 = sum(final_scores) / len(final_scores)
-      return raw_values, predictions, final_scores, avg_f1
+        avg_f1 = sum(final_scores) / len(final_scores)
+        return raw_values, predictions, final_scores, avg_f1
 
 
 def crawl_info(DAG, sink_parents):
-  topological_order = [int(i[0]) for i in DAG]
-  target_nodes = [int(i[1]) for i in DAG]
-  sink = target_nodes[-1]
-  sources = []
-  parents = {}
+    topological_order = [int(i[0]) for i in DAG]
+    target_nodes = [int(i[1]) for i in DAG]
+    sink = target_nodes[-1]
+    sources = []
+    parents = {}
+
+    for i in range(len(topological_order)):
+        for j in range(len(target_nodes)):
+            if topological_order[i] == target_nodes[j]:
+                if topological_order[i] not in parents.keys():
+                    parents[topological_order[i]] = []
+                parents[topological_order[i]].append(topological_order[j])
 
-  for i in range(len(topological_order)):
-    for j in range(len(target_nodes)):
-      if topological_order[i] == target_nodes[j]:
-        if topological_order[i] not in parents.keys():
-          parents[topological_order[i]] = []
-        parents[topological_order[i]].append(topological_order[j])
+    for node in topological_order:
+        if node not in parents.keys():
+            sources.append(node)
 
-  for node in topological_order:
-    if node not in parents.keys():
-      sources.append(node)
+    return topological_order, sources, parents, sink, sink_parents
 
-  return topological_order, sources, parents, sink, sink_parents
 
 import random
 
+
 def collate(batch):
     input, labels = zip(*batch)
     return input, torch.stack(labels)
 
+
 def _execute(model, loss_fn, optimizer, data, device, with_grad=True):
     train_running_loss = 0
     data_size = 0
@@ -77,37 +81,58 @@ def _execute(model, loss_fn, optimizer, data, device, with_grad=True):
         prediction = model(molecules)
         loss = loss_fn(prediction, labels)
         data_size += 1
-        f1 += f1_score(prediction > 0.5, labels > 0.5, average='micro')
+        f1 += f1_score(prediction > 0.5, labels > 0.5, average="micro")
         train_running_loss += loss.item()
         if with_grad:
             print(f"Batch {num_batch}/{num_batches}")
             loss.backward()
             optimizer.step()
-    return train_running_loss/data_size, f1/data_size
+    return train_running_loss / data_size, f1 / data_size
+
 
-def execute_network(model, loss_fn, optimizer, train_data, validation_data, epochs, device):
+def execute_network(
+    model, loss_fn, optimizer, train_data, validation_data, epochs, device
+):
     model.to(device)
     model.device = device
 
     for name, param in model.named_parameters():
         if param.requires_grad:
             print(name)
 
-    columns_name=['epoch', 'train_running_loss', 'train_running_f1', 'eval_running_loss', 'eval_running_f1']
-    with open(r'../loss_f1_training_validation.csv', 'w') as f:
+    columns_name = [
+        "epoch",
+        "train_running_loss",
+        "train_running_f1",
+        "eval_running_loss",
+        "eval_running_f1",
+    ]
+    with open(r"../loss_f1_training_validation.csv", "w") as f:
         writer = csv.writer(f)
         writer.writerow(columns_name)
 
     for epoch in range(epochs):
-        train_running_loss, train_running_f1 = _execute(model, loss_fn, optimizer, train_data, device, with_grad=True)
+        train_running_loss, train_running_f1 = _execute(
+            model, loss_fn, optimizer, train_data, device, with_grad=True
+        )
 
         with torch.no_grad():
-            eval_running_loss, eval_running_f1 = _execute(model, loss_fn, optimizer, validation_data, device, with_grad=False)
+            eval_running_loss, eval_running_f1 = _execute(
+                model, loss_fn, optimizer, validation_data, device, with_grad=False
+            )
         print(
-            f'Epoch {epoch}: loss={train_running_loss:.5f}, f1={train_running_f1:.5f}, val_loss={eval_running_loss:.5f}, val_f1={eval_running_f1:.5f}'.format(
-                epoch, train_running_f1))
-        fields=[epoch, train_running_loss, train_running_f1, eval_running_loss, eval_running_f1]
-        with open(r'../loss_f1_training_validation.csv', 'a') as f:
+            f"Epoch {epoch}: loss={train_running_loss:.5f}, f1={train_running_f1:.5f}, val_loss={eval_running_loss:.5f}, val_f1={eval_running_f1:.5f}".format(
+                epoch, train_running_f1
+            )
+        )
+        fields = [
+            epoch,
+            train_running_loss,
+            train_running_f1,
+            eval_running_loss,
+            eval_running_f1,
+        ]
+        with open(r"../loss_f1_training_validation.csv", "a") as f:
             writer = csv.writer(f)
             writer.writerow(fields)
 
@@ -120,75 +145,97 @@ def prepare_data(infile):
     data_frame.reset_index(drop=True, inplace=True)
 
     data_classes = list(data_frame.columns)
-    data_classes.remove('MOLECULEID')
-    data_classes.remove('SMILES')
+    data_classes.remove("MOLECULEID")
+    data_classes.remove("SMILES")
 
     for col in data_classes:
         data_frame[col] = data_frame[col].astype(int)
 
     train_data = []
     for index, row in data_frame.iterrows():
-        train_data.append([
-                      data_frame.iloc[index].values[1],
-                      data_frame.iloc[index].values[2:502].tolist()
-                      ])
-
-    train_df = pd.DataFrame(train_data, columns=['SMILES', 'LABELS'])
+        train_data.append(
+            [
+                data_frame.iloc[index].values[1],
+                data_frame.iloc[index].values[2:502].tolist(),
+            ]
+        )
+
+    train_df = pd.DataFrame(train_data, columns=["SMILES", "LABELS"])
     return train_df
 
 
 def batchify(x, y):
-    data = list(zip(x,y))
-    return [data[i*BATCH_SIZE:(i+1)*BATCH_SIZE] for i in range(1 + len(data)//BATCH_SIZE)]
+    data = list(zip(x, y))
+    return [
+        data[i * BATCH_SIZE : (i + 1) * BATCH_SIZE]
+        for i in range(1 + len(data) // BATCH_SIZE)
+    ]
+
 
 def load_data():
     fpath = "data/full.pickle"
     if os.path.isfile(fpath):
         with open(fpath, "rb") as f:
-            train_dataset, train_actual_labels, validation_dataset, validation_actual_labels = pickle.load(f)
+            (
+                train_dataset,
+                train_actual_labels,
+                validation_dataset,
+                validation_actual_labels,
+            ) = pickle.load(f)
     else:
-        print('reading data from files!')
-        train_infile = open('../data/JCI_graph/raw/train.pkl', 'rb')
-        test_infile = open('../data/JCI_graph/raw/test.pkl', 'rb')
-        validation_infile = open('../data/JCI_graph/raw/validation.pkl', 'rb')
+        print("reading data from files!")
+        train_infile = open("../data/JCI_graph/raw/train.pkl", "rb")
+        test_infile = open("../data/JCI_graph/raw/test.pkl", "rb")
+        validation_infile = open("../data/JCI_graph/raw/validation.pkl", "rb")
 
-        #test_data = prepare_data(test_infile)
+        # test_data = prepare_data(test_infile)
 
-        print('prepare train data!')
+        print("prepare train data!")
         train_dataset = []
         train_actual_labels = []
 
         for index, row in prepare_data(train_infile).iterrows():
             try:
-                mol = Molecule(row['SMILES'], True)
+                mol = Molecule(row["SMILES"], True)
 
                 DAGs_meta_info = mol.dag_to_node
                 train_dataset.append(mol)
-                train_actual_labels.append(torch.tensor(row['LABELS']).float())
+                train_actual_labels.append(torch.tensor(row["LABELS"]).float())
             except:
                 pass
 
-
-        print('prepare validation data!')
+        print("prepare validation data!")
         validation_dataset = []
         validation_actual_labels = []
 
-
         for index, row in prepare_data(validation_infile).iterrows():
             try:
-                mol = Molecule(row['SMILES'], True)
+                mol = Molecule(row["SMILES"], True)
 
                 DAGs_meta_info = mol.dag_to_node
 
                 validation_dataset.append(mol)
-                validation_actual_labels.append(torch.tensor(row['LABELS']).float())
+                validation_actual_labels.append(torch.tensor(row["LABELS"]).float())
             except:
-              pass
+                pass
 
         with open(fpath, "wb") as f:
-            pickle.dump((train_dataset, train_actual_labels, validation_dataset, validation_actual_labels), f)
-
-    return train_dataset, train_actual_labels, validation_dataset, validation_actual_labels
+            pickle.dump(
+                (
+                    train_dataset,
+                    train_actual_labels,
+                    validation_dataset,
+                    validation_actual_labels,
+                ),
+                f,
+            )
+
+    return (
+        train_dataset,
+        train_actual_labels,
+        validation_dataset,
+        validation_actual_labels,
+    )
 
 
 def move_molecule(m):
@@ -204,14 +251,43 @@ def move_molecule(m):
         accelerator = None
         trainer_kwargs = dict()
 
-    train_dataset, train_actual_labels, validation_dataset, validation_actual_labels = load_data()
-    train_data = data.DataLoader(list(zip(map(move_molecule, train_dataset), [l.float() for l in train_actual_labels])), batch_size=BATCH_SIZE, shuffle=True, collate_fn=collate)
-    validation_data = data.DataLoader(list(zip(map(move_molecule, validation_dataset), [l.float() for l in validation_actual_labels])), batch_size=BATCH_SIZE, collate_fn=collate)
+    (
+        train_dataset,
+        train_actual_labels,
+        validation_dataset,
+        validation_actual_labels,
+    ) = load_data()
+    train_data = data.DataLoader(
+        list(
+            zip(
+                map(move_molecule, train_dataset),
+                [l.float() for l in train_actual_labels],
+            )
+        ),
+        batch_size=BATCH_SIZE,
+        shuffle=True,
+        collate_fn=collate,
+    )
+    validation_data = data.DataLoader(
+        list(
+            zip(
+                map(move_molecule, validation_dataset),
+                [l.float() for l in validation_actual_labels],
+            )
+        ),
+        batch_size=BATCH_SIZE,
+        collate_fn=collate,
+    )
 
     model = ChEBIRecNN()
 
-    tb_logger = pl_loggers.CSVLogger('../logs/')
-    trainer = pl.Trainer(logger=tb_logger, accelerator=accelerator, max_epochs=NUM_EPOCHS, **trainer_kwargs)
+    tb_logger = pl_loggers.CSVLogger("../logs/")
+    trainer = pl.Trainer(
+        logger=tb_logger,
+        accelerator=accelerator,
+        max_epochs=NUM_EPOCHS,
+        **trainer_kwargs,
+    )
     trainer.fit(model, train_data, val_dataloaders=validation_data)
 
 """