code-gen · Feb 5, 2020
diff --git a/‎cscg.ipynb
+134-163 b/‎cscg.ipynb
+134-163
diff --git a/‎notes.ipynb
+1-1 b/‎notes.ipynb
+1-1
@@ -9,8 +9,6 @@
     "import sys\n",
     "sys.path.insert(0, './language_model/')\n",
     "\n",
-    "# for suppressing T.save warnings\n",
-    "# see https://discuss.pyT.org/t/got-warning-couldnt-retrieve-source-code-for-container/7689\n",
     "import warnings\n",
     "warnings.simplefilter('ignore', UserWarning)"
    ]
@@ -77,7 +75,7 @@
     "DJANGO_DIR = os.path.join(ROOT_DIR, 'raw-datasets/django')\n",
     "CONALA_DIR = os.path.join(ROOT_DIR, 'raw-datasets/conala-corpus')\n",
     "\n",
-    "DATASET_DIR = CONALA_DIR\n",
+    "DATASET_DIR = DJANGO_DIR\n",
     "EMB_DIR     = os.path.join(ROOT_DIR, 'embeddings')\n",
     "\n",
     "print(f'Dataset: {os.path.basename(DATASET_DIR)}')"
@@ -103,8 +101,8 @@
     "d = pd.DataFrame([{'a': _a, 'c': _c} for (_a, _c) in zip(a, c)])\n",
     "d.describe()\n",
     "\n",
-    "a = round(len(list(filter(lambda x: x <= 10, a))) / len(a), 3)\n",
-    "c = round(len(list(filter(lambda x: x <= 10, c))) / len(c), 3)\n",
+    "a = round(len(list(filter(lambda x: x <= 24, a))) / len(a), 3)\n",
+    "c = round(len(list(filter(lambda x: x <= 20, c))) / len(c), 3)\n",
     "a, c"
    ]
   },
@@ -127,10 +125,10 @@
     "CFG.dataset_cfg = Config()\n",
     "CFG.dataset_cfg.__dict__ = {\n",
     "    'root_dir': DATASET_DIR,\n",
-    "    'anno_min_freq': 1,\n",
-    "    'code_min_freq': 1,\n",
-    "    'anno_seq_maxlen': 10,\n",
-    "    'code_seq_maxlen': 10,\n",
+    "    'anno_min_freq': 10,\n",
+    "    'code_min_freq': 10,\n",
+    "    'anno_seq_maxlen': 24,\n",
+    "    'code_seq_maxlen': 20,\n",
     "    'emb_file': os.path.join(EMB_DIR, 'glove.6B.200d-ft-9-1.txt.pickle'),\n",
     "}\n",
     "\n",
@@ -140,8 +138,8 @@
     "CFG.anno = Config() \n",
     "CFG.anno.__dict__ = {\n",
     "    'lstm_hidden_size': 64,\n",
-    "    'lstm_dropout_p': 0.0,\n",
-    "    'att_dropout_p': 0.0,\n",
+    "    'lstm_dropout_p': 0.2,\n",
+    "    'att_dropout_p': 0.1,\n",
     "    'lang': dataset.anno_lang,\n",
     "    'load_pretrained_emb': True,\n",
     "    'emb_size': 200,\n",
@@ -151,15 +149,15 @@
     "CFG.code = Config() \n",
     "CFG.code.__dict__ = {\n",
     "    'lstm_hidden_size': 64,\n",
-    "    'lstm_dropout_p': 0.0,\n",
-    "    'att_dropout_p': 0.0,\n",
+    "    'lstm_dropout_p': 0.2,\n",
+    "    'att_dropout_p': 0.1,\n",
     "    'lang': dataset.code_lang,\n",
     "    'load_pretrained_emb': False,\n",
-    "    'emb_size': 50,\n",
+    "    'emb_size': 32,\n",
     "}\n",
     "\n",
     "CFG.__dict__.update({\n",
-    "    'exp_name': f'{os.path.basename(DATASET_DIR)}-p{1}-a{1}',\n",
+    "    'exp_name': f'{os.path.basename(DATASET_DIR)}-p{0}-a{0}-minfreq10',\n",
     "    'cuda': True,\n",
     "    'batch_size': 128,\n",
     "    'num_epochs': 50,\n",
@@ -337,7 +335,7 @@
     "for f in lm_paths.values():\n",
     "    assert os.path.exists(f), f'Language Model: file <{f}> does not exist!'\n",
     "    \n",
-    "dataset.compute_lm_probs(lm_paths)"
+    "_ = dataset.compute_lm_probs(lm_paths)"
    ]
   },
   {
@@ -465,15 +463,9 @@
     "        emb.weight = nn.Parameter(T.tensor(config.lang.emb_matrix, dtype=T.float32))\n",
     "        emb.weight.requires_grad = False\n",
     "        \n",
-    "    return emb"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
+    "    return emb\n",
+    "\n",
+    "\n",
     "class Model(nn.Module):\n",
     "    def __init__(self, config: Config, model_type):\n",
     "        \"\"\"\n",
@@ -682,35 +674,7 @@
     "    xa = T.sum(xa, dim=1) / n\n",
     "    xb = T.sum(xb, dim=1) / n\n",
     "    \n",
-    "    return 0.5 * (xa + xb)\n",
-    "\n",
-    "def JSD_2(A, B, mask=None):\n",
-    "    eps = 1e-8\n",
-    "    \n",
-    "    assert A.shape == B.shape\n",
-    "    b, n, m = A.shape\n",
-    "        \n",
-    "    js = []\n",
-    "    for bi in range(b):\n",
-    "        kl_a, kl_b = 0, 0\n",
-    "        \n",
-    "        for i in range(n):\n",
-    "            a = A[bi, i, :]\n",
-    "            b = B[bi, i, :]\n",
-    "            \n",
-    "            if mask is not None:\n",
-    "                a[mask[i]] = -(1e8)\n",
-    "                b[mask[i]] = -(1e8)\n",
-    "            \n",
-    "            a = F.softmax(a) + eps\n",
-    "            b = F.softmax(b) + eps\n",
-    "            m = 0.5 * (a + b)\n",
-    "            kl_a += stats.entropy(a, m) / n\n",
-    "            kl_b += stats.entropy(b, m) / n\n",
-    "        \n",
-    "        js += [0.5 * (kl_a + kl_b)]\n",
-    "    \n",
-    "    return T.tensor(js)"
+    "    return 0.5 * (xa + xb)"
    ]
   },
   {
@@ -802,8 +766,8 @@
     "                \n",
     "        # final loss\n",
     "        p, a = 0, 0\n",
-    "        l_cg = T.mean(l_cg_ce + p * 0.01 * l_dual + a * 0.2 * l_att)\n",
-    "        l_cs = T.mean(l_cs_ce + p * 0.01 * l_dual + a * 0.2 * l_att)\n",
+    "        l_cg = T.mean(l_cg_ce + p * 0.5 * l_dual + a * 0.9 * l_att)\n",
+    "        l_cs = T.mean(l_cs_ce + p * 0.5 * l_dual + a * 0.9 * l_att)\n",
     "                \n",
     "        # optimize CG\n",
     "        cg_model.opt.zero_grad()\n",
@@ -848,7 +812,9 @@
    "outputs": [],
    "source": [
     "torch.save(cg_model.state_dict(), os.path.join(exp_dir, 'cg_model.pt'))\n",
-    "torch.save(cs_model.state_dict(), os.path.join(exp_dir, 'cs_model.pt'))"
+    "torch.save(cs_model.state_dict(), os.path.join(exp_dir, 'cs_model.pt'))\n",
+    "\n",
+    "tb_writer.close()"
    ]
   },
   {
@@ -858,6 +824,24 @@
     "# 5. Evaluate"
    ]
   },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "cg_model = Model(CFG, model_type='cg')\n",
+    "cs_model = Model(CFG, model_type='cs')\n",
+    "\n",
+    "# exp_dir = f'./experiments/{CFG.exp_name}'\n",
+    "exp_dir = f'./experiments/{os.path.basename(DATASET_DIR)}-p{0}-a{1}'\n",
+    "\n",
+    "cg_model.load_state_dict(torch.load(os.path.join(exp_dir, 'cg_model.pt')))\n",
+    "cs_model.load_state_dict(torch.load(os.path.join(exp_dir, 'cs_model.pt')))\n",
+    "\n",
+    "exp_dir"
+   ]
+  },
   {
    "cell_type": "markdown",
    "metadata": {},
@@ -872,65 +856,21 @@
    "outputs": [],
    "source": [
     "def is_valid_code(line):\n",
+    "    \"valid <=> (complete ^ valid) v (incomplete ^ valid_prefix)\"\n",
     "    try:\n",
     "        codeop.compile_command(line)\n",
     "    except SyntaxError:\n",
     "        return False\n",
-    "    else:\n",
-    "        return True"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 54,
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "tensor([1, 2, 3, 4, 5, 6, 7, 8, 9, 1, 2, 3])\n",
-      "tensor([1, 2, 3, 4, 4, 4, 7, 1, 1, 2, 2, 9])\n",
-      "tensor([1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 1])\n"
-     ]
-    }
-   ],
-   "source": [
-    "import torch as T\n",
-    "\n",
-    "x = T.tensor([1,2,3,4,5,6,7,8,9,1,2,3])\n",
-    "y = T.tensor([1,2,3,4,4,4,7,1,1,2,2,9])\n",
-    "m = T.tensor([1,1,1,1,1,1,1,0,0,0,0,1])\n",
-    "\n",
-    "code_pred = y\n",
-    "code = x\n",
-    "code_mask = m\n",
+    "    \n",
+    "    return True\n",
     "\n",
-    "print(x)\n",
-    "print(y)\n",
-    "print(m)"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 55,
-   "metadata": {},
-   "outputs": [
-    {
-     "data": {
-      "text/plain": [
-       "(tensor(0.4167), tensor(0.6250), 0.625, tensor(0.6250))"
-      ]
-     },
-     "execution_count": 55,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
-   "source": [
-    "r1 = T.mean(((x == y) * m).float()).cpu()\n",
-    "r2 = ((x == y) * m).float().sum() / m.sum()\n",
-    "r1, r2, (5 / 8), (((code_pred == code) * code_mask).float().sum() / code_mask.sum()).cpu()"
+    "def to_tok(xs, mode):\n",
+    "    z = (xs)[0].cpu()\n",
+    "    z = z[(z!=0)&(z!=1)&(z!=2)&(z!=3)]\n",
+    "    if mode == 'code':\n",
+    "        return dataset.code_lang.to_tokens(z)[0]\n",
+    "    if mode == 'anno':\n",
+    "        return dataset.anno_lang.to_tokens(z)[0]"
    ]
   },
   {
@@ -950,14 +890,24 @@
     "# ---\n",
     "\n",
     "test_loader = DataLoader(test_dataset, batch_size=1, shuffle=False)\n",
-    "\n",
+    "assert len(test_loader) == len(dataset) - n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
     "ms = ['ind_match', 'exact_match', 'coverage']\n",
     "metrics = {\n",
     "    'anno': {k: 0 for k in ms},\n",
     "    'code': {k: 0 for k in ms}\n",
     "}\n",
     "metrics['code']['pov'] = 0\n",
     "\n",
+    "anno_toks, code_toks = [], []\n",
+    "\n",
     "with T.no_grad():\n",
     "    cg_model.eval()\n",
     "    cs_model.eval()\n",
@@ -967,8 +917,11 @@
     "            anno, code = anno.cuda(), code.cuda() \n",
     "            \n",
     "        # binary mask indicating the presence of padding token\n",
-    "        anno_mask = T.tensor(anno != dataset.anno_lang.token2index['<pad>']).byte()\n",
-    "        code_mask = T.tensor(code != dataset.code_lang.token2index['<pad>']).byte()\n",
+    "#         anno_mask = T.tensor(anno != dataset.anno_lang.token2index['<pad>']).byte()\n",
+    "#         code_mask = T.tensor(code != dataset.code_lang.token2index['<pad>']).byte()\n",
+    "\n",
+    "        anno_mask = T.tensor((anno != 0) * (anno != 1)).byte()\n",
+    "        code_mask = T.tensor((code != 0) * (code != 1)).byte()\n",
     "            \n",
     "        # forward pass\n",
     "        code_pred, code_att_mat = cg_model(src=anno, tgt=code)\n",
@@ -992,36 +945,72 @@
     "            metrics['anno']['exact_match'] += 1 / len(test_loader)\n",
     "            \n",
     "        # 3)\n",
-    "        cc = set([x.item() for x in code[0].cpu().data if x.item() != 0]) - \\\n",
-    "             set([x.item() for x in code_pred[0].cpu().data if x.item() != 0])\n",
-    "        if len(cc) == 0:\n",
+    "        sy  = set([x.item() for x in (code * code_mask)[0].cpu().data if x.item() != 0])\n",
+    "        sy_ = set([x.item() for x in (code_pred * code_mask)[0].cpu().data if x.item() != 0])\n",
+    "        if len(set.difference(sy_, sy)) == 0:\n",
     "            metrics['code']['coverage'] += 1 / len(test_loader)\n",
+    "        else:\n",
+    "            if np.isclose(code_score, 1):\n",
+    "                print(set.difference(sy_, sy))\n",
     "            \n",
-    "        ac = set([x.item() for x in anno[0].cpu().data if x.item() != 0]) - \\\n",
-    "             set([x.item() for x in anno_pred[0].cpu().data if x.item() != 0])\n",
-    "        if len(ac) == 0:\n",
+    "        sy  = set([x.item() for x in (anno * anno_mask)[0].cpu().data if x.item() != 0])\n",
+    "        sy_ = set([x.item() for x in (anno_pred * anno_mask)[0].cpu().data if x.item() != 0])\n",
+    "        if len(set.difference(sy_, sy)) == 0:\n",
     "            metrics['anno']['coverage'] += 1 / len(test_loader)\n",
     "            \n",
     "        # 4)\n",
-    "        c = (code_pred * code_mask)[0].cpu()\n",
-    "        c = c[(c!=0)&(c!=1)&(c!=2)&(c!=3)]\n",
-    "        c = dataset.code_lang.to_tokens(c)[0]\n",
-    "        if is_valid_code(' '.join(c)):\n",
+    "        if is_valid_code(' '.join(to_tok(code_pred * code_mask, 'code'))):\n",
     "            metrics['code']['pov'] += 1 / len(test_loader)\n",
+    "\n",
+    "        # save tokens\n",
+    "        code_toks += [(round(code_score.item(), 5), \n",
+    "                       to_tok(code_pred * code_mask, 'code'), \n",
+    "                       to_tok(code * code_mask, 'code'),\n",
+    "                       code_pred[0].cpu(),\n",
+    "                       code[0].cpu())]\n",
+    "        \n",
+    "        anno_toks += [(round(anno_score.item(), 5), \n",
+    "                       to_tok(anno_pred * anno_mask, 'anno'), \n",
+    "                       to_tok(anno * anno_mask, 'anno'),\n",
+    "                       anno_pred[0].cpu(),\n",
+    "                       anno[0].cpu())]\n",
     "            \n",
+    "code_toks = sorted(code_toks, key=lambda x: x[0])\n",
+    "anno_toks = sorted(anno_toks, key=lambda x: x[0])\n",
+    "\n",
+    "with open(os.path.join(exp_dir, 'eval_code.txt'), 'wt') as fp:\n",
+    "    for i, (s, pt, tt, p, t) in enumerate(code_toks, start=1):\n",
+    "        fp.write(f'{i}\\n')\n",
+    "        fp.write(f'{s}\\n')\n",
+    "        fp.write(f'pred: {\" \".join(pt)}\\n')\n",
+    "        fp.write(f'true: {\" \".join(tt)}\\n')\n",
+    "        fp.write(f'pred_raw: {p}\\n')\n",
+    "        fp.write(f'true_raw: {t}\\n')\n",
+    "        fp.write(f'{\"-\"*80}\\n')\n",
+    "        \n",
+    "with open(os.path.join(exp_dir, 'eval_anno.txt'), 'wt') as fp:\n",
+    "    for i, (s, pt, tt, p, t) in enumerate(anno_toks, start=1):\n",
+    "        fp.write(f'{i}\\n')\n",
+    "        fp.write(f'{s}\\n')\n",
+    "        fp.write(f'pred: {\" \".join(pt)}\\n')\n",
+    "        fp.write(f'true: {\" \".join(tt)}\\n')\n",
+    "        fp.write(f'pred_raw: {p}\\n')\n",
+    "        fp.write(f'true_raw: {t}\\n')\n",
+    "        fp.write(f'{\"-\"*80}\\n')\n",
     "\n",
     "# results\n",
-    "for t in metrics:\n",
-    "    print(t)\n",
-    "    for k, v in metrics[t].items():\n",
-    "        print(f'{k:>16s}: {v:7.5f}')"
+    "print(exp_dir.split('/')[-1])\n",
+    "print(len(test_loader))\n",
+    "for k in ms:\n",
+    "    print(f\"{metrics['anno'][k]:7.5f}/{metrics['code'][k]:7.5f}\", end=' ')\n",
+    "print(round(metrics['code']['pov'], 5))"
    ]
   },
   {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "## 5.2. Translate"
+    "## 5.2. Attention matrices"
    ]
   },
   {
@@ -1030,54 +1019,36 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "cg_model = Model(CFG, model_type='cg')\n",
-    "cs_model = Model(CFG, model_type='cs')\n",
-    "\n",
-    "exp_dir = f'./experiments/{CFG.exp_name}'\n",
+    "a = T.tensor([  2, 576,  16,  84, 474, 695,   0,   0,   0,   3])\n",
+    "c = T.tensor([  2, 155, 489,  10, 159,   5,   8,   0,   0,   3])\n",
     "\n",
-    "cg_model.load_state_dict(torch.load(os.path.join(exp_dir, 'cg_model.pt')))\n",
-    "cs_model.load_state_dict(torch.load(os.path.join(exp_dir, 'cs_model.pt')))\n",
-    "\n",
-    "exp_dir"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "## 5.3. Attention matrices"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
     "with T.no_grad():\n",
-    "    i = np.random.randint(len(train_dataset))\n",
-    "    a, c, _, _ = train_dataset[i]\n",
+    "    i = np.random.randint(len(test_dataset))\n",
+    "#     i = 5557\n",
+    "    a, c, _, _ = test_dataset[-1]\n",
     "    a, c = a.cuda(), c.cuda()\n",
+    "    anno_mask = T.tensor((a != 0) * (a != 1)).byte().cuda()\n",
+    "    code_mask = T.tensor((c != 0) * (c != 1)).byte().cuda()\n",
     "    x, x_mat = cg_model(src=a.unsqueeze(0), tgt=c.unsqueeze(0))\n",
     "    y, y_mat = cs_model(src=c.unsqueeze(0), tgt=a.unsqueeze(0))\n",
-    "    x = x[0].argmax(dim=1).cpu()\n",
+    "    x = x[0].argmax(dim=-1)\n",
     "    x_mat = x_mat[0].cpu()\n",
-    "    y = y[0].argmax(dim=1).cpu()\n",
+    "    y = y[0].argmax(dim=-1)\n",
     "    y_mat = y_mat[0].cpu()\n",
     "    \n",
-    "    ct = dataset.code_lang.to_tokens(c)[0]\n",
-    "    at = dataset.anno_lang.to_tokens(a)[0]\n",
-    "    xt = dataset.code_lang.to_tokens(x)[0]\n",
-    "    yt = dataset.anno_lang.to_tokens(y)[0]\n",
+    "    ct = to_tok((c * code_mask).unsqueeze(0), 'code')\n",
+    "    xt = to_tok((x * code_mask).unsqueeze(0), 'code')\n",
+    "    at = to_tok((a * anno_mask).unsqueeze(0), 'anno')\n",
+    "    yt = to_tok((y * anno_mask).unsqueeze(0), 'anno')\n",
     "    \n",
     "\n",
-    "plt.figure(figsize=(16, 10))\n",
+    "plt.figure(figsize=(12, 8))\n",
     "\n",
     "# plt.subplot(1, 2, 1)\n",
     "plt.imshow(F.softmax(y_mat, -1), cmap='jet')\n",
     "plt.grid(False)\n",
-    "# plt.xticks(np.arange(len(ct)), labels=ct, rotation=90)\n",
-    "# plt.yticks(np.arange(len(at)), labels=at)\n",
+    "plt.xticks(np.arange(len(ct)), labels=ct, rotation=90)\n",
+    "plt.yticks(np.arange(len(at)), labels=at)\n",
     "\n",
     "# plt.subplot(1, 2, 2)\n",
     "# plt.imshow(F.softmax(y_mat, -1), cmap='jet')\n",
 
@@ -92,7 +92,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.7.5"
+   "version": "3.7.6"
   }
  },
  "nbformat": 4,
Original file line number	Diff line number	Diff line change
`@@ -92,7 +92,7 @@`
`92`	`92`	`"name": "python",`
`93`	`93`	`"nbconvert_exporter": "python",`
`94`	`94`	`"pygments_lexer": "ipython3",`
`95`		`- "version": "3.7.5"`
	`95`	`+ "version": "3.7.6"`
`96`	`96`	`}`
`97`	`97`	`},`
`98`	`98`	`"nbformat": 4,`