Update text embedding notebooks (#528)

xyang16 · web-flow · commit 5c66601b5f61 · 2024-12-02T11:02:16.000-08:00
diff --git a/aws/sagemaker/large-model-inference/sample-llm/reranking_bge_reranker_v2_m3.ipynb b/aws/sagemaker/large-model-inference/sample-llm/reranking_bge_reranker_v2_m3.ipynb
@@ -66,9 +66,9 @@
    "outputs": [],
    "source": [
     "# Choose a specific version of LMI image directly:\n",
-    "# image_uri = \"763104351884.dkr.ecr.us-east-1.amazonaws.com/djl-inference:0.29.0-lmi11.0.0-cu124\"\n",
-    "# image_uri = image_uris.retrieve(framework=\"djl-lmi\", region=\"us-east-1\", version=\"latest\")\n",
-    "image_uri = image_uris.retrieve(framework=\"djl-lmi\", region=\"us-east-1\", version=\"0.29.0\")"
+    "# image_uri = \"763104351884.dkr.ecr.us-west-2.amazonaws.com/djl-inference:0.31.0-lmi13.0.0-cu124\"\n",
+    "# image_uri = image_uris.retrieve(framework=\"djl-lmi\", region=\"us-west-2\", version=\"latest\")\n",
+    "image_uri = image_uris.retrieve(framework=\"djl-lmi\", region=\"us-west-2\", version=\"0.31.0\")"
    ]
   },
   {
@@ -88,23 +88,22 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "# model_id = \"djl://ai.djl.huggingface.onnxruntime/BAAI/bge-reranker-v2-m3\" # use DJL model zoo model\n",
+    "# model_id = \"djl://ai.djl.huggingface.rust/BAAI/bge-reranker-v2-m3\" # use DJL model zoo model\n",
     "# model_id = \"s3://YOUR_BUCKET\" # download model from your s3 bucket\n",
     "model_id = \"BAAI/bge-reranker-v2-m3\" # model will be download form Huggingface hub\n",
     "\n",
     "env = {\n",
-    "    # \"SERVING_BATCH_SIZE\": \"32\", # enable dynamic batch with max batch size 32\n",
+    "    \"SERVING_BATCH_SIZE\": \"32\",   # enable dynamic batch with max batch size 32\n",
     "    \"SERVING_MIN_WORKERS\": \"1\",   # make sure min and max Workers are equals when deploy model on GPU\n",
     "    \"SERVING_MAX_WORKERS\": \"1\",\n",
     "    \"ARGS_RERANKING\": \"true\",     # Use Reranking\n",
-    "    # \"OPTION_OPTIMIZATION=O2\",   # use OnnxRuntime O2 optimization\n",
     "}\n",
     "\n",
     "model = DJLModel(\n",
     "    model_id=model_id,\n",
     "    task=\"text-embedding\",\n",
-    "    # engine=\"Rust\",          # explicitly choose Rust engine (supported in LMI 0.30.0+\n",
-    "    image_uri=image_uri,      # choose a specific version of LMI DLC image\n",
+    "    #engine=\"Rust\",          # explicitly choose Rust engine\n",
+    "    #image_uri=image_uri,      # choose a specific version of LMI DLC image\n",
     "    env=env,\n",
     "    role=role)"
    ]
@@ -242,21 +241,13 @@
     "session.delete_endpoint_config(endpoint_name)\n",
     "model.delete_model()"
    ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "id": "a0657f54-9b89-416d-add8-8cb068f470ca",
-   "metadata": {},
-   "outputs": [],
-   "source": []
   }
  ],
  "metadata": {
   "kernelspec": {
-   "display_name": "Python 3 (ipykernel)",
+   "display_name": "conda_python3",
    "language": "python",
-   "name": "python3"
+   "name": "conda_python3"
   },
   "language_info": {
    "codemirror_mode": {
@@ -268,7 +259,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.11.0"
+   "version": "3.10.14"
   }
  },
  "nbformat": 4,
diff --git a/aws/sagemaker/large-model-inference/sample-llm/text_embedding_deploy_bert.ipynb b/aws/sagemaker/large-model-inference/sample-llm/text_embedding_deploy_bert.ipynb
@@ -66,7 +66,7 @@
    "outputs": [],
    "source": [
     "# Choose a specific version of LMI image directly:\n",
-    "# image_uri = \"763104351884.dkr.ecr.us-west-2.amazonaws.com/djl-inference:0.28.0-lmi10.0.0-cu124\""
+    "# image_uri = \"763104351884.dkr.ecr.us-west-2.amazonaws.com/djl-inference:0.31.0-lmi13.0.0-cu124\""
    ]
   },
   {
@@ -86,21 +86,20 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "# model_id = \"djl://ai.djl.huggingface.onnxruntime/BAAI/bge-base-en-v1.5\" # use DJL model zoo model\n",
+    "# model_id = \"djl://ai.djl.huggingface.rust/BAAI/bge-base-en-v1.5\" # use DJL model zoo model\n",
     "# model_id = \"s3://YOUR_BUCKET\" # download model from your s3 bucket\n",
     "model_id = \"BAAI/bge-base-en-v1.5\" # model will be download form Huggingface hub\n",
     "\n",
     "env = {\n",
-    "    # \"SERVING_BATCH_SIZE\": \"32\", # enable dynamic batch with max batch size 32\n",
-    "    \"SERVING_MIN_WORKERS\": \"1\",   # make sure min and max Workers are equals when deploy model on GPU\n",
+    "    \"SERVING_BATCH_SIZE\": \"32\", # enable dynamic batch with max batch size 32\n",
+    "    \"SERVING_MIN_WORKERS\": \"1\", # make sure min and max Workers are equals when deploy model on GPU\n",
     "    \"SERVING_MAX_WORKERS\": \"1\",\n",
-    "    # \"OPTION_OPTIMIZATION=O2\",   # use OnnxRuntime O2 optimization\n",
     "}\n",
     "\n",
     "model = DJLModel(\n",
     "    model_id=model_id,\n",
     "    task=\"text-embedding\",\n",
-    "    # engine=\"OnnxRuntime\",   # explicitly choose OnnxRuntime engine if needed\n",
+    "    #engine=\"Rust\",   # explicitly choose Rust engine if needed\n",
     "    #image_uri=image_uri,     # choose a specific version of LMI DLC image\n",
     "    env=env,\n",
     "    role=role)"
@@ -129,7 +128,7 @@
     "predictor = model.deploy(initial_instance_count=1,\n",
     "    instance_type=instance_type,\n",
     "    endpoint_name=endpoint_name,\n",
-    ")\n"
+    ")"
    ]
   },
   {
@@ -199,21 +198,13 @@
     "session.delete_endpoint_config(endpoint_name)\n",
     "model.delete_model()"
    ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "id": "a0657f54-9b89-416d-add8-8cb068f470ca",
-   "metadata": {},
-   "outputs": [],
-   "source": []
   }
  ],
  "metadata": {
   "kernelspec": {
-   "display_name": "Python 3 (ipykernel)",
+   "display_name": "conda_python3",
    "language": "python",
-   "name": "python3"
+   "name": "conda_python3"
   },
   "language_info": {
    "codemirror_mode": {
@@ -225,7 +216,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.12.3"
+   "version": "3.10.14"
   }
  },
  "nbformat": 4,