使用 IPEX-LLM 在 Intel NPU 上运行 llama.cpp Portable Zip

< English | 中文 >

IPEX-LLM 提供了 llama.cpp 的相关支持以在 Intel NPU 上运行 GGUF 模型。本指南演示如何使用 llama.cpp NPU portable zip 在 Intel NPU 上直接免安装运行。

Important

IPEX-LLM 在 Intel NPU 上暂时只支持 Windows。
目前支持的模型有 meta-llama/Llama-3.2-3B-Instruct, deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B 和 deepseek-ai/DeepSeek-R1-Distill-Qwen-7B。

系统环境准备

检查你的 NPU 驱动程序版本，并根据需要进行更新：

请使用 NPU 驱动版本 32.0.100.3104
你也可以参考这里 (https://github.com/intel/ipex-llm/blob/main/docs/mddocs/Quickstart/npu_quickstart.md#update-npu-driver) 了解更多关于 NPU 驱动程序更新的细节

步骤 1：下载和解压

从此链接下载 IPEX-LLM llama.cpp NPU portable zip。

然后，将 zip 文件解压到一个文件夹中。

步骤 2：启动

打开命令提示符（cmd），并通过在命令行输入指令 "cd /d PATH\TO\EXTRACTED\FOLDER" 进入解压缩后的文件夹
根据你的设备完成运行配置：
- 对于 处理器为 2xxV 的 Intel Core™ Ultra Processors (Series 2) (代号 Lunar Lake):
  - 对于 Intel Core™ Ultra 7 Processor 258V: 不需要额外的配置
  - 对于 Intel Core™ Ultra 5 Processor 228V & 226V:
```
set IPEX_LLM_NPU_DISABLE_COMPILE_OPT=1
```
- 对于 处理器为 2xxK 或者 2xxH 的 Intel Core™ Ultra Processors (Series 2) (代号 Arrow Lake):
```
set IPEX_LLM_NPU_ARL=1
```
- 对于 处理器为 1xxH 的 Intel Core™ Ultra Processors (Series 1) (代号 Meteor Lake):
```
set IPEX_LLM_NPU_MTL=1
```

步骤 3：运行 GGUF 模型

你可以在命令行中使用 cli 工具 llama-cli-npu.exe 以在 Intel NPU 上运行 GGUF 模型:

llama-cli-npu.exe -m DeepSeek-R1-Distill-Qwen-7B-Q6_K.gguf -n 32 --prompt "What is AI?"

Note

目前支持的输入token数上限是960，输入和输出总token数上限是1024。

故障排除

`L0 pfnCreate2 result: ZE_RESULT_ERROR_INVALID_ARGUMENT, code 0x78000004` 报错

首先确认你的 NPU 驱动版本是否符合要求，然后根据你的设备检查运行时配置，请注意 命令提示符 和 Windows PowerShell 的区别。以 Arrow Lake 为例，在 命令提示符 中需要设置 set IPEX_LLM_NPU_ARL=1，而在 Windows PowerShell 中是 $env:IPEX_LLM_NPU_ARL = "1"。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Files

llama_cpp_npu_portable_zip_quickstart.zh-CN.md

llama_cpp_npu_portable_zip_quickstart.zh-CN.md

使用 IPEX-LLM 在 Intel NPU 上运行 llama.cpp Portable Zip

目录

系统环境准备

步骤 1：下载和解压

步骤 2：启动

步骤 3：运行 GGUF 模型

故障排除

`L0 pfnCreate2 result: ZE_RESULT_ERROR_INVALID_ARGUMENT, code 0x78000004` 报错

Files

llama_cpp_npu_portable_zip_quickstart.zh-CN.md

Latest commit

History

llama_cpp_npu_portable_zip_quickstart.zh-CN.md

File metadata and controls

使用 IPEX-LLM 在 Intel NPU 上运行 llama.cpp Portable Zip

目录

系统环境准备

步骤 1：下载和解压

步骤 2：启动

步骤 3：运行 GGUF 模型

故障排除

L0 pfnCreate2 result: ZE_RESULT_ERROR_INVALID_ARGUMENT, code 0x78000004 报错

`L0 pfnCreate2 result: ZE_RESULT_ERROR_INVALID_ARGUMENT, code 0x78000004` 报错