< English | 中文 >
IPEX-LLM 提供了 llama.cpp 的相关支持以在 Intel NPU 上运行 GGUF 模型。本指南演示如何使用 llama.cpp NPU portable zip 在 Intel NPU 上直接免安装运行。
Important
- IPEX-LLM 在 Intel NPU 上暂时只支持 Windows。
- 目前支持的模型有
meta-llama/Llama-3.2-3B-Instruct
,deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
和deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
。
检查你的 NPU 驱动程序版本,并根据需要进行更新:
- 请使用 NPU 驱动版本 32.0.100.3104
- 你也可以参考这里 (https://github.com/intel/ipex-llm/blob/main/docs/mddocs/Quickstart/npu_quickstart.md#update-npu-driver) 了解更多关于 NPU 驱动程序更新的细节
从此链接下载 IPEX-LLM llama.cpp NPU portable zip。
然后,将 zip 文件解压到一个文件夹中。
- 打开命令提示符(cmd),并通过在命令行输入指令 "cd /d PATH\TO\EXTRACTED\FOLDER" 进入解压缩后的文件夹
- 根据你的设备完成运行配置:
-
对于 处理器为 2xxV 的 Intel Core™ Ultra Processors (Series 2) (代号 Lunar Lake):
-
对于 Intel Core™ Ultra 7 Processor 258V: 不需要额外的配置
-
对于 Intel Core™ Ultra 5 Processor 228V & 226V:
set IPEX_LLM_NPU_DISABLE_COMPILE_OPT=1
-
-
对于 处理器为 2xxK 或者 2xxH 的 Intel Core™ Ultra Processors (Series 2) (代号 Arrow Lake):
set IPEX_LLM_NPU_ARL=1
-
对于 处理器为 1xxH 的 Intel Core™ Ultra Processors (Series 1) (代号 Meteor Lake):
set IPEX_LLM_NPU_MTL=1
-
你可以在命令行中使用 cli 工具 llama-cli-npu.exe
以在 Intel NPU 上运行 GGUF 模型:
llama-cli-npu.exe -m DeepSeek-R1-Distill-Qwen-7B-Q6_K.gguf -n 32 --prompt "What is AI?"
Note
- 目前支持的输入token数上限是960,输入和输出总token数上限是1024。
首先确认你的 NPU 驱动版本是否符合要求,然后根据你的设备检查运行时配置,请注意 命令提示符 和 Windows PowerShell 的区别。
以 Arrow Lake 为例,在 命令提示符 中需要设置 set IPEX_LLM_NPU_ARL=1
,而在 Windows PowerShell 中是 $env:IPEX_LLM_NPU_ARL = "1"
。