Skip to content

Files

Latest commit

5ee09b4 · Mar 7, 2025

History

History
77 lines (53 loc) · 3.09 KB

llama_cpp_npu_portable_zip_quickstart.zh-CN.md

File metadata and controls

77 lines (53 loc) · 3.09 KB

使用 IPEX-LLM 在 Intel NPU 上运行 llama.cpp Portable Zip

< English | 中文 >

IPEX-LLM 提供了 llama.cpp 的相关支持以在 Intel NPU 上运行 GGUF 模型。本指南演示如何使用 llama.cpp NPU portable zip 在 Intel NPU 上直接免安装运行。

Important

  • IPEX-LLM 在 Intel NPU 上暂时只支持 Windows。
  • 目前支持的模型有 meta-llama/Llama-3.2-3B-Instruct, deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5Bdeepseek-ai/DeepSeek-R1-Distill-Qwen-7B

目录

系统环境准备

检查你的 NPU 驱动程序版本,并根据需要进行更新:

步骤 1:下载和解压

从此链接下载 IPEX-LLM llama.cpp NPU portable zip。

然后,将 zip 文件解压到一个文件夹中。

步骤 2:启动

  • 打开命令提示符(cmd),并通过在命令行输入指令 "cd /d PATH\TO\EXTRACTED\FOLDER" 进入解压缩后的文件夹
  • 根据你的设备完成运行配置:
    • 对于 处理器为 2xxV 的 Intel Core™ Ultra Processors (Series 2) (代号 Lunar Lake):

      • 对于 Intel Core™ Ultra 7 Processor 258V: 不需要额外的配置

      • 对于 Intel Core™ Ultra 5 Processor 228V & 226V:

        set IPEX_LLM_NPU_DISABLE_COMPILE_OPT=1
    • 对于 处理器为 2xxK 或者 2xxH 的 Intel Core™ Ultra Processors (Series 2) (代号 Arrow Lake):

      set IPEX_LLM_NPU_ARL=1
    • 对于 处理器为 1xxH 的 Intel Core™ Ultra Processors (Series 1) (代号 Meteor Lake):

      set IPEX_LLM_NPU_MTL=1

步骤 3:运行 GGUF 模型

你可以在命令行中使用 cli 工具 llama-cli-npu.exe 以在 Intel NPU 上运行 GGUF 模型:

llama-cli-npu.exe -m DeepSeek-R1-Distill-Qwen-7B-Q6_K.gguf -n 32 --prompt "What is AI?"

Note

  • 目前支持的输入token数上限是960,输入和输出总token数上限是1024。

故障排除

L0 pfnCreate2 result: ZE_RESULT_ERROR_INVALID_ARGUMENT, code 0x78000004 报错

首先确认你的 NPU 驱动版本是否符合要求,然后根据你的设备检查运行时配置,请注意 命令提示符Windows PowerShell 的区别。 以 Arrow Lake 为例,在 命令提示符 中需要设置 set IPEX_LLM_NPU_ARL=1,而在 Windows PowerShell 中是 $env:IPEX_LLM_NPU_ARL = "1"