llama.cpp 多模板集合打包下载（含多种版本）

Mook · 发表于 2026-5-19 14:07:45

230134379-7181e485-c521-4d23-a0d6-f7b3b61ba524 (1).png

llama.cpp是在本地和云端等各种硬件上，以最小的设置和最先进的性能实现 LLM 推理。

纯 C/C++ 实现，没有任何依赖项苹果芯片是一等公民——通过 ARM NEON、Accelerate 和 Metal 框架进行了优化。支持 x86 架构的 AVX、AVX2、AVX512 和 AMX 指令集对 RISC-V 架构的 RVV、ZVFH、ZFH、ZICBOP 和 ZIHINTPAUSE 支持支持 1.5 位、2 位、3 位、4 位、5 位、6 位和 8 位整数量化，以加快推理速度并减少内存占用。用于在 NVIDIA GPU 上运行 LLM 的自定义 CUDA 内核（通过 HIP 支持 AMD GPU，通过 MUSA 支持 Moore Threads GPU）支持AMD 显卡Vulkan 和 SYCL 后端支持CPU+GPU混合推理，可部分加速大于总显存容量的模型。

模型打包下载：

购买主题 已有 1 人购买 本主题需向作者支付 10 积分 才能浏览

账号		自动登录	找回密码
密码			立即注册