|
20| 0
|
llama.cpp 多模板集合打包下载(含多种版本) |
llama.cpp是在本地和云端等各种硬件上,以最小的设置和最先进的性能实现 LLM 推理。 纯 C/C++ 实现,没有任何依赖项苹果芯片是一等公民——通过 ARM NEON、Accelerate 和 Metal 框架进行了优化。支持 x86 架构的 AVX、AVX2、AVX512 和 AMX 指令集对 RISC-V 架构的 RVV、ZVFH、ZFH、ZICBOP 和 ZIHINTPAUSE 支持支持 1.5 位、2 位、3 位、4 位、5 位、6 位和 8 位整数量化,以加快推理速度并减少内存占用。用于在 NVIDIA GPU 上运行 LLM 的自定义 CUDA 内核(通过 HIP 支持 AMD GPU,通过 MUSA 支持 Moore Threads GPU)支持AMD 显卡Vulkan 和 SYCL 后端支持CPU+GPU混合推理,可部分加速大于总显存容量的模型。模型打包下载:
购买主题
本主题需向作者支付 10 积分 才能浏览
| |
GMT+8, 2026-5-19 15:56 , Processed in 0.013770 second(s), 12 queries , MemCached On.
Powered by Discuz! X3.5
© 2001-2026 Discuz! Team.