打开 “懒猫微服客户端” 下载应用

Llama.cpp

基于 llama.cpp 的高性能 LLM 推理服务,支持 GGUF 模型与多模态视觉模型

13 次下载
0 次点赞
0 条评论
0 次催更
13

安装次数

0

点赞

0

应用评论

0

催更次数

桌面端

移动端

应用描述

llama.cpp的主要目标是以最少的设置和最先进的性能在广泛的硬件(本地和云中)上实现 LLM 推理。 的性能。 普通 C/C++ 实现,无任何依赖性 Apple 芯片是一流的公民 - 通过 ARM NEON、Accelerate 和 Metal 框架进行了优化 支持 x86 架构的 AVX、AVX2、AVX512 和 AMX 支持 RISC-V 架构的 RVV、ZVFH、ZFH、ZICBOP 和 ZIHINTPAUSE 1.5 位、2 位、3 位、4 位、5 位、6 位和 8 位整数量化,可加快推理速度并减少内存使用量 在英伟达™(NVIDIA®)GPU 上运行 LLM 的定制 CUDA 内核(通过 HIP 支持 AMD GPU,通过 MUSA 支持 Moore Threads GPU 支持 Vulkan 和 SYCL 后端 CPU+GPU 混合推理可部分加速大于 VRAM 总容量的模型. 默认直接下载gguf文件到数据目录下的models即可,也可以通过model.ini进行精细化控制,可以参考我的配置 # ───────────────────────────────────────────── # llama.cpp models.ini — 全局默认 # ───────────────────────────────────────────── [*] ctx-size = 4096 fit = off flash-attn = true # 纯文本模型加速;多模态不支持时自动跳过 # ───────────────────────────────────────────── # MiniCPM-V 4.6 Q8_0 — 多模态,核显压力最重 # 策略:压缩 KV cache + 极小 ubatch 防带宽打满 # ───────────────────────────────────────────── [MiniCPM-V-4.6-Q8_0] model = /models/MiniCPM-V-4.6-Q8_0.gguf mmproj = /models/mmproj-MiniCPM-V-4.6-Q8_0.gguf n-gpu-layers = 99 kv-offload = true ctx-size = 2048 batch-size = 512 ubatch-size = 64 # 防止核显在大图传输时瞬间卡死 cache-type-k = q8_0 # KV cache 量化,节省 30~40% 显存 cache-type-v = q8_0 threads = 4 # 留余量给 GPU 调度,别跑满物理核 jinja = true # ───────────────────────────────────────────── # Hy-MT2 1.8B Q4_K_M — 纯文本小模型,极轻快 # 策略:拉满上下文 + 大 ubatch 提升吞吐 # ───────────────────────────────────────────── [Hy-MT2-1.8B-Q4_K_M] model = /models/Hy-MT2-1.8B-Q4_K_M.gguf n-gpu-layers = 99 ctx-size = 8192 # 1.8B 很轻,直接拉满无压力 batch-size = 512 ubatch-size = 256 # 小模型放大 ubatch,吞吐量更高 cache-type-k = q4_0 # 极致省内存,1.8B 精度损失可忽略 cache-type-v = q4_0 flash-attn = true jinja = true # ───────────────────────────────────────────── # Gemma 4 E2B Q4_K_M — 多模态,8K 甜品点 # 策略:flash-attn 暂关(mmproj 兼容性待验证) # ───────────────────────────────────────────── [Gemma-4-E2B-Q4] model = /models/gemma-4-E2B-it-Q4_K_M.gguf mmproj = /models/mmproj-F16.gguf # ⚠️ 确认此文件为 Gemma 4 专用投影器 n-gpu-layers = 99 kv-offload = true ctx-size = 8192 batch-size = 512 ubatch-size = 128 cache-type-k = q8_0 cache-type-v = q8_0 temp = 1.0 flash-attn = false # Gemma 4 mmproj 兼容性未确认前暂不开启 jinja = true

懒猫评分/评论

0.0

0 条评论

此 App 尚未收到足够的评分或评论,无法显示评论列表。

应用信息

最新版本

1.0.0

更新日期

5/26/2026

预估安装占用

160.5 MB

不支持平台

--

来源

ggml-org

提供者

虫子樱桃

兼容性

设备需装有 LzcOS 1.5.0 或更高版本

"首次提交"