Llama.cpp - 懒猫应用商店

应用描述

llama.cpp的主要目标是以最少的设置和最先进的性能在广泛的硬件（本地和云中）上实现 LLM 推理。的性能。普通 C/C++ 实现，无任何依赖性 Apple 芯片是一流的公民 - 通过 ARM NEON、Accelerate 和 Metal 框架进行了优化支持 x86 架构的 AVX、AVX2、AVX512 和 AMX 支持 RISC-V 架构的 RVV、ZVFH、ZFH、ZICBOP 和 ZIHINTPAUSE 1.5 位、2 位、3 位、4 位、5 位、6 位和 8 位整数量化，可加快推理速度并减少内存使用量在英伟达™（NVIDIA®）GPU 上运行 LLM 的定制 CUDA 内核（通过 HIP 支持 AMD GPU，通过 MUSA 支持 Moore Threads GPU 支持 Vulkan 和 SYCL 后端 CPU+GPU 混合推理可部分加速大于 VRAM 总容量的模型. 默认直接下载gguf文件到数据目录下的models即可，也可以通过model.ini进行精细化控制，可以参考我的配置 # ───────────────────────────────────────────── # llama.cpp models.ini — 全局默认 # ───────────────────────────────────────────── [*] ctx-size = 4096 fit = off flash-attn = true # 纯文本模型加速；多模态不支持时自动跳过 # ───────────────────────────────────────────── # MiniCPM-V 4.6 Q8_0 — 多模态，核显压力最重 # 策略：压缩 KV cache + 极小 ubatch 防带宽打满 # ───────────────────────────────────────────── [MiniCPM-V-4.6-Q8_0] model = /models/MiniCPM-V-4.6-Q8_0.gguf mmproj = /models/mmproj-MiniCPM-V-4.6-Q8_0.gguf n-gpu-layers = 99 kv-offload = true ctx-size = 2048 batch-size = 512 ubatch-size = 64 # 防止核显在大图传输时瞬间卡死 cache-type-k = q8_0 # KV cache 量化，节省 30~40% 显存 cache-type-v = q8_0 threads = 4 # 留余量给 GPU 调度，别跑满物理核 jinja = true # ───────────────────────────────────────────── # Hy-MT2 1.8B Q4_K_M — 纯文本小模型，极轻快 # 策略：拉满上下文 + 大 ubatch 提升吞吐 # ───────────────────────────────────────────── [Hy-MT2-1.8B-Q4_K_M] model = /models/Hy-MT2-1.8B-Q4_K_M.gguf n-gpu-layers = 99 ctx-size = 8192 # 1.8B 很轻，直接拉满无压力 batch-size = 512 ubatch-size = 256 # 小模型放大 ubatch，吞吐量更高 cache-type-k = q4_0 # 极致省内存，1.8B 精度损失可忽略 cache-type-v = q4_0 flash-attn = true jinja = true # ───────────────────────────────────────────── # Gemma 4 E2B Q4_K_M — 多模态，8K 甜品点 # 策略：flash-attn 暂关（mmproj 兼容性待验证） # ───────────────────────────────────────────── [Gemma-4-E2B-Q4] model = /models/gemma-4-E2B-it-Q4_K_M.gguf mmproj = /models/mmproj-F16.gguf # ⚠️ 确认此文件为 Gemma 4 专用投影器 n-gpu-layers = 99 kv-offload = true ctx-size = 8192 batch-size = 512 ubatch-size = 128 cache-type-k = q8_0 cache-type-v = q8_0 temp = 1.0 flash-attn = false # Gemma 4 mmproj 兼容性未确认前暂不开启 jinja = true

懒猫评分/评论

0.0

0 条评论

此 App 尚未收到足够的评分或评论，无法显示评论列表。

应用信息