实体 llama-swap

llama-swap

PulseAugur coverage of llama-swap — every cluster mentioning llama-swap across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 4

发布 · 30天

0

90 天内 0

论文 · 30天

0

90 天内 0

层级分布 · 90 天

tool 2
commentary 1
meme 1

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 4 条

TOOL · CL_164269 · Jul 26 · 16:19

智能体竞赛：ThinkingCap、Fable Fusion 与 Qwen3.6-27B 原生模型对比

最近一次涉及90次运行的竞赛，对比了ThinkingCap、Fable Fusion和Qwen3.6-27B原生模型在智能体任务上的表现。ThinkingCap通过使用更少的token和更快的速度在大多数任务上展现了效率，但其表现不稳定。Fable Fusion在调查和数据检索方面表现出色，但存在捏造细节的问题，例如错误地将项目维护者归属给某人。最终，Qwen3.6-27B原生模型被证明是最有纪律和最可靠的模型，在各项任务上表现一致良…
TOOL · CL_100449 · Jun 19 · 09:02

新的仪表板工具简化本地LLM运维

开发者创建了llama-dash，一个用于自托管本地LLM运维的仪表板和日志代理。该工具旨在为本地推理栈提供模型使用可见性、请求日志记录和范围访问控制。它通过代理兼容OpenAI和Anthropic的API端点，记录带有成本估算的请求，并提供速率限制、模型允许列表和基于UI的模型管理等功能。
MEME · CL_61115 · May 30 · 13:36

LocalLLaMA 用户寻求 llama-swap 并发请求修复方案

一位 r/LocalLLaMA 子版块的用户正在寻求关于配置 llama-swap 以处理单个模型并发请求的帮助。他们已成功设置了支持多 GPU 的 Qwen 3.6 35B A3B，并通过 llama-server 启用了并发，但 llama-swap 似乎将请求串行化处理，而不是并行处理。用户已尝试各种配置选项和问题跟踪器但未成功，他们特别希望避免运行多个 llama-cpp 实例以节省 GPU 内存。
COMMENTARY · CL_56878 · May 28 · 11:06

Reddit 用户寻求多用户本地 LLM 设置建议

Reddit r/LocalLLaMA 版块的一位用户正在寻求关于设置多用户本地 LLM 服务的建议。他们已经尝试了 vLLM 和 llama.cpp，并使用了 llama-swap 作为前端，但在并发和 API 密钥管理方面遇到了限制。该用户正在寻找开源软件推荐，以实现外部访问，包括 HTTPS、Web 聊天界面以及面向少于 10 个用户的密钥管理 API 访问。