Paddler是一个开源负载均衡器和反向代理,专为优化运行llama.cpp的服务器而设计。它维护一个状态感知的负载均衡器,了解每个服务器的可用插槽,确保高效的请求分配。Paddler还使用代理监控各个llama.cpp实例的健康状况,为负载均衡器提供反馈以实现最佳性能,并支持动态添加或删除llama.cpp服务器,支持与自动扩展工具集成。