GitHub - ask-fini/paramount: 用于评估大型语言模型代理准确性的工具

GitHub - ask-fini/paramount: 用于评估大型语言模型代理准确性的工具 (github.com)

Paramount是一个用于评估大型语言模型代理准确性的工具，允许专家代理评估AI聊天内容，从而实现质量保证、基本事实捕获和自动化回归测试。它提供了一个UI界面，用于记录和跟踪代理在一段时间内的准确性改进，并在用户的私有环境中完全离线运行。

AI评估

代理准确性

评论已经关闭！