GitHub - ask-fini/paramount: 用于评估大型语言模型代理准确性的工具

2024-06-13

Paramount是一个用于评估大型语言模型代理准确性的工具,允许专家代理评估AI聊天内容,从而实现质量保证、基本事实捕获和自动化回归测试。它提供了一个UI界面,用于记录和跟踪代理在一段时间内的准确性改进,并在用户的私有环境中完全离线运行。

56