研究发现:用于训练大型语言模型的数据集通常缺乏透明度

2024-09-03

麻省理工学院和其他机构的研究人员对流行托管网站上的1800多个文本数据集进行了系统审核,发现超过70%的数据集缺少一些许可信息,约50%的数据集包含错误信息。为此,他们开发了一个名为“数据来源浏览器”的用户友好型工具,可以自动生成易于阅读的数据集创建者、来源、许可证和允许用途的摘要。研究人员希望通过该工具帮助AI从业者构建更有效的模型,并最终提高AI模型在现实世界情况下的准确性。

未分类