研究发现：用于训练大型语言模型的数据集通常缺乏透明度

研究发现：用于训练大型语言模型的数据集通常缺乏透明度 (news.mit.edu)

原文: Study: Transparency is often lacking in datasets used to train large language models | MIT News | Massachusetts Institute of Technology

麻省理工学院和其他机构的研究人员对流行托管网站上的1800多个文本数据集进行了系统审核，发现超过70%的数据集缺少一些许可信息，约50%的数据集包含错误信息。为此，他们开发了一个名为“数据来源浏览器”的用户友好型工具，可以自动生成易于阅读的数据集创建者、来源、许可证和允许用途的摘要。研究人员希望通过该工具帮助AI从业者构建更有效的模型，并最终提高AI模型在现实世界情况下的准确性。

上一篇: 史蒂夫·鲍尔默错误的二分查找面试问题

下一篇: IBM 305 RAMAC 与 1960 年冬季奥运会

评论已经关闭！

返回首页