搜索技巧 海洋云增白 开源地图 AI 搜索答案 沙丘魔堡2 压缩机站 自由职业 policy 小团队 颈挂空调 Chumby 个人电脑 极端主义 团队 PostgreSQL AI工具 证券 DirectX DrawingPics 化学 KDE 披萨农场 多动症 植物学 分析化学 Three.js 大会 残疾人学校 初创 QB64 更多

研究发现:用于训练大型语言模型的数据集通常缺乏透明度 (news.mit.edu)

麻省理工学院和其他机构的研究人员对流行托管网站上的1800多个文本数据集进行了系统审核,发现超过70%的数据集缺少一些许可信息,约50%的数据集包含错误信息。为此,他们开发了一个名为“数据来源浏览器”的用户友好型工具,可以自动生成易于阅读的数据集创建者、来源、许可证和允许用途的摘要。研究人员希望通过该工具帮助AI从业者构建更有效的模型,并最终提高AI模型在现实世界情况下的准确性。

评论已经关闭!