QB64 搜索技巧 核手提箱 文字记录 海洋云增白 开源地图 Bliss AI 搜索答案 深海沉船 自由职业 policy 小团队 颈挂空调 Chumby 个人电脑 极端主义 团队 世界 PostgreSQL AI工具 证券 DirectX 防溢 DrawingPics Zulip 儿童读物 化学 连续滚动 代码审查 三菱电机 更多

研究发现:用于训练大型语言模型的数据集通常缺乏透明度 (news.mit.edu)

麻省理工学院和其他机构的研究人员对流行托管网站上的1800多个文本数据集进行了系统审核,发现超过70%的数据集缺少一些许可信息,约50%的数据集包含错误信息。为此,他们开发了一个名为“数据来源浏览器”的用户友好型工具,可以自动生成易于阅读的数据集创建者、来源、许可证和允许用途的摘要。研究人员希望通过该工具帮助AI从业者构建更有效的模型,并最终提高AI模型在现实世界情况下的准确性。

评论已经关闭!