QB64 搜索技巧 核手提箱 文字记录 海洋云增白 开源地图 Bliss AI 搜索答案 深海沉船 自由职业 policy 小团队 颈挂空调 Chumby 个人电脑 极端主义 团队 世界 PostgreSQL AI工具 证券 DirectX 防溢 DrawingPics Zulip 儿童读物 化学 连续滚动 代码审查 三菱电机 更多

Newswire:一个涵盖百年历史新闻的大规模结构化数据库 (arxiv.org)

本文介绍了一个名为Newswire的大规模结构化数据库,该数据库包含了从1878年到1977年间美国270万篇新闻专线文章,文章内容主要来自当地报纸。该数据库通过深度学习管道从大量原始报纸图像扫描中重建,并对文章进行了地理参考、主题标记、命名实体识别和人物消歧等处理,为研究计算语言学、社会科学和数字人文等领域的各种问题提供了宝贵资源。