跨越千年:全球城市人口数据集的数字化与空间化
2025-06-18

本文描述了一个庞大的全球城市人口数据集的构建过程,该数据集整合了Chandler和Modelski两位学者的研究成果,涵盖公元前3700年到公元2000年。由于原始数据以纸质书籍和不同格式的电子文本形式存在,研究人员面临着数字化和空间化(地理编码)的巨大挑战。他们尝试了OCR技术,但由于字体和页面质量问题而失败,最终选择人工转录数据。地理编码过程中,他们利用了CartoDB、GeoNames、Ancient Locations数据库和Getty Thesaurus等多种资源,并通过人工核查来提高精度。最终数据集包含1599个城市位置,涵盖了全球范围,时空分辨率较高,但仍存在一些局限性,例如数据稀疏性、城市定义的模糊性以及对古代城市位置的不确定性。尽管如此,该数据集的数字化和空间化使其易于访问和使用,为历史学家、地理学家和生态学家等研究人员提供了宝贵的资源,用于研究全球城市化进程。