Un jeu de données sur la population des villes mondiales sur des millénaires, rendu spatialement accessible
Cet article détaille la création d'un vaste jeu de données sur la population des villes mondiales intégrant les travaux de Chandler et Modelski, couvrant la période de 3700 av. J.-C. à 2000 ap. J.-C. Les données originales, sous forme de livres imprimés et de formats numériques disparates, ont posé des défis importants de numérisation et de spatialisation (géocodage). Les tentatives d'OCR ont échoué en raison de problèmes de police de caractères et de qualité des pages, nécessitant une transcription manuelle. Le géocodage a utilisé CartoDB, GeoNames, la base de données Ancient Locations et le Getty Thesaurus, la vérification manuelle étant cruciale pour la précision. Le jeu de données final contient 1599 emplacements de villes, offrant une large couverture géographique et temporelle, mais des limitations persistent : sparsité des données, définitions ambiguës des villes et incertitudes quant à l'emplacement des villes anciennes. Malgré cela, le jeu de données numérisé et spatialement activé offre des données facilement accessibles aux chercheurs (historiens, géographes, écologistes, etc.) pour analyser les tendances de l'urbanisation mondiale.