Wordfreq数据集是截止到2021年各种在线资源中语言的快照,但它将不再更新。主要原因是生成式人工智能的滥用污染了数据,导致难以获取可靠的人类语言使用信息。此外,推特和Reddit等重要数据源也已关闭或不再提供免费的公共数据访问。作者对生成式人工智能及其对自然语言处理领域的影响表示担忧,并拒绝参与其中。