本文介绍了一种名为CVM的新算法,用于估算长列表中不同条目的数量。该算法利用随机性,仅需记住少量条目,即可有效地监控数据流并估算唯一元素的数量。文章以莎士比亚戏剧《哈姆雷特》为例,详细说明了该算法的工作原理:通过多轮随机选择和删除单词,最终根据剩余单词数量和概率推算出不同单词的总数。研究证明,该算法的准确性随内存大小的增加而提高。