本文介绍了一个名为 wc2 的项目,该项目旨在优化 Unix 上的文本统计程序 'wc'。作者认为传统的 'wc' 程序在处理 UTF-8 编码和非法字符时效率低下,因此提出了一种基于异步状态机的解析算法。该算法逐字节读取输入并更新状态机,从而实现高效的文本统计。作者通过与传统 'wc' 程序进行对比测试,证明了该算法在速度和可扩展性方面的优势,并提供了一个简单的示例程序 wc2o.c 来演示该算法的基本原理。