Arroyo:一款基于Arrow的超高速JSON解码器
2025-03-26
Arroyo流处理引擎的核心挑战在于高效处理大规模JSON数据流。文章介绍了Arroyo如何利用Arrow列式内存格式和一种两阶段的JSON解码策略,显著提升了JSON反序列化的速度。第一阶段构建一个扁平化的“tape”数据结构,第二阶段根据schema并行构建Arrow数组。该方法在基准测试中比基于Jackson的反序列化器快2.3倍。此外,Arroyo还扩展了对原始JSON和无效数据处理的支持,使其能够更灵活地处理真实世界中的流数据。