Arroyo: Arrow 기반 초고속 JSON 디코더

2025-03-26
Arroyo: Arrow 기반 초고속 JSON 디코더

Arroyo 스트림 처리 엔진은 대규모 JSON 데이터 스트림을 효율적으로 처리하는 핵심 과제에 직면해 있습니다. 이 글에서는 Arroyo가 Arrow의 열 기반 메모리 형식과 2단계 JSON 디코딩 전략을 활용하여 JSON 역직렬화 속도를 획기적으로 향상시키는 방법을 자세히 설명합니다. 첫 번째 단계에서는 평평화된 "테이프" 데이터 구조가 구축되고, 두 번째 단계에서는 스키마를 기반으로 Arrow 배열이 병렬로 구축됩니다. 이 접근 방식은 벤치마크 테스트에서 Jackson 기반 역직렬화보다 최대 2.3배 빠릅니다. 또한, Arroyo는 원시 JSON 및 잘못된 데이터 처리 지원을 확장하여 실제 스트리밍 데이터의 보다 유연한 처리를 가능하게 합니다.