Arroyo:Arrowベースの超高速JSONデコーダ
2025-03-26
Arroyoストリーム処理エンジンは、大規模なJSONデータストリームを効率的に処理するという中心的な課題に直面しています。この記事では、ArroyoがArrowの列指向メモリフォーマットと2パスJSONデコード戦略を利用して、JSONデシリアライゼーション速度を劇的に向上させる方法を詳しく説明しています。最初のパスではフラット化された「テープ」データ構造が構築され、2番目のパスではスキーマに基づいてArrow配列が並列に構築されます。このアプローチは、ベンチマークテストにおいて、Jacksonベースのデシリアライザよりも最大2.3倍高速です。さらに、ArroyoはRaw JSONと不正データ処理のサポートを拡張し、現実世界のストリーミングデータのより柔軟な処理を可能にしています。
開発
JSONデコード