流式连接为何如此困难

2024-10-26

流式连接处理的是无限数据流,与传统数据库中处理有限数据的连接操作不同,它需要有效管理状态并应对内存和延迟限制,同时还要处理乱序数据。文章探讨了流式连接的复杂性,解释了状态管理、内存限制和乱序数据处理等挑战,并介绍了 Estuary Flow 中使用 map-reduce 架构、状态存储和窗口化等策略来应对这些挑战的方法。

阅读更多

内存高效地将数据流式传输到 Parquet 文件

2024-07-29

这篇文章介绍了Estuary Flow如何克服将流数据高效写入Parquet文件的内存限制挑战。由于流数据是基于行的,而Parquet是列式存储格式,因此直接写入会导致内存问题。文章详细介绍了Estuary Flow采用的“两阶段写入”解决方案:首先将数据以较小的行组写入临时文件,然后在第二阶段将这些小行组合并成更大的行组,最终生成内存效率高的Parquet文件。

阅读更多
未分类 内存效率