Polars Cloud 正式发布:开启大规模 DataFrame 处理的新时代

2025-09-04
Polars Cloud 正式发布:开启大规模 DataFrame 处理的新时代

Polars Cloud 正式在 AWS 上推出,并同时开放其新型分布式引擎的公开测试版。该平台旨在弥合本地 Pandas 易用性和远程 PySpark 可扩展性之间的差距,提供一个单一 API,实现从笔记本电脑到云端的无缝扩展。其分布式引擎利用 Polars 新颖的流式架构,支持水平、垂直和对角线扩展策略,显著降低成本和复杂性,提升性能。未来,Polars Cloud 还将支持本地部署、实时集群监控、任务编排、自动扩展、目录支持和多区域部署等功能。

阅读更多
2
开发 Polars Cloud

Polars Cloud:一个可扩展的、无服务器的 DataFrame 处理平台

2025-03-07
Polars Cloud:一个可扩展的、无服务器的 DataFrame 处理平台

Polars 团队正在构建 Polars Cloud,一个基于高性能计算的灵活 DataFrame API 平台。它旨在弥合 Pandas 和 PySpark 之间的差距,提供易用性和可扩展性。Polars Cloud 支持分布式计算、无服务器计算、可配置硬件(GPU 和 CPU)、水平和垂直扩展(对角线扩展)、多云支持(AWS、Azure、GCP)、本地许可、容错、数据血缘和可观察性。用户可以通过简单的 API 调用远程执行查询,并支持批量和交互式模式。Polars Cloud 还支持多种扩展策略,包括分布式查询、分区查询和并行查询,以应对各种规模的数据处理需求。

阅读更多
开发

Polars:我们为何重写字符串数据类型

2024-08-07
Polars:我们为何重写字符串数据类型

本文介绍了Polars团队为何重写字符串数据类型。旧的字符串类型在处理大量字符串数据时效率低下,尤其是在进行过滤和聚合操作时。为此,Polars采用了Hyper/Umbra数据库系统的设计方案,将字符串存储为16字节的视图,短字符串内联存储,长字符串存储在二级缓冲区中。这种新的数据结构解决了旧版本的性能瓶颈,并提供了更高的内存效率。

阅读更多
48
未分类