ClickHouse-Performanceoptimierung auf Intel Xeon-Prozessoren mit ultrahoher Kernanzahl

2025-09-17
ClickHouse-Performanceoptimierung auf Intel Xeon-Prozessoren mit ultrahoher Kernanzahl

Die neuesten Intel-Prozessoren verfügen über Hunderte von Kernen, was sowohl enorme Chancen als auch Herausforderungen für analytische Datenbanken wie ClickHouse bietet. Ingenieure von Intel Shanghai analysierten systematisch die Leistung von ClickHouse auf Servern mit ultrahoher Kernanzahl und identifizierten und optimierten fünf wichtige Engpässe: Lock Contention, Speicheroptimierung, unzureichender Parallelismus, SIMD-Instruktionen-Nutzung und False Sharing. Durch die Reduzierung der Sperrzeiten, die Verbesserung des Speicherallokators, die Parallelisierung serieller Phasen, den Einsatz intelligenterer SIMD-Algorithmen und die Optimierung des Speicherlayouts verbesserten sie die Skalierbarkeit von ClickHouse auf Systemen mit ultrahoher Kernanzahl erheblich und erzielten bis zu 10-fache Beschleunigungen bei einzelnen Abfragen und eine Verbesserung der geometrischen Mittelwert um 10 %. Diese Arbeit unterstreicht die Notwendigkeit einer vielseitigen Datenbankoptimierung im Zeitalter der ultrahohen Kernanzahl, wobei sowohl algorithmische als auch Speicherlayout-Aspekte berücksichtigt werden müssen.

Mehr lesen
Entwicklung Ultrahohe Kernanzahl

Ein ORM für OLAP-Datenbanken erkunden: Der Ansatz von Moose OLAP

2025-08-17
Ein ORM für OLAP-Datenbanken erkunden: Der Ansatz von Moose OLAP

Moderne Anwendungen verlassen sich zunehmend auf benutzerorientierte Analysen und KI, die auf Aggregationen großer Datensätze basieren, was Entwickler zu analytischen Datenbanken wie ClickHouse führt. Dieser Artikel untersucht die Möglichkeiten und Herausforderungen beim Erstellen eines ORM für OLAP-Datenbanken. Die Erweiterung bestehender OLTP-ORMs auf OLAP ist aufgrund semantischer Unterschiede problematisch. Moose OLAP, ein Open-Source-Projekt, versucht, eine ORM-ähnliche Schnittstelle für ClickHouse bereitzustellen. Es übernimmt die Stärken von OLTP-ORMs, passt sich aber an die Besonderheiten von OLAP an, wie z. B. die unterschiedliche Behandlung von NULL-Werten und Eindeutigkeitsbeschränkungen. Moose OLAP betont Schema-as-Code, bietet OLAP-native Semantik und Standardwerte und unterstützt versionierte Migrationen, um die dynamischen Schemaänderungen in OLAP-Umgebungen zu bewältigen.

Mehr lesen
Entwicklung

Ein ärgerlicher PostgreSQL-Bug bei der Erstellung von logischen Replikationsslots und wie wir ihn behoben haben

2025-07-15
Ein ärgerlicher PostgreSQL-Bug bei der Erstellung von logischen Replikationsslots und wie wir ihn behoben haben

Das ClickPipes-Team stieß auf einen rätselhaften Bug bei der Erstellung von logischen Replikationsslots in PostgreSQL: Eine Abfrage, die nur wenige Sekunden dauern sollte, dauerte Stunden und konnte nicht beendet werden. Untersuchungen ergaben einen Postgres-Bug, bei dem auf Lese-Replikaten die Erstellung eines logischen Replikationsslots in einer langen Sleep-Schleife hängen blieb, während auf das Ende von Primärtransaktionen gewartet wurde, was ein Unterbrechen unmöglich machte. Das Team reichte einen Patch an die Postgres-Community ein, der eine Interrupt-Prüfung hinzufügte und das Problem effektiv löste. Dieser Fall verdeutlicht, wie selbst ausgereifte Datenbanksysteme unerwartete Randfälle aufweisen können und welche wichtige Rolle die Zusammenarbeit der Open-Source-Community bei deren Behebung spielt.

Mehr lesen
Entwicklung Logische Replikation

ClickHouse Cloud Observability-Plattform mit 100 PB: Die Entwicklung von LogHouse

2025-06-21
ClickHouse Cloud Observability-Plattform mit 100 PB: Die Entwicklung von LogHouse

Innerhalb eines Jahres wuchs die interne Logging-Plattform LogHouse von ClickHouse Cloud von 19 PiB auf über 100 PiB, und die Anzahl der Zeilen stieg von 40 Billionen auf 500 Billionen. Um einen 20-fachen Anstieg des Ereignisvolumens zu bewältigen, entwickelte das LogHouse-Team SysEx, einen benutzerdefinierten Exporter, der die CPU-Auslastung auf unter 10 % des vorherigen Bedarfs reduzierte. SysEx kopiert Daten direkt aus den ClickHouse-Systemtabellen und umgeht so den Engpass des Parsens und Marshalling von OpenTelemetry. Gleichzeitig integrierte LogHouse HyperDX, die native ClickHouse-Benutzeroberfläche für Observability, und bietet nahtlose Exploration, Korrelation und Ursachenanalyse.

Mehr lesen
Technologie

ClickHouse erhält 350 Millionen US-Dollar in Serie-C-Finanzierung zur Förderung von KI-nativen Anwendungen

2025-05-29
ClickHouse erhält 350 Millionen US-Dollar in Serie-C-Finanzierung zur Förderung von KI-nativen Anwendungen

Die Echtzeit-Analyse-Datenbank ClickHouse gab eine Serie-C-Finanzierungsrunde über 350 Millionen US-Dollar bekannt, wodurch sich die Gesamtfinanzierung auf über 650 Millionen US-Dollar erhöht. Diese Investition wird die Produktentwicklung, die globale Expansion und Partnerschaften fördern, die die nächste Welle KI-nativer Anwendungen unterstützen. Die Hochleistungs-Spalten-Speicher-Engine von ClickHouse ermöglicht interaktive analytische Abfragen auf massiven Datensätzen mit minimaler Latenz und unterstützt KI/ML-Anwendungen, Echtzeit-Analysen, Cloud-Data-Warehousing und Observability-Workloads. Mit einem jährlichen Wachstum von über 300 % und über 2.000 Kunden, darunter Anthropic, Tesla und Mercado Libre, begegnet ClickHouse der Herausforderung, Echtzeit-Datenplattformen für das KI-Zeitalter zu bauen, und positioniert sich als Standard-Engine für intelligente Datenprodukte der nächsten Generation.

Mehr lesen
Technologie

ClickHouses lazy Materialisierung: 1500-fache Geschwindigkeitsverbesserung

2025-04-22
ClickHouses lazy Materialisierung: 1500-fache Geschwindigkeitsverbesserung

ClickHouse erreicht eine 1500-fache Geschwindigkeitsverbesserung durch eine neue Optimierung namens "lazy Materialisierung". Diese Technik verzögert das Lesen von Spalten Daten, bis sie tatsächlich benötigt werden, wodurch unnötige E/A-Operationen drastisch reduziert werden. Der Artikel verwendet den Amazon Customer Reviews Datensatz, um zu veranschaulichen, wie lazy Materialisierung zusammen mit anderen E/A-Optimierungen wie columnar storage, sparse primary indexes und PREWHERE die Ausführungszeit einer Abfrage von 219 Sekunden auf 139 Millisekunden reduziert. Lazy Materialisierung ist besonders effektiv für Top-N-Abfragen und bietet signifikante Leistungssteigerungen ohne Änderung des SQL-Codes.

Mehr lesen
Technologie Lazy Materialisierung

ClickHouse integriert Rust: Eine herausfordernde Integrationsreise

2025-04-09
ClickHouse integriert Rust: Eine herausfordernde Integrationsreise

ClickHouse, ursprünglich in C++ geschrieben, hat sich auf den Weg gemacht, Rust zu integrieren, um mehr Entwickler anzuziehen und die Funktionalität zu erweitern. Der Artikel beschreibt diesen Prozess detailliert, von der anfänglichen Auswahl der BLAKE3-Hash-Funktion als Pilotprojekt bis zur Integration der PRQL-Abfragesprache und der Delta-Lake-Bibliothek. Die Reise war mit vielen Herausforderungen verbunden, darunter die Integration des Build-Systems, die Speicherverwaltung, die Fehlerbehandlung und Probleme mit der Cross-Compilation. Trotz Problemen wie Bugs in Rust-Bibliotheken, übermäßig langen Symbolnamen und Interoperabilitätsproblemen mit C++-Code hat das ClickHouse-Team diese Hürden überwunden und Rust erfolgreich in das Projekt integriert, wodurch der Weg für zukünftige Entwicklungen geebnet wurde.

Mehr lesen
Entwicklung