Die Fallstricke der Zeichenkettenlängenbegrenzung

2025-04-30

Dieser Beitrag untersucht die Komplexität der Begrenzung der Länge von Zeichenketten. Unterschiedliche Zeichenkodierungen (UTF-8, UTF-16, Unicode-Codepunkte, Grapheme-Cluster) führen zu unterschiedlichen Methoden zur Längenberechnung, was leicht zu Inkonsistenzen zwischen Frontend, Backend und Datenbank führt und zu Fehlern führt. Der Autor schlägt vor, die Zählung von Unicode-Codepunkten mit NFC-Normalisierung zu verwenden, obwohl dies nicht perfekt ist, als den besten Ansatz. Der Artikel untersucht auch die Vor- und Nachteile der Zählung von Grapheme-Clustern, der Zählung von UTF-8-Bytes und der Zählung von UTF-16-Codeeinheiten und liefert ein Beispiel für eine hybride Zählmethode.

Entwicklung Zeichenkettenlänge