リッチテキスト、貧しいテキスト:文字エンコーディングの隠れた痛み

2025-04-05

この記事では、リッチテキスト編集におけるフォントスタイル(太字、イタリック体など)の保存方法の問題について掘り下げています。著者は、これらのスタイルは単なる「装飾」ではなく、句読点と同様に言語表現の不可欠な部分であると主張しています。しかし、初期の文字エンコーディング規格(ASCIIなど)にはこれらのスタイル情報は含まれておらず、埋め込みマークアップを使用する必要がありました。これはテキストデータを「汚染」し、テキスト処理の効率と一貫性に影響を与えます。著者は、この問題を解決するために、スタイル情報を文字に直接エンコードするより幅広い文字エンコーディング方式を提案しています。