Sesames CSM: Nahezu menschenähnliche Sprache, aber noch in der Entwicklung
Ein Video, das Sesames neues Sprachmodell CSM zeigt, ist viral gegangen. Basierend auf Metas Llama-Architektur erzeugt das Modell bemerkenswert realistische Konversationen und verwischt die Grenze zwischen Mensch und KI. Es verwendet einen einstufigen, multimodalen Transformer und verarbeitet Text und Audio gleichzeitig, im Gegensatz zu traditionellen zweistufigen Methoden. Während Blindtests eine nahezu menschenähnliche Qualität für isolierte Sprachproben zeigen, wird im Kontext einer Konversation weiterhin menschliche Sprache bevorzugt. Sesame-Mitgründer Brendan Iribe räumt bestehende Herausforderungen bei Ton, Tempo und Unterbrechungen ein und gibt zu, dass sich das Modell noch in der Entwicklung befindet, zeigt sich aber optimistisch für die Zukunft.