Apples FastVLM: Ein blitzschnelles visuell-sprachliches Modell

2025-07-24
Apples FastVLM: Ein blitzschnelles visuell-sprachliches Modell

Apple ML-Forscher haben auf der CVPR 2025 FastVLM vorgestellt, ein neuartiges visuell-sprachliches Modell (VLM). Es adressiert den Kompromiss zwischen Genauigkeit und Effizienz, der VLMs innewohnt, indem es einen hybriden Bildkodierer, FastViTHD, verwendet, der für hochauflösende Bilder entwickelt wurde. Das Ergebnis ist ein VLM, das deutlich schneller und genauer als vergleichbare Modelle ist und Echtzeit-Anwendungen auf Geräten und datenschutzfreundliche KI ermöglicht. FastViTHD erzeugt weniger, aber qualitativ hochwertigere visuelle Token, wodurch das Vorfüllen des LLMs beschleunigt wird. Eine iOS/macOS-Demo-App zeigt die On-Device-Fähigkeiten von FastVLM.

Mehr lesen

Apple enthüllt neue multilinguale und multimodale Basissprachenmodelle

2025-07-18
Apple enthüllt neue multilinguale und multimodale Basissprachenmodelle

Apple hat zwei neue multilinguale und multimodale Basissprachenmodelle vorgestellt, die die intelligenten Funktionen auf seinen Geräten und Servern antreiben. Ein On-Device-Modell mit ca. 3 Milliarden Parametern, optimiert für Apple Silicon, und ein skalierbares Servermodell, das auf einem neuartigen Parallel-Track Mixture-of-Experts (PT-MoE)-Transformer basiert. Beide wurden mit massiven multilingualen und multimodalen Datensätzen trainiert und durch überwachtes Feintuning und Reinforcement Learning verfeinert. Sie unterstützen mehr Sprachen, Bildverständnis und Tool-Aufrufe und erreichen oder übertreffen vergleichbare Open-Source-Basismodelle. Ein neues, auf Swift ausgerichtetes Framework vereinfacht die Integration für Entwickler.

Mehr lesen

TarFlow: Transformer-basierte Normalisierungsflüsse erreichen State-of-the-Art in der Bildwahrscheinlichkeitsabschätzung

2025-06-28
TarFlow: Transformer-basierte Normalisierungsflüsse erreichen State-of-the-Art in der Bildwahrscheinlichkeitsabschätzung

Forscher stellen TarFlow vor, ein neues Normalisierungsflussmodell, das Transformer und maskierte autoregressive Flüsse nutzt. TarFlow schätzt die Dichte und generiert Bilder effizient, indem es Bildpatches mit autoregressiven Transformer-Blöcken verarbeitet und die Autoregressionsrichtung zwischen den Schichten abwechselt. Drei Schlüsseltechniken verbessern die Qualität der Stichproben: Gaußsches Rauschen während des Trainings, ein Entrauschungsverfahren nach dem Training und eine effektive Führungsmethode für sowohl klassenbedingte als auch unbedingte Einstellungen. TarFlow erzielt State-of-the-Art-Ergebnisse bei der Bildwahrscheinlichkeitsabschätzung, übertrifft deutlich vorherige Methoden und erzeugt Stichproben mit einer Qualität und Vielfalt, die mit Diffusionsmodellen vergleichbar sind – erstmals bei einem eigenständigen Normalisierungsflussmodell.

Mehr lesen
KI

Large Reasoning Models: Kollaps und kontraintuitive Skalierung

2025-06-08
Large Reasoning Models: Kollaps und kontraintuitive Skalierung

Jüngste Generationen von großen Sprachmodellen (LLMs) haben Large Reasoning Models (LRMs) hervorgebracht, die detaillierte Denkprozesse generieren, bevor sie Antworten liefern. Obwohl diese Modelle verbesserte Leistungen bei Reasoning-Benchmarks zeigen, bleiben ihre grundlegenden Fähigkeiten, Skalierungseigenschaften und Einschränkungen unzureichend verstanden. Diese Arbeit untersucht LRMs mithilfe kontrollierbarer Puzzle-Umgebungen und zeigt einen vollständigen Genauigkeitskollaps jenseits einer bestimmten Komplexitätsschwelle. Überraschenderweise steigt der Denkaufwand mit der Komplexität, nimmt dann aber trotz eines ausreichenden Token-Budgets ab. Im Vergleich zu Standard-LLMs zeigten sich drei Regime: (1) Aufgaben mit geringer Komplexität, bei denen Standard-LLMs LRMs übertreffen, (2) Aufgaben mit mittlerer Komplexität, bei denen LRMs einen Vorteil zeigen, und (3) Aufgaben mit hoher Komplexität, bei denen beide scheitern. LRMs weisen Einschränkungen bei der exakten Berechnung auf, können keine expliziten Algorithmen verwenden und argumentieren inkonsistent. Diese Studie beleuchtet die Stärken, Schwächen und entscheidenden Fragen bezüglich der wahren Argumentationsfähigkeiten von LRMs.

Mehr lesen
KI

Apples Ansatz zur Verbesserung der KI unter Wahrung des Datenschutzes

2025-04-14
Apples Ansatz zur Verbesserung der KI unter Wahrung des Datenschutzes

Apple verpflichtet sich zum Datenschutz der Nutzer, auch bei der Verbesserung seiner KI-Funktionen wie Genmoji, Bilderzeugungs-Tools und Schreibwerkzeuge. Es verwendet Differential Privacy, anonymisiert Nutzerdaten, um nur aggregierte Trendinformationen zu sammeln, wie z. B. beliebte Genmoji-Prompts. Für KI-Funktionen, die längere Texte wie E-Mails verarbeiten, verwendet Apple synthetische Daten. Dies erzeugt synthetische Daten, die reale Nutzerdatenmuster imitieren, um Modelle zu trainieren und zu testen, ohne auf den tatsächlichen E-Mail-Inhalt zuzugreifen. So kann Apple die Produkterfahrungen verbessern und gleichzeitig sicherstellen, dass der Datenschutz der Nutzer im Vordergrund steht.

Mehr lesen

Apples KI-Durchbruch: Feinsteuerung generativer Modelle mit Activation Transport (AcT)

2025-04-10
Apples KI-Durchbruch: Feinsteuerung generativer Modelle mit Activation Transport (AcT)

Apple-Forscher im Bereich maschinelles Lernen haben Activation Transport (AcT) entwickelt, eine neue Technik zur präzisen Steuerung großer generativer Modelle, einschließlich LLMs und Text-zu-Bild-Diffusionsmodelle, ohne den ressourcenintensiven Trainingsprozess von RLHF oder Feinanpassung. AcT steuert Modell-Aktivierungen mithilfe der optimalen Transporttheorie und ermöglicht eine modalitätsagnostische Steuerung mit minimalem Rechenaufwand. Experimente zeigen signifikante Verbesserungen bei der Toxizitätsminderung, der Induktion von Wahrheitsgehalt in LLMs und der Steuerung des Stils in der Bilderzeugung. AcT ebnet den Weg für sicherere und zuverlässigere generative Modelle.

Mehr lesen

SeedLM: Eine neue Methode zur Komprimierung von LLM-Gewichten mithilfe von Pseudozufallszahlengeneratoren

2025-04-06
SeedLM: Eine neue Methode zur Komprimierung von LLM-Gewichten mithilfe von Pseudozufallszahlengeneratoren

Große Sprachmodelle (LLMs) sind durch hohe Laufzeitkosten behindert, was ihren breiten Einsatz einschränkt. Forscher von Meta stellen SeedLM vor, eine neue Methode zur Komprimierung nach dem Training, die Seeds eines Pseudozufallszahlengenerators verwendet, um Modellgewichte zu kodieren und zu komprimieren. Während der Inferenz verwendet SeedLM ein lineares Rückkopplungs-Shift-Register (LFSR), um effizient eine Zufallsmatrix zu generieren, die linear mit komprimierten Koeffizienten kombiniert wird, um Gewichtsblöcke zu rekonstruieren. Dies reduziert den Speicherzugriff und nutzt ungenutzte Rezyklen, wodurch speichergebundene Aufgaben beschleunigt werden, indem Rechenleistung gegen weniger Speicherzugriffe eingetauscht wird. Im Gegensatz zu den besten aktuellen Methoden, die Kalibrierungsdaten benötigen, ist SeedLM datenfrei und verallgemeinert gut über verschiedene Aufgaben hinweg. Experimente mit dem herausfordernden Llama 3 70B zeigen eine Zero-Shot-Genauigkeit bei 4- und 3-Bit-Komprimierung, die mit oder besser als die besten aktuellen Methoden ist, während die Leistung mit FP16-Basislinien vergleichbar bleibt. FPGA-Tests zeigen, dass SeedLM mit 4 Bit mit zunehmendem Modellumfang eine 4-fache Beschleunigung gegenüber einer FP16 Llama 2/3-Basislinie erreicht.

Mehr lesen
KI