Category: KI

Googles Gemma: Eine Familie leichter multimodaler Modelle

2025-03-12
Googles Gemma: Eine Familie leichter multimodaler Modelle

Google hat Gemma vorgestellt, eine leichtgewichtige Familie multimodaler Modelle, die auf der Gemini-Technologie basieren. Die Gemma 3-Modelle verarbeiten Text und Bilder, verfügen über ein Kontextfenster von 128 K und unterstützen über 140 Sprachen. Erhältlich in Größen von 1B, 4B, 12B und 27B Parametern, zeichnen sie sich in Aufgaben wie Fragenbeantwortung, Zusammenfassung und Schlussfolgerung aus, während ihr kompaktes Design den Einsatz auf Geräten mit begrenzten Ressourcen ermöglicht. Benchmark-Ergebnisse zeigen eine starke Leistung in verschiedenen Aufgaben, insbesondere bei mehrsprachigen und multimodalen Fähigkeiten.

Die algorithmische Decke durchbrechen: Effizientes generatives Pretraining mit induktivem Moment Matching (IMM)

2025-03-12
Die algorithmische Decke durchbrechen: Effizientes generatives Pretraining mit induktivem Moment Matching (IMM)

Luma Labs stellt Inductive Moment Matching (IMM) vor, eine neue Pretraining-Technik, die die Stagnation algorithmischer Innovation im generativen Pretraining adressiert. IMM übertrifft Diffusionsmodelle sowohl in der Sample-Qualität als auch in der Sample-Effizienz deutlich und erzielt dabei eine über zehnfache Steigerung. Durch die Einbeziehung des Ziel-Zeitschritts verbessert IMM die Flexibilität jeder Inferenz-Iteration und überwindet die Grenzen der linearen Interpolation in Diffusionsmodellen. Experimente zeigen State-of-the-art FID-Scores auf ImageNet und CIFAR-10 sowie eine höhere Trainingstabilität. Diese Forschung markiert einen bedeutenden Fortschritt in generativen Pretraining-Algorithmen und ebnet den Weg für zukünftige Fortschritte in multimodalen Basismodellen.

Mistrals neues OCR-Modell enttäuscht; Google Gemini 2.0 übernimmt die Führung

2025-03-11
Mistrals neues OCR-Modell enttäuscht; Google Gemini 2.0 übernimmt die Führung

Neuere Tests zeigen, dass Mistrals neu veröffentlichtes OCR-spezifisches Modell die Werbeversprechen nicht erfüllt. Die Entwickler Willis und Doria heben Probleme bei der Verarbeitung komplexer Layouts und handschriftlicher Inhalte hervor, darunter die Wiederholung von Städtenamen, numerische Fehler und Halluzinationen. Im Gegensatz dazu zeichnet sich Googles Gemini 2.0 Flash Pro Experimental aus und verarbeitet komplexe PDFs, die Mistral nicht bewältigt, einschließlich solcher mit handschriftlichem Inhalt. Sein großes Kontextfenster ist ein entscheidender Vorteil. Obwohl vielversprechend, leidet LLM-basiertes OCR unter Problemen wie der Erfindung von Informationen, der Fehlinterpretation von Anweisungen und der allgemeinen Fehlinterpretation von Daten.

KI

Legion Health: KI-gestützte psychiatrische Versorgung – Wir stellen ein!

2025-03-11
Legion Health: KI-gestützte psychiatrische Versorgung – Wir stellen ein!

Das von YC unterstützte Unternehmen Legion Health sucht hochkarätige KI-Ingenieure für den Aufbau eines KI-gestützten Systems für die psychische Gesundheitsversorgung. Der Fokus liegt nicht auf KI-Diagnostik, sondern auf der Optimierung des Betriebs mittels KI, um die Patientenversorgung schneller, reibungsloser und zugänglicher zu machen. Die Ingenieure werden an der Optimierung von LLM-Workflows, der Verbesserung von KI-Modellen (Terminplanung, Risikobewertung, Automatisierung des Umsatzprozesses), der Optimierung von Feedbackschleifen und der Implementierung eines Reinforcement-Learning-Ansatzes arbeiten. Ideale Kandidaten verfügen über mehr als 3 Jahre Erfahrung in der KI/ML-Entwicklung, fundierte Kenntnisse in Python und ML (LLMs, NLP, PyTorch/TensorFlow) und Interesse an KI im Gesundheitswesen.

KI

Firefly: KI-gestütztes Echtzeit-Feedback für Workouts

2025-03-11

Firefly ist eine einzigartige Fitness-App, die Echtzeit-Feedback zur Ausführung von Übungen mithilfe eines zuverlässigen Pose-Trackers und Trainerdaten bietet. Im Gegensatz zu Apps, die nur Trainingspläne vorschlagen, bewertet Firefly Ihre Ausführung und gibt sofort Korrekturen für jede Wiederholung, um die richtige Technik sicherzustellen und Verletzungen vorzubeugen. Seine Geschwindigkeit und Genauigkeit übertreffen die Konkurrenz und nutzt proprietäre Trainerdaten anstelle unzuverlässiger Daten von Drittanbietern. Firefly liefert kontinuierliches Feedback und hilft Ihnen, sich auch bei Fehlern zu verbessern.

Dekodieren der menschlichen Gehirnaktivität von Sprache mit Whisper

2025-03-11
Dekodieren der menschlichen Gehirnaktivität von Sprache mit Whisper

Forscher haben das Whisper-Modell verwendet, um ECoG- und Sprachsignale von vier Epilepsiepatienten während natürlicher Gespräche zu analysieren. Die Ergebnisse zeigten, dass die akustischen, Sprach- und Spracheinbettungen von Whisper die neuronale Aktivität präzise vorhersagten, insbesondere während der Sprachproduktion und des Sprachverständnisses. Spracheinbettungen zeichneten sich in perzeptiven und motorischen Bereichen aus, während Spracheinbettungen in höherwertigen Sprachbereichen bessere Ergebnisse erzielten. Die Studie zeigt, wie Sprach- und Sprachinformationen in mehreren Gehirnbereichen kodiert werden und wie Sprachinformationen die Sprachverarbeitung beeinflussen. Es wurden auch unterschiedliche zeitliche Dynamiken des Informationsflusses während der Sprachproduktion und des Sprachverständnisses sowie Unterschiede zwischen Deep-Learning- und symbolischen Modellen bei der Vorhersage neuronaler Aktivität entdeckt.

Factorio Lernumgebung: Ein neuer Benchmark für LLMs

2025-03-11

Große Sprachmodelle (LLMs) sättigen schnell bestehende Benchmarks und erfordern neue, offene Evaluierungen. Wir stellen die Factorio Lernumgebung (FLE) vor, die auf dem Spiel Factorio basiert und Agenten in Langzeitplanung, Programmsynthese und Ressourcenoptimierung testet. FLE bietet offene und exponentiell skalierende Herausforderungen – von grundlegender Automatisierung bis hin zu komplexen Fabriken, die Millionen von Ressourceneinheiten pro Sekunde verarbeiten. Wir bieten zwei Einstellungen an: Lab-Spiele mit 24 strukturierten Aufgaben und festen Ressourcen, und Open-Play, die unbegrenzte Aufgabe, die größte Fabrik von Grund auf neu auf einer prozedural generierten Karte zu bauen. Wir zeigen in beiden Einstellungen, dass Modellen immer noch starkes räumliches Denken fehlt. Im Lab-Spiel zeigen LLMs vielversprechende Fähigkeiten auf kurze Sicht, können aber in eingeschränkten Umgebungen nicht effektiv arbeiten, was die Grenzen der Fehleranalyse widerspiegelt. Im Open-Play entdecken LLMs zwar Automatisierungsstrategien, die das Wachstum verbessern (z. B. elektrisches Bohren), scheitern aber an komplexer Automatisierung (z. B. Herstellung von elektronischen Schaltungen).

KI

Semantische Verständnisschlüssel: Kosinusähnlichkeit in der KI

2025-03-10
Semantische Verständnisschlüssel: Kosinusähnlichkeit in der KI

Dieser Artikel erklärt klar und verständlich die Kosinusähnlichkeit und ihre Anwendungen in der KI, insbesondere beim Verständnis semantischer Beziehungen zwischen Wörtern. Er beginnt mit einer Erklärung von Vektoren und beschreibt dann detailliert die Berechnung der Kosinusähnlichkeit anhand eines Schritt-für-Schritt-Beispiels. Eine Implementierung der Kosinusähnlichkeitsfunktion in TypeScript wird bereitgestellt, zusammen mit einer optimierten Version. Der Artikel untersucht dann reale Anwendungsfälle in Webanwendungen, wie z. B. Produktempfehlungen und semantische Suche, und zeigt, wie man OpenAIs Embedding-Modelle zur Verbesserung der Genauigkeit nutzt. Der Artikel hebt auch die effiziente Implementierung mit Math.hypot() und die Bedeutung der Vorkalkulation von Einbettungen in Produktionsumgebungen hervor.

Wird KI ein 'komprimiertes 21. Jahrhundert' liefern? Die Zweifel eines Forschers

2025-03-10

Der Autor hinterfragt die Annahme, dass KI bald einen schnellen Aufschwung wissenschaftlicher Fortschritte bringen wird. Anhand persönlicher Erfahrungen und Beispielen historischer wissenschaftlicher Genies argumentiert er, dass echter wissenschaftlicher Fortschritt nicht aus der Beherrschung bestehenden Wissens resultiert, sondern aus der Infragestellung etablierter Überzeugungen und der Formulierung disruptiver Fragen. Aktuelle KI-Modelle zeichnen sich durch 'Lückenfüllen' anstatt durch die Generierung origineller Ideen aus. Der Autor schlägt vor, dass neue Bewertungsmetriken benötigt werden, um die Fähigkeit von KI zu messen, herausfordernde Fragen zu stellen und Paradigmenwechsel anzustoßen, anstatt sich lediglich auf ihre Genauigkeit bei der Beantwortung bekannter Fragen zu konzentrieren.

LLMs und Menschen zeigen Bias: Ein Experiment zur Bewertung der Attraktivität von TTS-Stimmen

2025-03-10

Im vergangenen Jahr verwendete der Autor LLMs, um Hacker-News-Benutzer zu bewerten, und stellte dabei einen Bias fest: Die Modelle bevorzugten durchweg den zuerst im Prompt genannten Benutzer. In diesem Jahr ergab ein neues Experiment zur Bewertung der Attraktivität von TTS-Stimmen einen ähnlichen Bias bei menschlichen Teilnehmern, die Stimmen bevorzugten, die auf der rechten Seite des Bildschirms angezeigt wurden. Dies bestätigt die vorherigen Ergebnisse des Autors und unterstreicht die Bedeutung von großen Stichproben und Randomisierung bei der Verwendung von sowohl KI- als auch menschlichen Bewertungen, um Bias zu reduzieren.

In-Browser Graph RAG Chatbot mit Kuzu-Wasm und WebLLM

2025-03-10
In-Browser Graph RAG Chatbot mit Kuzu-Wasm und WebLLM

Dieser Blogbeitrag zeigt einen vollständig im Browser integrierten Chatbot, der mit Kuzu-Wasm und WebLLM erstellt wurde und die Technik der Graph Retrieval-Augmented Generation (Graph RAG) verwendet, um Fragen in natürlicher Sprache zu LinkedIn-Daten zu beantworten. Die Anwendung nutzt die Vorteile von WebAssembly, ermöglicht die lokale Datenverarbeitung für mehr Datenschutz und vereinfacht die Bereitstellung. Architektur, Implementierung, Datenaufnahme, WebLLM-Prompts und Leistungsbeobachtungen werden detailliert beschrieben. Obwohl derzeit Einschränkungen bestehen, wie z. B. Modellgröße und Geschwindigkeit, deuten die Fortschritte bei WebAssembly und das Aufkommen kleinerer und besserer LLMs auf eine vielversprechende Zukunft für solche fortschrittlichen Pipelines hin, die vollständig im Browser laufen.

KI

RTX 5090: Erste Ergebnisse des Llama.cpp KI-Benchmarks

2025-03-10

Nach den CUDA, OpenCL und OptiX Benchmarks der RTX 5090, führte das Interesse der Leser zu einer Untersuchung ihrer KI-Leistung, insbesondere mit Llama.cpp. Erste Benchmarks, die die RTX 5090, die RTX 40- und RTX 30-Serienkarten mit Llama.cpp (mit den Modellen Llama 3.1 und Mistral 7B) vergleichen, zeigen signifikante Leistungssteigerungen für die RTX 5090 bei der Textgenerierung und Promptverarbeitung. Weitere, detailliertere Benchmarks werden je nach Leserinteresse folgen.

Das Ende des LLM-Hype-Zyklus?

2025-03-10
Das Ende des LLM-Hype-Zyklus?

Dieser Artikel präsentiert einen vorsichtig optimistischen Ausblick auf den aktuellen Fortschritt großer Sprachmodelle (LLM). Der Autor argumentiert, dass LLMs zwar in bestimmten Aufgaben exzellent sind, der aktuelle technologische Weg jedoch unwahrscheinlich zur Allgemeinen Künstlichen Intelligenz (AGI) führt. Verbesserungen sind eher inkrementell, manifestieren sich in subtilen Verbesserungen und Benchmark-Steigerungen anstatt fundamentaler Leistungssprünge. Der Autor prognostiziert, dass LLMs in den kommenden Jahren nützliche Werkzeuge sein werden, aber keine AGI oder umfassende Automatisierung liefern werden. Zukünftige Durchbrüche könnten völlig neue Ansätze erfordern.

KI

Variationelle verlustbehaftete Autoencoder: Wenn RNNs latente Variablen ignorieren

2025-03-09
Variationelle verlustbehaftete Autoencoder: Wenn RNNs latente Variablen ignorieren

Dieser Artikel befasst sich mit der Herausforderung, rekurrenten neuronalen Netze (RNNs) mit variationellen Autoencodern (VAEs) zu kombinieren. Während VAEs latente Variablen verwenden, um Datenrepräsentationen zu lernen, ignorieren RNNs als Decoder oft diese latenten Variablen und lernen die Datenverteilung direkt. Die Autoren schlagen variationelle verlustbehaftete Autoencoder (VLAEs) vor, die den Zugriff der RNN auf Informationen einschränken und sie zwingen, latente Variablen zur Codierung der globalen Struktur zu verwenden. Experimente zeigen, dass VLAEs komprimierte und semantisch reiche latente Repräsentationen lernen.

Evolutionsfähiges Agenten-Framework: Kollaborative KI-Agenten-Ökosysteme

2025-03-09
Evolutionsfähiges Agenten-Framework: Kollaborative KI-Agenten-Ökosysteme

Das Evolutionsfähige Agenten-Framework ist ein produktionsreifes System zum Erstellen, Verwalten und Entwickeln von KI-Agenten mit intelligenter Kommunikation. Es ermöglicht kollaborative Ökosysteme von Agenten, die semantisch Anforderungen verstehen, aus Erfahrung lernen und effektiv kommunizieren, um komplexe Aufgaben zu lösen. Zu den Hauptmerkmalen gehören die Agentenentwicklung (Wiederverwendung, Anpassung oder Erstellung), die Agent-zu-Agent-Kommunikation über ein YAML-Workflow-System, eine intelligente Bibliothek mit semantischer Suche, die von OpenAI-Einbettungen unterstützt wird, Selbstverbesserung durch kontinuierliches Lernen und Multi-Framework-Unterstützung (BeeAI, OpenAI usw.). Das Framework verwendet einen Systemagenten, um zu entscheiden, ob wiederverwendet, weiterentwickelt oder neue Agenten basierend auf semantischer Ähnlichkeit erstellt werden sollen, und beinhaltet Governance durch Firmware. Ein umfassendes Beispiel demonstriert die Zusammenarbeit und Entwicklung von Agenten für Aufgaben wie die Rechnungsprüfung.

KI

KI: Hype vs. Realität – Ein Technologischer Wandel, Kein Skynet-Szenario

2025-03-08
KI: Hype vs. Realität – Ein Technologischer Wandel, Kein Skynet-Szenario

Der rasante Fortschritt der KI hat weitverbreitete Bedenken hinsichtlich des Arbeitsplatzverlusts und sogar existenzieller Bedrohungen ausgelöst. Dieser Artikel argumentiert, dass KI im Kern eine Mustererkennungsmaschine ist, die Wahrscheinlichkeitsverteilungen aus Daten lernt, um Vorhersagen zu treffen, und nicht wirklich denkt. Obwohl KI beeindruckende Ergebnisse in der Bilderzeugung und Texterstellung erzielt, bleiben Einschränkungen bestehen, darunter Halluzinationen und das Fehlen echten logischen Denkens. Der Autor zieht Parallelen zu vergangenen technologischen Veränderungen und hebt die Anpassungsfähigkeit der Menschheit hervor. KI wird Aufgaben automatisieren, aber auch neue Chancen schaffen, und plädiert für eine proaktive Auseinandersetzung mit dem Wandel und die Lenkung menschlicher Energie auf sinnvollere Bestrebungen.

KI entschlüsselt 3000 Jahre alte Keilschrift, revolutioniert die Erforschung der Antike

2025-03-08
KI entschlüsselt 3000 Jahre alte Keilschrift, revolutioniert die Erforschung der Antike

Forscher der Universitäten Cornell und Tel Aviv haben ProtoSnap entwickelt, ein KI-System, das automatisch Keilschriftzeichen von 3000 Jahre alten Tafeln identifiziert und kopiert. Mit einem Diffusionsmodell vergleicht ProtoSnap die Pixelähnlichkeit zwischen einem Bild eines Zeichens und einem Prototyp und rekonstruiert die Zeichen präzise, trotz Variationen in Schreibstil und Alter. Dies beschleunigt die Übersetzung und Erforschung der Keilschrift enorm, liefert massive Datensätze für die Erforschung alter Kulturen und bietet neue Einblicke in deren Religion, Wirtschaft, soziale Strukturen und Rechtssysteme.

Reflection AI: 130 Millionen US-Dollar für Superintelligenz

2025-03-08
Reflection AI: 130 Millionen US-Dollar für Superintelligenz

Reflection AI, ein Startup, das von ehemaligen Google DeepMind-Forschern gegründet wurde, hat 130 Millionen US-Dollar in Seed- und Series-A-Finanzierungsrunden erhalten und erreicht damit eine Bewertung von 555 Millionen US-Dollar. Ihr ehrgeiziges Ziel ist es, „Superintelligenz“ zu schaffen – KI, die in der Lage ist, die meisten computerbezogenen Aufgaben zu erledigen. Der anfängliche Fokus liegt auf einem autonomen Programmierwerkzeug, das große Sprachmodelle (LLMs) und Reinforcement Learning nutzt und neue Architekturen jenseits von Transformatoren erforscht, um die Effizienz zu steigern. Dieses Werkzeug wird Aufgaben wie die Überprüfung von Sicherheitslücken, die Optimierung des Arbeitsspeichers und Zuverlässigkeitstests automatisieren und letztendlich darauf abzielen, umfangreiche Workloads autonom zu bewältigen.

KI

Russisches Desinformationsnetzwerk infiltriert westliche KI-Chatbots

2025-03-07
Russisches Desinformationsnetzwerk infiltriert westliche KI-Chatbots

Ein in Moskau ansässiges Desinformationsnetzwerk namens "Pravda" (russisch für "Wahrheit") infiltriert die Daten von KI-Chatbots, schleust falsche Behauptungen und Propaganda ein, um deren Antworten auf Nachrichten zu manipulieren. Indem es die Suchergebnisse mit pro-kremlischen Falschinformationen überschwemmt, verzerrt das Netzwerk, wie große Sprachmodelle Informationen verarbeiten. Dies führte dazu, dass Millionen von Artikeln russischer Propaganda in westliche KI-Systeme integriert wurden und deren Ausgaben infizierten. Ein Audit von NewsGuard an 10 führenden KI-Chatbots ergab, dass sie falsche Erzählungen des Pravda-Netzwerks zu 33 % der Zeit wiederholten. Das Netzwerk erstellt keine Originalinhalte, sondern fungiert als Geldwäscherei für Kreml-Propaganda und aggregiert sie auf zahlreichen scheinbar unabhängigen Websites. Diese groß angelegte Operation unterstreicht die Anfälligkeit von KI-Modellen für Desinformationskampagnen.

Reflection AI: Superintelligenz durch autonomes Codieren

2025-03-07
Reflection AI: Superintelligenz durch autonomes Codieren

Reflection AI entwickelt superintelligente autonome Systeme. Mitglieder des Teams waren maßgeblich an Projekten wie AlphaGo beteiligt und haben bahnbrechende Fortschritte im Bereich Reinforcement Learning und Large Language Models erzielt. Sie glauben, dass autonomes Codieren der Schlüssel zu umfassenderer Superintelligenz ist und planen, zunächst ein superintelligentes autonomes Codierungssystem zu entwickeln, um dann diese Blaupause auf alle anderen computerbasierten Aufgaben auszuweiten. Das Unternehmen legt Wert auf reale Anwendungen und iteriert mit Benutzerfeedback, um sicherzustellen, dass die Systeme zuverlässig die Anforderungen der realen Welt erfüllen und die Zukunft der KI verantwortungsvoll gestalten.

Natürlich vorkommendes Molekül konkurriert mit Ozempic bei der Gewichtsabnahme, ohne Nebenwirkungen

2025-03-07
Natürlich vorkommendes Molekül konkurriert mit Ozempic bei der Gewichtsabnahme, ohne Nebenwirkungen

Forscher der Stanford Medicine haben mit Hilfe eines KI-Algorithmus ein natürlich vorkommendes Molekül, BRP, identifiziert, das mit Semaglutid (Ozempic) bei der Unterdrückung des Appetits und der Reduzierung des Körpergewichts konkurriert. Wichtig ist, dass Tests an Tieren zeigten, dass BRP Nebenwirkungen wie Übelkeit, Verstopfung und Muskelschwund vermeidet. BRP wirkt über einen anderen, aber ähnlichen Stoffwechselweg und zielt auf den Hypothalamus, um den Appetit zu kontrollieren. Ein Unternehmen wurde gegründet, um klinische Studien am Menschen zu starten. Dieser Durchbruch beruhte auf KI, um Tausende von Proteinen zu durchsuchen und bietet einen vielversprechenden neuen Weg zur Behandlung von Adipositas.

KI

Über autoregressive Modelle hinaus: Die nächste Grenze der KI

2025-03-07

Die meisten generativen KI-Modelle sind heute autoregressiv, d. h., sie sagen das nächste Token voraus, wobei die Transformer-Architektur aufgrund ihrer Rechenleistung die dominierende Implementierung ist. Autoregressive Modelle haben jedoch inhärente Einschränkungen, wie z. B. fehlende Planungs- und Schlussfolgerungsfähigkeiten, begrenztes Langzeitgedächtnis und die Neigung zu „Halluzinationen“. Der Autor argumentiert, dass menschliches Denken nicht rein autoregressiv ist, sondern nicht-sequenzielles Denken und Planung umfasst. Um eine KI zu erreichen, die der menschlichen Kognition näher kommt, erforschen Forscher alternative Paradigmen wie JEPA und Diffusionsmodelle, die Inhalte durch iterative Verfeinerung oder Entrauschen von Rauschen erzeugen und die menschlichen Denkprozesse genauer widerspiegeln.

InstantStyle: Ein Klick-Framework für Style Transfer zur mühelosen KI-Bildgenerierung

2025-03-07
InstantStyle: Ein Klick-Framework für Style Transfer zur mühelosen KI-Bildgenerierung

InstantStyle ist ein einfaches, aber leistungsstarkes Framework für die Bildstilübertragung, das eine präzise Steuerung des Stils ermöglicht, indem es die Inhalts- und Stilinformationen eines Bildes intelligent trennt. Es nutzt die globalen Merkmale von CLIP und konzentriert sich auf spezifische Aufmerksamkeitsschichten (up_blocks.0.attentions.1 und down_blocks.2.attentions.1), um Stil und Layout zu manipulieren. InstantStyle ist in beliebte Tools wie diffusers integriert, unterstützt Modelle wie SDXL und SD1.5 und bietet Online-Demos und Funktionen zur Generierung hochauflösender Bilder. Dies vereinfacht den Workflow erheblich und bietet Benutzern eine komfortable Erfahrung bei der Generierung stilisierter Bilder.

Differenzierbare logische Zellulare Automaten: Vom Game of Life zur Mustererzeugung mit gelernten rekurrenten Schaltkreisen

2025-03-07

Dieser Artikel stellt DiffLogic CA vor, eine neue Architektur für neuronale zellulare Automaten (NCA), die einen vollständig diskreten Zellzustand verwendet, der über einen gelernten, rekurrenten binären Schaltkreis aktualisiert wird. Durch den Ersatz von neuronalen Netzwerkkomponenten durch Deep Differentiable Logic Networks wird ein differenzierbares Training diskreter logischer Gatter ermöglicht. Der Erfolg der Anwendung differenzierbarer logischer Gatter auf zellulare Automaten wird durch die Replikation von Conways Game of Life und die Erzeugung von Mustern durch gelernte diskrete Dynamiken demonstriert. Dies unterstreicht das Potenzial der Integration diskreter Logik in NCAs und beweist, dass differenzierbare logische Gatternetzwerke in rekurrenten Architekturen effektiv gelernt werden können. Obwohl vielversprechend, stellt das Training für komplexere Formen weiterhin eine Herausforderung dar, was zukünftige Arbeiten an hierarchischen Architekturen und spezialisierten Gattern für ein besseres Zustandsmanagement nahelegt.

Diffusions-LLMs: Ein Paradigmenwechsel im Sprachmodell

2025-03-06

Inception Labs hat ein bahnbrechendes Diffusions-Large-Language-Model (dLLM) vorgestellt, das den traditionellen autoregressiven Ansatz in Frage stellt. Im Gegensatz zu autoregressiven Modellen, die Token sequenziell vorhersagen, generieren dLLMs Textsegmente gleichzeitig und verfeinern sie iterativ. Diese Methode, die sich in Bild- und Videomodellen bewährt hat, übertrifft jetzt gleichgroße LLMs in der Codegenerierung und bietet eine 5- bis 10-fache Verbesserung von Geschwindigkeit und Effizienz. Der Hauptvorteil? Reduzierte Halluzinationen. dLLMs generieren und validieren kritische Teile, bevor sie fortfahren, was für Anwendungen entscheidend ist, die Genauigkeit erfordern, wie z. B. Chatbots und intelligente Agenten. Dieser Ansatz verspricht verbesserte mehrstufige Agenten-Workflows, vermeidet Schleifen und verbessert Planung, Schlussfolgerung und Selbstkorrektur.

KI

Open-Source Sprachwechselerkennungsmodell: Smart Turn

2025-03-06
Open-Source Sprachwechselerkennungsmodell: Smart Turn

Das Pipecat-Team hat Smart Turn veröffentlicht, ein Open-Source-Modell zur Erkennung von Sprachwechseln, das darauf ausgelegt ist, bestehende, auf der Sprachaktivitätserkennung (VAD) basierende Sprach-KI-Systeme zu verbessern. Es nutzt Meta AI's Wav2Vec2-BERT als Basis mit einem einfachen zweischichtigen Klassifizierungskopf. Derzeit unterstützt das Modell nur Englisch und befindet sich in einem frühen Proof-of-Concept-Stadium. Das Team ist jedoch zuversichtlich, dass die Leistung schnell verbessert werden kann. Es lädt die Community ein, zur Modellentwicklung und Erweiterung der Sprachunterstützung beizutragen.

KI

Koko: KI-basierte Non-Profit-Organisation für psychische Gesundheit sucht technischen Leiter

2025-03-06
Koko: KI-basierte Non-Profit-Organisation für psychische Gesundheit sucht technischen Leiter

Koko, eine Non-Profit-Organisation für psychische Gesundheit, gegründet von ehemaligen Ingenieuren des MIT und Airbnb, sucht einen technischen Leiter. Sie bauen skalierbare KI-Systeme, um jungen Menschen sofortige Online-Unterstützung für ihre psychische Gesundheit zu bieten, indem sie ihre Interventionen in Plattformen wie TikTok und Discord integrieren. Nachdem sie bereits über 4 Millionen junge Menschen in 199 Ländern unterstützt haben, legt Koko Wert auf datengesteuerte Produktentscheidungen, A/B-Tests und strenge Sicherheitsstandards. Dies ist eine Gelegenheit, mit KI einen bedeutenden positiven Einfluss zu erzielen.

Günstige Inferenzmodelle übertreffen Giganten: Logikrätsel mit Reinforcement Learning lösen

2025-03-06
Günstige Inferenzmodelle übertreffen Giganten: Logikrätsel mit Reinforcement Learning lösen

Forscher nutzten Reinforcement Learning, um kleinere, kostengünstigere Open-Source-Sprachmodelle zu trainieren, die DeepSeek R1, OpenAI o1 und o3-mini im „Temporal Clue“-Reasoning-Spiel übertrafen und der Leistung von Anthropic Sonnet 3.7 sehr nahe kamen, während sie bei der Inferenz über 100-mal günstiger waren. Dies gelang durch sorgfältiges Task-Design, Hyperparameter-Tuning und die Verwendung des Group Relative Policy Optimization (GRPO)-Algorithmus und der Torchtune-Bibliothek. Die Studie zeigt das Potenzial von Reinforcement Learning, Open-Source-Modelle effizient für komplexe Deduktionsaufgaben zu trainieren, selbst mit begrenzten Daten, und erzielte signifikante Leistungsverbesserungen mit nur 16 Trainingsbeispielen.

KI

AMA mit KI-Experte William J. Rapaport: Zukunft der KI und der Turing-Test

2025-03-06
AMA mit KI-Experte William J. Rapaport: Zukunft der KI und der Turing-Test

Am 27. März findet ein AMA (Ask Me Anything) mit Professor William J. Rapaport statt, einem renommierten KI-Experten der University at Buffalo mit Professuren in Informatik, Ingenieurwesen, Philosophie und Linguistik. Professor Rapaport, Autor des einflussreichen Buches "Philosophie der Informatik" und mehrerer wichtiger Artikel, darunter aktuelle Arbeiten zum Erfolg von KI und großen Sprachmodellen im Zusammenhang mit dem Turing-Test, wird Ihre Fragen beantworten. Senden Sie Ihre Fragen über dieses Formular! Dies ist eine seltene Gelegenheit, direkt mit einem führenden KI-Forscher zu diskutieren.

Mistral OCR: Eine revolutionäre OCR-API, die die Macht digitalisierter Informationen freisetzt

2025-03-06
Mistral OCR: Eine revolutionäre OCR-API, die die Macht digitalisierter Informationen freisetzt

Mistral OCR, eine neue API für die optische Zeichenerkennung (OCR), setzt einen neuen Standard für das Verständnis von Dokumenten. Im Gegensatz zu anderen versteht sie Medien, Text, Tabellen und Gleichungen mit beispielloser Genauigkeit und Kognition. Sie nimmt Bilder und PDFs als Eingabe und extrahiert den Inhalt als verflochtenen Text und Bilder. Mit modernster Leistung bei komplexen Dokumenten, mehrsprachiger Unterstützung und erstklassigen Benchmarks ist Mistral OCR das Standardmodell für Millionen von Nutzern auf Le Chat. Es bietet die Funktionalität „Dokument als Eingabeaufforderung“ und strukturierte Ausgabe (JSON), mit selektiver Selbst-Hosting-Option für sensible Daten. Die API ist auf la Plateforme verfügbar, zum Preis von 1000 Seiten pro Dollar (mit Batch-Inferenz, die einen noch besseren Wert bietet).

KI
1 2 30 31 32 34 36 37 38 51 52