Category: KI

Verstehen LLMs Nullwerte? Untersuchung der internen Repräsentationen von Code-generierenden Modellen

2025-04-07

Große Sprachmodelle (LLMs) haben bemerkenswerte Fortschritte in der Codegenerierung gezeigt, aber ihr tatsächliches Verständnis von Code bleibt eine offene Frage. Diese Arbeit untersucht das Verständnis von LLMs für Nullwerte in Code, indem sowohl eine externe Evaluierung (Code-Vervollständigung) als auch eine interne Untersuchung (Analyse der Modell-Aktivierungen) verwendet werden. Die Ergebnisse zeigen, dass LLMs Regeln über Nullwerte lernen und anwenden, wobei die Leistung je nach Komplexität der Regel und der Größe des Modells variiert. Die Studie beleuchtet auch, wie LLMs Nullwerte intern repräsentieren und wie sich dieses Verständnis während des Trainings entwickelt.

LLM-Eliminierungsspiel: Soziales Denken, Strategie und Täuschung

2025-04-07
LLM-Eliminierungsspiel: Soziales Denken, Strategie und Täuschung

Forscher haben einen Multiplayer-„Eliminierungsspiel“-Benchmark entwickelt, um große Sprachmodelle (LLMs) in Bezug auf soziales Denken, Strategie und Täuschung zu bewerten. Acht LLMs treten gegeneinander an, führen öffentliche und private Gespräche, bilden Allianzen und stimmen ab, um Gegner zu eliminieren, bis nur noch zwei übrig sind. Eine Jury aus ausgeschiedenen Spielern bestimmt dann den Gewinner. Die Analyse von Gesprächsprotokollen, Abstimmungsmustern und Ranglisten zeigt, wie LLMs geteiltes Wissen mit verborgenen Absichten in Einklang bringen, Allianzen schmieden oder diese strategisch verraten. Der Benchmark geht über einfache Dialoge hinaus und zwingt die Modelle, zwischen öffentlichen und privaten Dynamiken, strategischem Abstimmen und der Überzeugung der Jury zu navigieren. GPT-4.5 Preview war das leistungsstärkste Modell.

KI-Agent löst Minecraft-Diamanten-Herausforderung ohne menschliche Anleitung

2025-04-07
KI-Agent löst Minecraft-Diamanten-Herausforderung ohne menschliche Anleitung

Forscher von Google DeepMind haben Dreamer entwickelt, ein KI-System, das gelernt hat, in Minecraft Diamanten autonom zu sammeln, ohne vorherige menschliche Anweisungen. Dies stellt einen bedeutenden Fortschritt in der Fähigkeit der KI dar, Wissen zu verallgemeinern. Dreamer nutzt Reinforcement Learning und ein Weltmodell, um zukünftige Szenarien vorherzusagen und so die komplexe Aufgabe des Diamantensammelns effizient zu planen und auszuführen, ohne vorprogrammierte Regeln oder Demonstrationen. Die Forschung ebnet den Weg für die Entwicklung von Robotern, die im realen Umfeld lernen und sich anpassen können.

KI

Der große LLM-Hype: Benchmarks vs. Realität

2025-04-06
Der große LLM-Hype: Benchmarks vs. Realität

Ein Startup, das KI-Modelle für die Code-Sicherheitsanalyse verwendet, hat trotz steigender Benchmark-Ergebnisse seit Juni 2024 nur begrenzte praktische Verbesserungen festgestellt. Der Autor argumentiert, dass die Fortschritte bei großen Sprachmodellen sich nicht in wirtschaftlicher Nützlichkeit oder Generalisierbarkeit niederschlagen, was den öffentlichen Behauptungen widerspricht. Dies wirft Bedenken hinsichtlich der Bewertungsmethoden für KI-Modelle und einer möglichen Übertreibung der Fähigkeiten durch KI-Labore auf. Der Autor plädiert dafür, sich auf die Leistung realer Anwendungen zu konzentrieren, anstatt auf Benchmark-Ergebnisse, und betont die Notwendigkeit einer robusten Bewertung, bevor KI in sozialen Kontexten eingesetzt wird.

Foundry: Die Zuverlässigkeitskrise bei Browser-Agenten bewältigen

2025-04-06
Foundry: Die Zuverlässigkeitskrise bei Browser-Agenten bewältigen

Aktuelle Browser-Agenten führender KI-Labore scheitern bei über 80 % der realen Aufgaben. Foundry baut den ersten robusten Simulator, die RL-Trainingsumgebung und die Evaluierungsplattform, die speziell für Browser-Agenten entwickelt wurden. Durch die Erstellung perfekter Repliken von Websites wie DoorDash ermöglicht Foundry Millionen von Tests ohne die Komplexitäten der realen Welt, wodurch Fehlerpunkte identifiziert und Verbesserungen beschleunigt werden. Ihre Mission ist es, instabile Forschungsprojekte in zuverlässige Unternehmenslösungen umzuwandeln. Sie suchen außergewöhnliche Full-Stack-Ingenieure, die sich ihrem Team von ML-Experten von Scale AI anschließen, um diese enorme Marktchance im Bereich Automatisierung von über 20 Milliarden Dollar zu nutzen.

KI

QVQ-Max: Ein KI-Modell mit Sehvermögen und Intellekt

2025-04-06
QVQ-Max: Ein KI-Modell mit Sehvermögen und Intellekt

QVQ-Max ist ein neuartiges visuelles Vernunftmodell, das nicht nur Bilder und Videos „versteht“, sondern diese Informationen auch analysiert und mit ihnen argumentiert, um verschiedene Probleme zu lösen. Von mathematischen Problemen bis hin zu alltäglichen Fragen, von Programmcode bis hin zur künstlerischen Gestaltung zeigt QVQ-Max beeindruckende Fähigkeiten. Es zeichnet sich durch detaillierte Beobachtung, tiefes Denken und flexible Anwendung in verschiedenen Szenarien aus, z. B. Unterstützung bei der Arbeit, beim Lernen und im täglichen Leben. Die zukünftige Entwicklung wird sich auf die Verbesserung der Erkennungsgenauigkeit, die Verbesserung der Bearbeitung mehrstufiger Aufgaben und die Erweiterung der Interaktionsmethoden konzentrieren, um ein wirklich praktikables visuelles Agent zu werden.

Modellkontextprotokoll (MCP): Der nächste große Schritt für die LLM-Integration – aber mit einem Haken

2025-04-06
Modellkontextprotokoll (MCP): Der nächste große Schritt für die LLM-Integration – aber mit einem Haken

Das Modellkontextprotokoll (MCP) entwickelt sich zum Standard für die Integration von großen Sprachmodellen (LLMs) mit Tools und Daten und wird als „USB-C für KI-Agenten“ bezeichnet. Es ermöglicht Agenten, über standardisierte APIs eine Verbindung zu Tools herzustellen, persistente Sitzungen zu verwalten, Befehle auszuführen und Kontext über Workflows hinweg zu teilen. MCP ist jedoch standardmäßig nicht sicher. Die Verbindung von Agenten zu beliebigen Servern ohne sorgfältige Prüfung kann Sicherheitslücken schaffen und potenziell Shell-Zugriff, Geheimnisse oder Infrastruktur über Side-Channel-Angriffe preisgeben.

SeedLM: Eine neue Methode zur Komprimierung von LLM-Gewichten mithilfe von Pseudozufallszahlengeneratoren

2025-04-06
SeedLM: Eine neue Methode zur Komprimierung von LLM-Gewichten mithilfe von Pseudozufallszahlengeneratoren

Große Sprachmodelle (LLMs) sind durch hohe Laufzeitkosten behindert, was ihren breiten Einsatz einschränkt. Forscher von Meta stellen SeedLM vor, eine neue Methode zur Komprimierung nach dem Training, die Seeds eines Pseudozufallszahlengenerators verwendet, um Modellgewichte zu kodieren und zu komprimieren. Während der Inferenz verwendet SeedLM ein lineares Rückkopplungs-Shift-Register (LFSR), um effizient eine Zufallsmatrix zu generieren, die linear mit komprimierten Koeffizienten kombiniert wird, um Gewichtsblöcke zu rekonstruieren. Dies reduziert den Speicherzugriff und nutzt ungenutzte Rezyklen, wodurch speichergebundene Aufgaben beschleunigt werden, indem Rechenleistung gegen weniger Speicherzugriffe eingetauscht wird. Im Gegensatz zu den besten aktuellen Methoden, die Kalibrierungsdaten benötigen, ist SeedLM datenfrei und verallgemeinert gut über verschiedene Aufgaben hinweg. Experimente mit dem herausfordernden Llama 3 70B zeigen eine Zero-Shot-Genauigkeit bei 4- und 3-Bit-Komprimierung, die mit oder besser als die besten aktuellen Methoden ist, während die Leistung mit FP16-Basislinien vergleichbar bleibt. FPGA-Tests zeigen, dass SeedLM mit 4 Bit mit zunehmendem Modellumfang eine 4-fache Beschleunigung gegenüber einer FP16 Llama 2/3-Basislinie erreicht.

KI

TripoSG: Hochgenaue 3D-Form-Synthese mit großskaligen rektifizierten Flussmodellen

2025-04-06
TripoSG: Hochgenaue 3D-Form-Synthese mit großskaligen rektifizierten Flussmodellen

TripoSG ist ein hochmodernes Basismodell für die hochgenaue Bild-zu-3D-Generierung. Durch die Nutzung von großskaligen rektifizierten Fluss-Transformatoren, hybridem überwachten Training und einem hochwertigen Datensatz erzielt es State-of-the-Art-Ergebnisse. TripoSG generiert Netze mit scharfen Merkmalen, feinen Details und komplexen Strukturen und spiegelt die Semantik des Eingabebildes präzise wider. Es verfügt über starke Generalisierungsfähigkeiten und verarbeitet verschiedene Eingabestile. Ein Modell mit 1,5 Milliarden Parametern sowie Inferenzcode und eine interaktive Demo sind jetzt verfügbar.

Modellsignatur: Sicherung der Integrität von ML-Modellen

2025-04-05
Modellsignatur: Sicherung der Integrität von ML-Modellen

Mit dem explosionsartigen Wachstum von Machine-Learning-Anwendungen ist die Modell-Sicherheit zu einem kritischen Anliegen geworden. Dieses Projekt zielt darauf ab, die Integrität und Herkunft von Machine-Learning-Modellen durch Modellsignatur zu sichern. Es nutzt Tools wie Sigstore, um Modellsignaturen zu generieren, und bietet CLI- und API-Schnittstellen, die verschiedene Signaturmethoden unterstützen (einschließlich Sigstore, öffentlicher Schlüssel und Zertifikate). Benutzer können die Integrität ihrer Modelle unabhängig überprüfen und so Manipulationen nach dem Training verhindern. Das Projekt integriert sich auch in SLSA (Supply chain Levels for Software Artifacts), um die Sicherheit der Machine-Learning-Modell-Supply-Chain weiter zu verbessern.

Metas Llama 4: Leistungsstarke multimodale KI-Modelle

2025-04-05
Metas Llama 4: Leistungsstarke multimodale KI-Modelle

Meta hat seine Llama 4 Familie von KI-Modellen vorgestellt, darunter Llama 4 Scout und Llama 4 Maverick, um den unterschiedlichen Bedürfnissen von Entwicklern gerecht zu werden. Llama 4 Scout, ein führendes multimodales Modell, verfügt über 17 Milliarden aktive Parameter und 109 Milliarden Parameter insgesamt und liefert State-of-the-art-Leistung. Llama 4 Maverick mit 17 Milliarden aktiven Parametern und 400 Milliarden Parametern insgesamt übertrifft Llama 3.3 70B zu geringeren Kosten und zeichnet sich durch exzellente Bild- und Textverständniss in 12 Sprachen aus. Ideal für allgemeine Assistenten und Chatanwendungen, ist es für hochwertige Antworten und einen nuancierten Ton optimiert.

Google veröffentlicht stabile Modell-Signatur-Bibliothek zur Sicherung der KI-Lieferkette

2025-04-05
Google veröffentlicht stabile Modell-Signatur-Bibliothek zur Sicherung der KI-Lieferkette

Der Aufstieg großer Sprachmodelle (LLMs) hat die Bedeutung der Sicherheit der KI-Lieferkette hervorgehoben. Modellmanipulation, Datenvergiftung und andere Bedrohungen sind wachsende Probleme. Um dem entgegenzuwirken, hat Google in Zusammenarbeit mit NVIDIA und HiddenLayer und unterstützt von der Open Source Security Foundation die erste stabile Version seiner Modell-Signatur-Bibliothek veröffentlicht. Diese Bibliothek verwendet digitale Signaturen, wie sie von Sigstore verwendet werden, um Benutzern die Überprüfung zu ermöglichen, ob das von einer Anwendung verwendete Modell identisch mit dem vom Entwickler erstellten Modell ist. Dies gewährleistet die Integrität und Herkunft des Modells und schützt es vor böswilliger Manipulation während seines gesamten Lebenszyklus, vom Training bis zum Einsatz. Zukünftige Pläne umfassen die Erweiterung dieser Technologie auf Datensätze und andere ML-Artefakte, um ein robusteres KI-Vertrauensökosystem aufzubauen.

KI im Gesundheitswesen: Der Rechenleistungs-Engpass

2025-04-05
KI im Gesundheitswesen: Der Rechenleistungs-Engpass

Ein Forscher hebt die Ungenauigkeit der derzeit für die Krebsrisikoprognose verwendeten klinischen Instrumente hervor. KI hat das Potenzial, massive Patientendaten für personalisierte Versorgung zu nutzen, was eine frühere Krebsfrüherkennung, verbesserte Diagnostik und optimierte Behandlungsprotokolle ermöglicht. Das enorme Volumen an Gesundheitsdaten überfordert jedoch traditionelle Computerchips, wodurch die Rechenleistung zum Engpass für die volle Entfaltung des KI-Potenzials im Gesundheitswesen wird. Während Forscher Algorithmen optimieren, nähert sich die siliziumbasierte Chiptechnologie ihren Leistungsgrenzen, sodass ein neuer Ansatz für die Chiptechnologie erforderlich ist, damit KI ihr volles Potenzial ausschöpfen kann.

LeCun: Große Sprachmodelle werden in fünf Jahren überholt sein

2025-04-05
LeCun: Große Sprachmodelle werden in fünf Jahren überholt sein

Yann LeCun, Metas Chef-KI-Wissenschaftler, prognostiziert, dass große Sprachmodelle (LLMs) innerhalb von fünf Jahren weitgehend obsolet sein werden. Er argumentiert, dass aktuelle LLMs ein mangelndes Verständnis der physischen Welt aufweisen und als spezialisierte Werkzeuge in einem einfachen, diskreten Raum (Sprache) funktionieren. LeCun und sein Team entwickeln einen alternativen Ansatz namens JEPA, der darauf abzielt, Repräsentationen der physischen Welt aus visuellen Eingaben zu erstellen und so echte Fähigkeiten zum Schließen und Planen zu ermöglichen, die LLMs übertreffen. Er sieht vor, dass KI die Gesellschaft verändern wird, indem sie die menschliche Intelligenz erweitert und nicht ersetzt, und widerlegt Behauptungen, dass KI ein existenzielles Risiko darstellt.

KI

Revolutionäres OCR-System: Förderung von KI-Bildungsdatensätzen

2025-04-05
Revolutionäres OCR-System:  Förderung von KI-Bildungsdatensätzen

Ein bahnbrechendes, für maschinelles Lernen optimiertes OCR-System extrahiert strukturierte Daten aus komplexen Bildungsmaterialien wie Prüfungsarbeiten. Es unterstützt mehrsprachige Texte, mathematische Formeln, Tabellen, Diagramme und Grafiken und ist ideal für die Erstellung hochwertiger Trainingsdatensätze. Das System annotiert die extrahierten Elemente semantisch und generiert automatisch Beschreibungen in natürlicher Sprache, z. B. beschreibende Texte für Diagramme. Es unterstützt Japanisch, Koreanisch und Englisch und lässt sich einfach für weitere Sprachen anpassen. Die Ausgabe erfolgt in KI-fähigen JSON- oder Markdown-Formaten, einschließlich menschenlesbarer Beschreibungen mathematischer Ausdrücke, Tabellenübersichten und Bildunterschriften. Es erreicht über 90-95 % Genauigkeit bei realen akademischen Datensätzen und verarbeitet komplexe Layouts mit dichtem wissenschaftlichen Inhalt und umfangreichen visuellen Elementen.

KI

OpenAIs o3-Modell erzielt Durchbruch beim ARC-AGI-Test, aber die Definition von AGI bleibt umstritten

2025-04-04
OpenAIs o3-Modell erzielt Durchbruch beim ARC-AGI-Test, aber die Definition von AGI bleibt umstritten

Das neueste Modell von OpenAI, o3, erzielte beim ARC-AGI-Test von François Chollet eine beeindruckende Punktzahl von 87 % und erreichte damit erstmals die menschliche Leistungsfähigkeit. Dies löste eine hitzige Debatte darüber aus, ob AGI (Artificial General Intelligence) erreicht wurde. Chollet veröffentlichte jedoch schnell den schwierigeren ARC-AGI-2-Test, bei dem die Punktzahl von o3 stark sank und die Definition und Metriken der Branche für AGI erneut in Frage stellte. Dieser Artikel untersucht die unterschiedlichen Standpunkte und die komplexe Beziehung zwischen der Definition von AGI und den kommerziellen Interessen, was zu einer tiefgreifenden Reflexion über die Natur der allgemeinen künstlichen Intelligenz führt.

KI

LLMs knacken einen byzantinischen Musiknotationscode

2025-04-04

Forscher haben entdeckt, dass große Sprachmodelle wie Claude und GPT-4 einen besonderen Code knacken können, der auf dem Unicode-Block der byzantinischen Musiknotation basiert. Dieser Code ähnelt einer Caesar-Chiffre, hat aber einen Offset von 118784. Die Modelle können diesen Code direkt ohne Chain-of-Thought entschlüsseln und erreichen dabei sogar höhere Erfolgsraten als bei regulären Caesar-Chiffren. Die Forscher vermuten, dass dies auf einen linearen Zusammenhang zwischen der Addition in einem bestimmten Unicode-Bereich und der Addition im Token-Raum zurückzuführen ist, der es den Modellen ermöglicht, eine Shift-Chiffre basierend auf dieser Beziehung zu lernen. Dieses Phänomen deutet auf noch unverstandene Mechanismen innerhalb von LLMs hin.

KI

Google präsentiert Sec-Gemini v1: Eine neue Ära der KI-gestützten Cybersicherheit

2025-04-04
Google präsentiert Sec-Gemini v1: Eine neue Ära der KI-gestützten Cybersicherheit

Google hat Sec-Gemini v1 angekündigt, ein experimentelles KI-Modell, das darauf abzielt, die Grenzen der KI in der Cybersicherheit zu erweitern. Durch die Kombination der fortschrittlichen Fähigkeiten von Gemini mit nahezu Echtzeit-Cybersicherheitswissen und -Tools zeichnet sich Sec-Gemini v1 in wichtigen Arbeitsabläufen wie der Analyse der Wurzelursache von Vorfällen, der Bedrohungsanalyse und dem Verständnis der Auswirkungen von Schwachstellen aus. Es übertrifft andere Modelle bei wichtigen Benchmarks und zeigt eine Verbesserung von mindestens 11 % bei CTI-MCQ und mindestens 10,5 % bei CTI-Root Cause Mapping. Google stellt Sec-Gemini v1 ausgewählten Organisationen, Institutionen, Fachleuten und NGOs für Forschungszwecke kostenlos zur Verfügung, um die Zusammenarbeit und den Fortschritt von KI in der Cybersicherheit zu fördern.

KI

DeepMind: Blaupause für die sichere Entwicklung von AGI – Bewältigung der Risiken von 2030

2025-04-04
DeepMind: Blaupause für die sichere Entwicklung von AGI – Bewältigung der Risiken von 2030

Inmitten des AI-Hypes verlagert sich der Fokus auf Künstliche Allgemeine Intelligenz (AGI). Ein neues 108-seitiges Papier von DeepMind befasst sich mit der entscheidenden Frage der sicheren AGI-Entwicklung und prognostiziert eine mögliche Ankunft bis 2030. Das Papier beschreibt vier Hauptkategorien von Risiken: Missbrauch, Missalignment, Fehler und strukturelle Risiken. Zur Risikominderung schlägt DeepMind rigorose Tests, robuste Sicherheitsprotokolle nach dem Training und sogar die Möglichkeit des „Verlernens“ gefährlicher Fähigkeiten vor – eine erhebliche Herausforderung. Dieser proaktive Ansatz zielt darauf ab, schwere Schäden durch eine menschenähnliche KI zu verhindern.

KI

Die komplexe Sprache der Bonobos: Mehr als die Summe ihrer Teile

2025-04-03
Die komplexe Sprache der Bonobos: Mehr als die Summe ihrer Teile

Schweizer Wissenschaftler haben entdeckt, dass Bonobos einfache Lautäußerungen zu komplexen semantischen Strukturen kombinieren können. Das bedeutet, dass ihre Kommunikation mehr als nur die Summe einzelner Rufe ist; sie zeigt eine nicht-triviale Kompositionalität – ein Merkmal, das einst als einzigartig menschlich galt. Die Forscher haben eine massive Datenbank von Bonobo-Rufen erstellt und die distributional semantics verwendet, um deren Bedeutung zu entschlüsseln. Dies bietet einen wertvollen Einblick in die Kommunikation von Bonobos in freier Wildbahn. Die Forschung war mühsam und erforderte von den Forschern, früh aufzustehen, zu den Bonobo-Nestern zu wandern und den ganzen Tag über Rufe und Kontextinformationen aufzuzeichnen.

KI-Bildgenerierung: Ghibli-ähnliche Nachahmung wirft Urheberrechtsfragen auf

2025-04-03
KI-Bildgenerierung: Ghibli-ähnliche Nachahmung wirft Urheberrechtsfragen auf

Ein aktuelles Update der GPT-Bildgenerierung ermöglicht es Nutzern, jedes Bild in einen Ghibli-ähnlichen Stil zu verwandeln. Dies zeigt die beeindruckende Fähigkeit der KI, Stile nachzuahmen, wirft aber auch erhebliche Urheberrechtsfragen auf. Der Autor führt ein Experiment durch und zeigt, wie einfach GPT Bilder erzeugt, die bekannten IP-Charakteren verblüffend ähnlich sind, selbst ohne die IP explizit zu nennen. Dies ist sowohl beeindruckend als auch alarmierend und unterstreicht das Potenzial der KI, den Diebstahl geistigen Eigentums zu erleichtern. Obwohl Gesetze die Nachahmung visueller Stile erlauben, überschreitet die Präzision der Nachahmung die Grenzen des Urheberrechts, was zu Überlegungen über das Verhältnis zwischen KI-Entwicklung und Urheberrechtsschutz führt.

KI

KI 2027: Ein Wettlauf zur Superintelligenz und die damit verbundenen Risiken

2025-04-03
KI 2027: Ein Wettlauf zur Superintelligenz und die damit verbundenen Risiken

Dieser Bericht prognostiziert, dass die Auswirkungen von übermenschlicher KI im nächsten Jahrzehnt enorm sein werden und die der industriellen Revolution übertreffen werden. OpenAI und andere Institutionen haben zwei mögliche Zukünfte modelliert: ein Szenario der Verlangsamung und ein Wettrennen. Der Bericht beschreibt detailliert den rasanten Fortschritt von KI-Systemen, von ungeschickten Agenten Anfang 2025 bis hin zu Superintelligenzen im Jahr 2027, die in der Lage sind, Menschen in der Codierung und Forschung zu übertreffen. Dieser schnelle Fortschritt birgt jedoch auch immense Risiken, darunter die Sicherheit der Modelle und ein KI-Wettrüsten mit China. Der Bericht hebt die tiefgreifenden Auswirkungen von KI auf den Arbeitsmarkt und die Geopolitik hervor und untersucht mögliche Strategien zur Risikominderung.

Onyx: Open-Source GenAI-Plattform sichert sich 10 Millionen Dollar in Seed-Finanzierung

2025-04-03
Onyx: Open-Source GenAI-Plattform sichert sich 10 Millionen Dollar in Seed-Finanzierung

Onyx ist eine Open-Source-Plattform für generative KI, die die Dokumente, Anwendungen und Mitarbeiter Ihres Unternehmens verbindet. Sie erfasst und synchronisiert Informationen aus verschiedenen Quellen (Google Drive, Slack, GitHub, Confluence, Salesforce usw.), um einen zentralen Hub für Fragen zu schaffen. Stellen Sie sich Ihre erfahrensten Kollegen vor, alle an einem Ort, rund um die Uhr verfügbar! Onyx glaubt, dass jedes moderne Team innerhalb der nächsten 5 Jahre KI mit Wissensverbesserung einsetzen wird, und hat sich zum Ziel gesetzt, diese Technologie allen Teams weltweit zugänglich zu machen. Sie haben gerade eine Seed-Finanzierung von 10 Millionen Dollar abgeschlossen, angeführt von Khosla Ventures und First Round Capital, mit Kunden wie Netflix, Ramp und Applied Intuition sowie Open-Source-Nutzern wie Roku, Zendesk und L3Harris.

MIT-Professorin entschlüsselt die Mechanismen der Sprachverarbeitung im Gehirn

2025-04-03
MIT-Professorin entschlüsselt die Mechanismen der Sprachverarbeitung im Gehirn

Vom Erlernen mehrerer Sprachen in der ehemaligen Sowjetunion bis hin zu ihrer Position als Associate Professorin für Gehirn- und Kognitionswissenschaften am MIT widmet Dr. Evelina Fedorenko ihre Forschung dem Verständnis der Sprachverarbeitungsregionen im Gehirn. Ihre Arbeit nutzt die funktionelle Magnetresonanztomographie (fMRT), um diese Regionen präzise zu lokalisieren und ihre hohe Selektivität für Sprache und die fehlende Überlappung mit anderen kognitiven Funktionen wie Musikverarbeitung oder Code-Lesen aufzuzeigen. Darüber hinaus untersucht sie zeitliche Unterschiede in der Verarbeitung zwischen verschiedenen Hirnregionen, die Entwicklung der Sprachverarbeitungsregionen bei Kleinkindern und nutzt große Sprachmodelle, um die Plastizität und Redundanz der sprachlichen Fähigkeiten des Gehirns zu untersuchen.

Der blinde Fleck der KI: Spiegel in der Bild- und Videogenerierung

2025-04-03
Der blinde Fleck der KI: Spiegel in der Bild- und Videogenerierung

Die jüngsten Fortschritte in der KI-basierten Bild- und Videogenerierung haben beeindruckende, fotorealistische Ergebnisse geliefert, doch eine erhebliche Hürde bleibt bestehen: die genaue Wiedergabe von Spiegelungen. Forscher testeten mehrere führende Modelle und stellten dabei konsistente Probleme bei der Erzeugung korrekter Spiegelungen fest. Die Modelle produzierten häufig verzerrte, inkonsistente oder völlig ungenaue Bilder. Beispielsweise scheiterte Gemini bei der Spiegelung von Katzen und Stühlen, während Ideogram mit menschlichen Spiegelungen in Gruppenfotos zu kämpfen hatte. Dies unterstreicht eine wichtige Einschränkung: Obwohl die KI-Bildgenerierung schnell voranschreitet, bleibt das Erreichen physikalischer Genauigkeit – wie realistische Spiegelungen – eine große Herausforderung.

KI

Anthropic bringt Claude for Education heraus und nimmt ChatGPT in Angriff

2025-04-03
Anthropic bringt Claude for Education heraus und nimmt ChatGPT in Angriff

Anthropic hat Claude for Education auf den Markt gebracht, einen neuen KI-Chatbot-Dienst für die Hochschulbildung, der direkt mit OpenAIs ChatGPT Edu konkurriert. Dieses Level bietet Studenten und Dozenten Zugriff auf Claude, mit einem neuen „Lernmodus“, um kritisches Denken zu fördern. Es umfasst Sicherheit und Datenschutz auf Unternehmensebene und hat bereits Vereinbarungen mit Universitäten wie Northeastern und der London School of Economics getroffen. Anthropic zielt darauf ab, durch dieses Angebot die Einnahmen zu steigern und die Akzeptanz bei Studenten zu erhöhen.

Apple veröffentlicht CA-1M-Datensatz und Cubify Transformer-Modell für die 3D-Objekterkennung in Innenräumen

2025-04-02
Apple veröffentlicht CA-1M-Datensatz und Cubify Transformer-Modell für die 3D-Objekterkennung in Innenräumen

Apple hat CA-1M veröffentlicht, einen umfangreichen Datensatz für die 3D-Objekterkennung in Innenräumen, zusammen mit dem Cubify Transformer (CuTR)-Modell. CA-1M enthält umfassend annotierte 3D-Bounding-Boxen und Posen. Es werden zwei Varianten des CuTR-Modells bereitgestellt: eine mit RGB-D-Bildern und eine andere nur mit RGB-Bildern. Der Datensatz unterstützt die Echtzeit-Erkennung mit der NeRF Capture-App und enthält umfassende Anweisungen und Codebeispiele. Forscher können diesen Datensatz und dieses Modell nutzen, um die Forschung zur 3D-Objekterkennung in Innenräumen voranzutreiben.

KI-Agenten: Identität als entscheidendes Kriterium

2025-04-02
KI-Agenten: Identität als entscheidendes Kriterium

Dieser Artikel befasst sich mit der oft verwirrenden Definition von KI-Agenten. Der Autor argumentiert, dass der entscheidende Unterschied zwischen KI-Agenten und KI-Assistenten in der „Identität“ liegt. Wahre KI-Agenten führen Aktionen unter ihrer eigenen Identität aus, die in Audit-Logs widergespiegelt wird; KI-Assistenten arbeiten unter der Identität eines menschlichen Benutzers. Diese identitätsbasierte Definition impliziert Autonomie, Fähigkeiten und logisches Denken. Der Autor zieht eine Parallele zur juristischen Vertretung und verwendet das Produkt seines eigenen Unternehmens als Beispiel, um die praktische Anwendung dieser Definition zu veranschaulichen.

KI

Echtzeit-Introspektive Kompression: Transformers ein Gewissen geben

2025-04-02
Echtzeit-Introspektive Kompression: Transformers ein Gewissen geben

Große Sprachmodelle (LLMs) leiden unter zwei Hauptbeschränkungen: Mangelnde Introspektion und flüchtiges Denken. Dieser Artikel schlägt eine neuartige Echtzeit-introspektive Kompressionsmethode vor, die beide Probleme angeht. Ein leichtgewichtiges „Nebenläufer“-Modell wird trainiert, um die internen Zustände eines Transformators zu komprimieren, wodurch effizienter Zugriff und Wiedergabe des internen Modellverhaltens ermöglicht werden. Die Methode komprimiert die Transformatorzustände in einen niedrigdimensionalen latenten Raum, ähnlich dem Speichern eines Spielstands, und umgeht so das rechnerische Problem der Speicherung des vollständigen Zustands. Dies ermöglicht neue Fähigkeiten wie das Zurückverfolgen des Denkens, Reinforcement Learning über Denktrajektorien und speichereffizientes Checkpointing, was letztendlich zu leistungsfähigeren und interpretierbareren KI-Systemen führt.

Ace: Übermenschlich schneller Computer-Autopilot

2025-04-02
Ace: Übermenschlich schneller Computer-Autopilot

Ace ist ein Computer-Autopilot, der Maus und Tastatur verwendet, um Aufgaben auf Ihrem Desktop auszuführen. Er übertrifft andere Modelle bei einer Reihe von Computeraufgaben und verfügt über übermenschliche Geschwindigkeit. Trainiert mit über einer Million Aufgaben von Software-Spezialisten und Fachexperten, führt Ace Maus-Klicks und Tastenanschläge basierend auf Bildschirm und Eingabeaufforderung aus. Obwohl er sich noch in der Entwicklung befindet und gelegentlich Fehler macht, verbessert sich seine Genauigkeit mit zunehmenden Trainingsressourcen deutlich. Eine frühe Forschungsvorschau ist jetzt verfügbar.

KI
1 2 3 5 7 8 9 28 29