Webtagr - Technologienummer

Kreuzentropie: Ein tiefer Einblick in die Verlustfunktion für die Klassifizierung

2025-04-13

Dieser Beitrag liefert eine klare Erklärung der Rolle der Kreuzentropie als Verlustfunktion in Machine-Learning-Klassifizierungsaufgaben. Ausgehend von informationstheoretischen Konzepten wie Informationsgehalt und Entropie wird die Kreuzentropie aufgebaut und mit der KL-Divergenz verglichen. Der Artikel schließt mit einer Demonstration der Beziehung zwischen Kreuzentropie und Maximum-Likelihood-Schätzung anhand numerischer Beispiele, wodurch ihre Anwendung im Machine Learning verdeutlicht wird.

(eli.thegreenplace.net)

KI Kreuzentropie Verlustfunktion

OmniSVG: Ein einheitliches, skalierbares Modell zur Generierung von Vektorgrafiken

2025-04-13

OmniSVG ist die erste Familie von End-to-End-Multimodalen SVG-Generatoren, die vorab trainierte Vision-Language-Modelle (VLMs) nutzt. Es kann komplexe und detaillierte SVGs generieren, von einfachen Icons bis hin zu komplexen Anime-Charakteren. Das Projekt hat bereits die Datensätze MMSVG-Icon und MMSVG-Illustration sowie den wissenschaftlichen Artikel veröffentlicht. Zukünftige Pläne umfassen die Veröffentlichung des Codes und der vortrainierten Modelle, des MMSVG-Character-Datensatzes und einer Projektseite mit einem technischen Bericht.

(github.com)

KI SVG-Generierung Vision-Language-Modelle

Das Urheberrechtsrätsel beim KI-Training: Lernrechte vs. Arbeitnehmerrechte

2025-04-12

Dieser Artikel befasst sich mit den urheberrechtlichen Implikationen des KI-Trainings. Einige argumentieren, dass das Trainieren von KI mit urheberrechtlich geschützten Werken eine Lizenzierung erfordert, wodurch ein „Lernrecht“ entsteht. Der Autor widerlegt dies und behauptet, dass KI-Training Daten analysiert, nicht kopiert. Das Kernproblem ist die Ausbeutung der Arbeit von Künstlern durch KI, nicht die Urheberrechtsverletzung. Der Autor plädiert für Arbeitnehmerrechte, nicht für eine Erweiterung des Urheberrechts, da letzteres großen Unternehmen zu Lasten unabhängiger Künstler zugutekommt.

(blog.giovanh.com)

KI Lernrechte

Das triumphale Comeback von Google DeepMind: Gemini 2.5 dominiert die KI

2025-04-12

Nachdem Google DeepMind zunächst von OpenAI übertroffen wurde, meldet es sich mit Gemini 2.5 eindrucksvoll zurück. Gemini 2.5 übertrifft die Konkurrenz in allen wichtigen KI-Benchmarks. Es bietet überlegene Leistung, niedrige Kosten, ein riesiges Kontextfenster und nahtlose Integration in das Google-Ökosystem. Googles Dominanz erstreckt sich über Text hinaus und zeigt Exzellenz in der Generierung von Bildern, Videos, Musik und Sprache, wodurch die Konkurrenz in den Schatten gestellt wird. Der Artikel hebt die zahlreichen Vorteile von Gemini 2.5 und die allgemeine Führungsrolle von Google DeepMind im KI-Bereich hervor.

(www.thealgorithmicbridge.com)

KI

Ehemalige OpenAI-Mitarbeiter lehnen die Umwandlung in ein gewinnorientiertes Unternehmen ab: Ein Kampf um Mission und Profit

2025-04-12

Eine Gruppe ehemaliger OpenAI-Mitarbeiter reichte eine Amicus-Brief ein, um Elon Musks Klage gegen OpenAI zu unterstützen und sich gegen die geplante Umwandlung von einer Non-Profit-Organisation in ein gewinnorientiertes Unternehmen zu wehren. Sie argumentieren, dass dies gegen OpenAIs ursprüngliche Mission verstößt, die darauf abzielt, sicherzustellen, dass die KI der gesamten Menschheit zugutekommt. Mehrere ehemalige Mitarbeiter kritisierten öffentlich OpenAIs mangelnde Transparenz und Rechenschaftspflicht und warnten vor einem rücksichtslosen Rennen um die KI-Dominanz. OpenAI antwortete, dass sein Non-Profit-Arm bestehen bleibt, aber in eine Public Benefit Corporation (PBC) umgewandelt wird. Der Rechtsstreit konzentriert sich auf die Struktur von OpenAI und ihre Auswirkungen auf die KI-Entwicklung und hebt das komplexe Zusammenspiel zwischen Kommerzialisierung und sozialer Verantwortung im Bereich der KI hervor.

(techcrunch.com)

KI Kommerzialisierung von KI

Die Grenzen des maximalen Einsatzes in der KI-Entwicklung

2025-04-11

Der Autor verwendet Kindheitserinnerungen an das Aufstauen eines Baches, um die Grenzen des maximalen Einsatzes in der KI-Entwicklung zu veranschaulichen. Anfangs baute er mühsam kleine Dämme, um später die Effizienz einer Schaufel zu entdecken. Dieser Sieg verringerte jedoch den explorativen Aspekt des Spiels. Ebenso ändern sich im Beruf und im Leben, sobald ein Ziel erreicht ist (z.B. ein gut bezahlter Job), die Spielregeln. Der Autor argumentiert, dass die KI-Entwicklung diese Lektion berücksichtigen sollte, indem sie sich nicht nur auf die Schaffung einer leistungsstarken KI konzentriert, sondern auch auf potenzielle Risiken und unerforschte Bereiche. Ähnlich wie die Beobachtung der Zähigkeit kleiner Muscheln in einer Gezeitenpfütze ist die Aufmerksamkeit für Details und Nuancen entscheidend. Der aktuelle Bericht von Anthropic über Bildungsanwendungen scheint dies zu bestätigen.

(www.hgreer.com)

KI Zielorientiert

Ausbalancier Autonomie und Zuverlässigkeit bei LLM-basierten Kundensupport-Agenten

2025-04-11

Große Sprachmodelle (LLMs) sind zwar immer leistungsfähiger bei Aufgaben mit hoher Eigenständigkeit, aber ihr Einsatz in hochwertigen Anwendungsfällen wie dem Kundensupport erfordert die Priorisierung von Zuverlässigkeit und Konsistenz. Die Forschung zeigt, dass hochautonome Agenten zwar in idealen Umgebungen hervorragend abschneiden, der reale Kundensupport jedoch Herausforderungen mit sich bringt: Wissenslücken, unvorhersehbares Benutzerverhalten und zeitliche Einschränkungen. Um dies zu beheben, wurde eine neue Metrik, pass^k, entwickelt und mithilfe simulierter Kundeninteraktionen getestet. Die Ergebnisse zeigen, dass hochautonome Agenten bei komplexen Aufgaben unter Zuverlässigkeitsproblemen leiden. Die Lösung? Der „Give Fin a Task“-Agent, der die Zuverlässigkeit verbessert, indem er die Autonomie des Agenten einschränkt und schrittweise Anweisungen verwendet, wobei komplexe Aufgaben in einfachere Module zerlegt werden. Dieser Ansatz bietet einen vielversprechenden Weg, die Leistung von LLMs in realen Kundensupport-Szenarien zu verbessern.

(fin.ai)

KI

Bonobo-Syntax stellt die Einzigartigkeit der menschlichen Sprache in Frage

2025-04-11

Eine neue Studie zeigt, dass Bonobos Rufe auf komplexe Weise kombinieren, um unterschiedliche Phrasen zu bilden, was darauf hindeutet, dass diese Art von Syntax evolutionär älter ist als bisher angenommen. Die Forscher beobachteten und analysierten die Lautäußerungen von Bonobos und verwendeten semantische Methoden, um eine nicht-triviale Kompositionalität in den Kombinationen von Bonobo-Rufen zu entdecken. Das bedeutet, dass die Bedeutung der Kombination von den Bedeutungen ihrer einzelnen Teile abweicht. Diese Entdeckung stellt die Einzigartigkeit der menschlichen Sprache in Frage und legt nahe, dass die komplexe Syntax der menschlichen Sprache von älteren Vorfahren stammen könnte.

(www.newscientist.com)

KI

KI-Avatare: Die nächste Grenze bei KI-generierten Inhalten

2025-04-11

KI beherrscht bereits die Generierung realistischer Fotos, Videos und Stimmen. Der nächste Schritt? KI-Avatare – die Kombination von Gesichtern und Stimmen, um sprechende Charaktere zu erschaffen. Dies ist nicht nur Bildgenerierung und Sprachausgabe; es erfordert, dass die KI die komplexe Koordination von Lippensynchronisation, Gesichtsausdrücken und Körpersprache lernt. Dieser Artikel untersucht die Entwicklung der KI-Avatar-Technologie, von frühen Modellen, die auf einzelnen Fotos basieren, bis hin zu hochentwickelten Modellen, die Ganzkörperbewegungen und dynamische Hintergründe generieren. Er analysiert auch die Anwendungen von KI-Avataren in der Content-Erstellung, Werbung und Unternehmenskommunikation und diskutiert zukünftige Richtungen wie natürlichere Ausdrücke, Körperbewegungen und Interaktionen mit der realen Welt.

(a16z.com)

KI KI-Avatare KI-Technologie Inhaltserstellung

Das Paradox des Aufwands in der KI-Entwicklung

2025-04-11

Anhand der kindlichen Analogie des Aufstauens eines Baches untersucht der Autor die Spannung zwischen maximalem Einsatz und klugen Entscheidungen in der KI-Entwicklung. Anfangs versuchte der Autor wie ein Kind, Dämme mit kleinen Steinen und Blättern zu bauen, um schließlich eine effizientere Methode mit einer Schaufel zu entdecken. Diese Erkenntnis unterstreicht, wie der 'Sieg' manchmal eine Verkleinerung des Spielraums bedeuten kann. Ebenso suchte der Autor unerbittlich nach einer Stelle in einer Investmentbank, um nach dem Erfolg festzustellen, dass das Spiel „so viel Geld wie möglich verdienen“ nicht mehr verfügbar war. Er argumentiert, dass bei überwältigenden Kräften (Natur, Markt) ein maximaler Einsatz kontraproduktiv sein kann. Der jüngste Bericht von Anthropic über Bildungsanwendungen deutet jedoch auf ein wachsendes Bewusstsein für potenzielle Risiken hin, vergleichbar mit der Beobachtung von kämpfenden Muscheln an einem Strand.

(www.lesswrong.com)

KI

Parity: KI-basiertes SRE beendet den Bereitschaftsdienst-Alptraum

2025-04-10

Müde von 2 Uhr morgens Pager-Duty und endlosen Alerts? Parity nutzt KI, um die Untersuchung, die Ursachenanalyse und die Behebung von Infrastrukturproblemen zu automatisieren und den Bereitschaftsdienst der Vergangenheit angehören zu lassen. Das Produkt erfreut sich bei Early Adoptern großer Beliebtheit und hat das Potenzial, eine neue Kategorie zu definieren. Parity wird von erstklassigen Investoren wie Y Combinator, General Catalyst und Sugar Free Capital sowie von Angel-Investoren von führenden Startups wie Midjourney und Crusoe unterstützt.

(www.ycombinator.com)

KI

ByzFL: Vertrauenswürdige KI bauen, ohne Datenquellen zu vertrauen

2025-04-10

Heutige KI-Modelle basieren auf massiven, zentralisierten Datensätzen, was Sicherheits- und Datenschutzbedenken aufwirft. Forscher der EPFL haben ByzFL entwickelt, eine Bibliothek, die Federated Learning verwendet, um KI-Modelle auf dezentralisierten Geräten zu trainieren, ohne Daten zu zentralisieren. ByzFL erkennt und mindert bösartige Daten und gewährleistet Robustheit und Sicherheit, besonders wichtig für kritische Anwendungen wie Gesundheitswesen und Transport. Es bietet eine innovative Lösung zum Aufbau vertrauenswürdiger KI-Systeme.

(actu.epfl.ch)

KI

Apples KI-Durchbruch: Feinsteuerung generativer Modelle mit Activation Transport (AcT)

2025-04-10

Apple-Forscher im Bereich maschinelles Lernen haben Activation Transport (AcT) entwickelt, eine neue Technik zur präzisen Steuerung großer generativer Modelle, einschließlich LLMs und Text-zu-Bild-Diffusionsmodelle, ohne den ressourcenintensiven Trainingsprozess von RLHF oder Feinanpassung. AcT steuert Modell-Aktivierungen mithilfe der optimalen Transporttheorie und ermöglicht eine modalitätsagnostische Steuerung mit minimalem Rechenaufwand. Experimente zeigen signifikante Verbesserungen bei der Toxizitätsminderung, der Induktion von Wahrheitsgehalt in LLMs und der Steuerung des Stils in der Bilderzeugung. AcT ebnet den Weg für sicherere und zuverlässigere generative Modelle.

(machinelearning.apple.com)

KI Modellsteuerung

Ungleichmäßige Entwicklung des Ökosystems für verantwortungsvolle KI: Eine wachsende Lücke

2025-04-10

KI-bedingte Vorfälle nehmen stark zu, doch standardisierte Bewertungen verantwortungsvoller KI (Responsible AI, RAI) bleiben bei großen Entwicklern industrieller Modelle selten. Neue Benchmarks wie HELM Safety, AIR-Bench und FACTS bieten vielversprechende Werkzeuge zur Bewertung von Fakten und Sicherheit. Zwischen der Anerkennung von RAI-Risiken durch Unternehmen und dem Ergreifen sinnvoller Maßnahmen besteht eine erhebliche Lücke. Regierungen hingegen zeigen eine zunehmende Dringlichkeit: 2024 intensivierte sich die globale Zusammenarbeit bei der KI-Governance, was zu Rahmenwerken der OECD, der EU, der UN und der Afrikanischen Union führte, die Transparenz, Vertrauenswürdigkeit und andere zentrale Prinzipien verantwortungsvoller KI betonen.

(hai.stanford.edu)

KI KI-Governance

Asimovs KI-Vorhersagen von 1982: Kooperation, kein Wettbewerb

2025-04-10

Dieser Artikel befasst sich mit einem Interview aus dem Jahr 1982 mit dem Science-Fiction-Autor Isaac Asimov, in dem er Künstliche Intelligenz als jedes Gerät definierte, das Aufgaben ausführt, die zuvor ausschließlich mit menschlicher Intelligenz in Verbindung gebracht wurden. Asimov sah KI und menschliche Intelligenz als komplementär, nicht als konkurrierend an und argumentierte, dass ihre Zusammenarbeit zu schnellerem Fortschritt führen würde. Er prognostizierte, dass KI die Menschheit von Arbeiten befreien würde, die kein kreatives Denken erfordern, warnte aber auch vor möglichen Schwierigkeiten und Herausforderungen des technologischen Fortschritts und verwies auf das Aufkommen des Automobils als Beispiel. Er betonte die Notwendigkeit, sich auf das KI-Zeitalter vorzubereiten und vergangene Fehler zu vermeiden.

(www.openculture.com)

KI Zukunft der Technologie

Benchmark für Longform Creative Writing für LLMs

2025-04-10

Dieser Benchmark bewertet die Fähigkeit großer Sprachmodelle, lange Geschichten zu schreiben. Er bewertet Brainstorming, Überarbeitung und das Schreiben von acht Kapiteln à 1000 Wörtern. Metriken umfassen die Kapitellänge, die Flüssigkeit (Vermeidung überstrapazierter Phrasen), Wiederholungen und den Qualitätsabfall des Schreibens über die Kapitel hinweg. Eine endgültige Punktzahl (0-100) wird von einem Bewertungs-LLM vergeben.

(eqbench.com)

KI Longform Writing

Quasar Alpha: OpenAIs Geheimwaffe?

2025-04-10

Ein mysteriöses KI-Modell namens Quasar Alpha ist auf der OpenRouter-Plattform aufgetaucht und schnell zum beliebtesten KI-Modell für Programmierung geworden. Starke Hinweise deuten auf eine Verbindung zu OpenAI hin, möglicherweise ist es sogar OpenAIs o4-mini-low-Modell unter einem anderen Namen. Obwohl es nicht das fortschrittlichste Modell ist, könnte seine Geschwindigkeit und sein Preis-Leistungs-Verhältnis den Markt für KI-Programmiermodelle aufmischen. Quasar Alpha ist jetzt auf Kilo Code verfügbar.

(blog.kilocode.ai)

KI

Anthropic bringt Premium-Abo für KI-Chatbot Claude Max heraus

2025-04-09

Anthropic hat einen neuen, teuren Abonnementsplan für seinen KI-Chatbot Claude Max vorgestellt, um mit OpenAIs ChatGPT Pro zu konkurrieren. Max bietet höhere Nutzungsgrenzen und priorisierten Zugriff auf neueste KI-Modelle und Funktionen im Vergleich zu Anthropics 20-Dollar-Claude-Pro-Abo. Es gibt zwei Stufen: 100 Dollar pro Monat (5-fache Ratenbegrenzung) und 200 Dollar pro Monat (20-fache Ratenbegrenzung). Dieses Vorgehen zielt darauf ab, die Einnahmen für die kostspielige Entwicklung von KI-Spitzenmodellen zu steigern. Anthropic erforscht auch weitere Einnahmequellen, wie Claude for Education, das sich an Universitäten richtet. Die Anzahl der verkauften Claude-Abonnements wurde nicht bekannt gegeben, aber das neue Modell Claude 3.7 Sonnet hat laut Anthropic eine hohe Nachfrage erzeugt.

(techcrunch.com)

KI

KI-Therapieroboter zeigt vielversprechende Ergebnisse in der Bekämpfung der psychischen Gesundheitskrise

2025-04-09

Eine neue im New England Journal of Medicine veröffentlichte Studie zeigt, dass ein von Dartmouth-Forschern entwickelter KI-Therapieroboter in einer randomisierten klinischen Studie eine vergleichbare oder sogar bessere Wirksamkeit als menschliche Kliniker aufwies. Der Roboter wurde entwickelt, um die schwere Unterversorgung an psychischen Gesundheitsdienstleistern in den USA zu bekämpfen, und wurde über fünf Jahre lang rigoros in klinischen Best Practices geschult. Die Ergebnisse zeigten nicht nur verbesserte psychische Gesundheits-Outcomes bei den Patienten, sondern auch die überraschende Entwicklung starker therapeutischer Bindungen und Vertrauen. Obwohl die American Psychological Association Bedenken hinsichtlich unregulierter KI-Therapieroboter geäußert hat, lobt sie den rigorosen Ansatz dieser Studie. Die Forscher betonen, dass die Technologie noch lange nicht marktreif ist und weitere Tests benötigt werden, aber sie bietet eine potenzielle Lösung für die weit verbreitete Krise des Zugangs zur psychischen Gesundheitsversorgung.

(www.npr.org)

KI KI Gesundheit Robotik Therapie

Google präsentiert Ironwood: Eine TPU der 7. Generation für das Zeitalter der Inferenz

2025-04-09

Auf der Google Cloud Next '25 hat Google Ironwood vorgestellt, seine siebte Generation der Tensor Processing Unit (TPU). Dies ist Googles bisher leistungsstärkster und skalierbarster, kundenspezifischer KI-Beschleuniger, der speziell für Inferenz entwickelt wurde. Ironwood markiert einen Wandel hin zu einem proaktiven „Zeitalter der Inferenz“, in dem KI-Modelle Erkenntnisse und Antworten generieren, nicht nur Daten. Mit bis zu 9.216 flüssigkeitsgekühlten Chips, die über ein bahnbrechendes ICI-Netzwerk (fast 10 MW) miteinander verbunden sind, ist Ironwood ein Kernbestandteil der KI-Hypercomputer-Architektur von Google Cloud. Entwickler können den Pathways-Software-Stack von Google nutzen, um die Rechenleistung von Zehntausenden von Ironwood-TPUs einfach zu nutzen.

(blog.google)

KI Inferenz KI

Agent2Agent (A2A): Ein neues Zeitalter der Interoperabilität von KI-Agenten

2025-04-09

Google präsentiert Agent2Agent (A2A), ein offenes Protokoll, das eine nahtlose Zusammenarbeit zwischen KI-Agenten ermöglicht, die von verschiedenen Anbietern entwickelt wurden oder unterschiedliche Frameworks verwenden. Unterstützt von über 50 Technologiepartnern und Dienstleistern, ermöglicht A2A einen sicheren Informationsaustausch und koordinierte Aktionen, wodurch die Produktivität gesteigert und die Kosten gesenkt werden. Auf bestehenden Standards aufgebaut, unterstützt A2A verschiedene Modalitäten, priorisiert Sicherheit und bewältigt lang laufende Aufgaben. Anwendungsfälle reichen von der Automatisierung von Rekrutierungsprozessen (z. B. Kandidatenfindung und Terminplanung von Interviews) bis zur Optimierung komplexer Workflows in verschiedenen Unternehmensanwendungen. Seine Open-Source-Natur fördert ein florierendes Ökosystem kollaborativer KI-Agenten.

(developers.googleblog.com)

KI A2A-Protokoll

DeepCoder-14B: Open-Source Code-Reasoning-Modell erreicht Leistung von OpenAIs o3-mini

2025-04-09

Agentica und Together AI haben DeepCoder-14B-Preview veröffentlicht, ein Code-Reasoning-Modell, das durch verteiltes RL aus Deepseek-R1-Distilled-Qwen-14B feinabgestimmt wurde. Mit einer beeindruckenden Genauigkeit von 60,6 % Pass@1 auf LiveCodeBench konkurriert es mit OpenAIs o3-mini und verwendet dabei nur 14 B Parameter. Das Projekt veröffentlicht seinen Datensatz, Code, Trainingslogs und Systemoptimierungen als Open Source und zeigt ein robustes Trainingsrezept, das auf hochwertigen Daten und algorithmischen Verbesserungen von GRPO basiert. Dieser Fortschritt demokratisiert den Zugang zu leistungsstarken Code-Generierungsmodellen.

(www.together.ai)

KI Code-Reasoning

Gemini 2.5 Pro Experimental: Tiefgreifende Forschung wird deutlich intelligenter

2025-04-09

Gemini Advanced-Abonnenten können jetzt auf die Tiefgreifende Forschung zugreifen, die von Gemini 2.5 Pro Experimental unterstützt wird, das laut Branchen-Benchmarks und Chatbot Arena als leistungsfähigstes KI-Modell der Welt gilt. Dieser persönliche KI-Forschungsassistent verbessert jede Phase des Forschungsprozesses deutlich. In Tests bevorzugten die Bewerter die von Gemini 2.5 Pro generierten Berichte gegenüber den Berichten der Konkurrenz mit einer Marge von mehr als 2:1 und nannten Verbesserungen im analytischen Denken, der Informationssynthese und der Generierung aufschlussreicher Berichte. Greifen Sie auf detaillierte, leicht lesbare Berichte zu jedem Thema im Web, auf Android und iOS zu und sparen Sie Stunden Arbeit. Probieren Sie außerdem die neue Funktion Audio-Überblicke für das Hören unterwegs aus. Erfahren Sie mehr und probieren Sie es jetzt aus, indem Sie Gemini 2.5 Pro (experimentell) auswählen und in der Eingabeaufforderungsleiste „Tiefgreifende Forschung“ auswählen.

(blog.google)

KI Tiefgreifende Forschung

Cyc: Das 200 Millionen Dollar teure KI-Projekt, das nie funktionierte

2025-04-08

Dieser Essay beschreibt die 40-jährige Geschichte von Cyc, Douglas Lenats ehrgeizigem Projekt, künstliche allgemeine Intelligenz (AGI) durch Skalierung der symbolischen Logik zu schaffen. Trotz einer Investition von 200 Millionen Dollar und 2000 Personenjahren scheiterte Cyc daran, intellektuelle Reife zu erlangen. Der Artikel enthüllt die geheime Geschichte des Projekts und hebt die Isolation des Projekts und die Ablehnung alternativer KI-Ansätze als Schlüsselfaktoren hervor, die zu seinem Scheitern beitrugen. Cycs langer, langsamer Niedergang dient als starke Anklage gegen den symbolisch-logischen Ansatz für AGI.

(yuxi-liu-wired.github.io)

KI Symbolische KI

Metas Llama 4: Platz zwei im Ranking und ein chaotischer Launch

2025-04-08

Meta hat zwei neue Llama 4-Modelle veröffentlicht: Scout und Maverick. Maverick erreichte den zweiten Platz auf LMArena und übertraf damit GPT-4o und Gemini 2.0 Flash. Meta gab jedoch zu, dass auf LMArena eine speziell optimierte „experimentelle Chat-Version“ getestet wurde, nicht die öffentlich verfügbare Version. Dies führte zu Kontroversen, und LMArena aktualisierte seine Richtlinien, um ähnliche Vorfälle zu verhindern. Meta erklärte, dass es verschiedene Versionen testete, aber dieser Schritt wirft Fragen nach seiner Strategie im KI-Wettbewerb und dem ungewöhnlichen Zeitpunkt der Veröffentlichung von Llama 4 auf. Letztendlich unterstreicht der Vorfall die Grenzen von KI-Benchmarks und die komplexen Strategien großer Technologieunternehmen im Wettbewerb.

(www.theverge.com)

KI

Eiminütige Videos aus Text-Storyboards mithilfe von Testzeit-Trainings-Transformatoren

2025-04-08

Aktuelle Transformer-Modelle haben Schwierigkeiten, einminütige Videos zu generieren, da die Selbstaufmerksamkeits-Schichten für lange Kontexte ineffizient sind. Dieser Artikel untersucht Testzeit-Trainings-(TTT)-Schichten, deren versteckte Zustände selbst neuronale Netze sind und daher ausdrucksstärker sind. Das Hinzufügen von TTT-Schichten zu einem vorab trainierten Transformer ermöglicht die Generierung einminütiger Videos aus Text-Storyboards. Experimente mit einem Datensatz von Tom-und-Jerry-Cartoons zeigen, dass TTT-Schichten die Kohärenz des Videos und das Storytelling im Vergleich zu Basislinien wie Mamba 2 und Gated DeltaNet deutlich verbessern und einen Vorteil von 34 Elo-Punkten in der menschlichen Bewertung erzielen. Obwohl Artefakte verbleiben, wahrscheinlich aufgrund der Einschränkungen des 5B-Parameter-Modells, zeigt diese Arbeit einen vielversprechenden Ansatz, der auf längere Videos und komplexere Geschichten skalierbar ist.

(test-time-training.github.io)

KI Testzeit-Training

Multimodale KI-Bildgenerierung: Der Beginn einer visuellen Revolution

2025-04-08

Die kürzlich von Google und OpenAI veröffentlichten Fähigkeiten zur multimodalen Bildgenerierung markieren eine Revolution im Bereich der KI-Bildgenerierung. Anders als bei früheren Methoden, die Textaufforderungen an separate Bildgenerierungswerkzeuge schickten, steuern multimodale Modelle den Bildgenerierungsprozess direkt, indem sie Bilder Token für Token erstellen, ähnlich wie LLMs Text generieren. Dies ermöglicht es der KI, präzisere und beeindruckendere Bilder zu generieren und basierend auf dem Feedback des Benutzers zu iterieren. Der Artikel zeigt die leistungsstarken Fähigkeiten multimodaler Modelle anhand verschiedener Beispiele, wie der Generierung von Infografiken, der Änderung von Bilddetails und sogar der Erstellung von virtuellen Produktwerbungen. Er hebt jedoch auch Herausforderungen hervor, darunter Urheberrechts- und ethische Bedenken sowie das potenzielle Missbrauchsrisiko, wie z. B. Deepfakes. Letztendlich ist der Autor der Meinung, dass multimodale KI die Landschaft der visuellen Gestaltung grundlegend verändern wird, und wir müssen sorgfältig überlegen, wie wir diesen Wandel lenken können, um eine gesunde Entwicklung zu gewährleisten.

(www.oneusefulthing.org)

KI multimodale Modelle

Echtzeit-Neuroplastizität: Pre-trainierte LLMs mit Echtzeit-Lernfähigkeit ausstatten

2025-04-08

Diese experimentelle Technik, „Neural Graffiti“ genannt, verwendet ein Plug-in namens „Spray-Layer“, um Gedächtnisspuren direkt in die letzte Inferenzstufe vortrainierter Large Language Models (LLMs) einzuschleusen, ohne Feintuning oder Retraining. Sie ahmt die Neuroplastizität des Gehirns nach und verändert subtil das „Denken“ des Modells, indem sie Vektoreinbettungen modifiziert und so seine Vorhersagen für generierte Token beeinflusst. Durch Interaktion lernt und entwickelt sich das Modell schrittweise weiter. Es erzwingt keine spezifischen Wort-Outputs, lenkt das Modell aber durch wiederholte Interaktion auf assoziierte Konzepte. Ziel ist es, KI-Modellen ein proaktiveres Verhalten, eine fokussiertere Persönlichkeit und gesteigerte Neugier zu verleihen und ihnen letztendlich zu einer Form von Selbstbewusstsein auf neuronaler Ebene zu verhelfen.

(github.com)

KI

Unterschiede im Umgang mit Hintergrundmusik bei neurotypischen Erwachsenen und Personen mit positivem ADHD-Screening

2025-04-08

Eine Online-Umfrage unter 910 jungen Erwachsenen (17–30 Jahre) verglich die Gewohnheiten beim Hören von Hintergrundmusik (HM) und die subjektiven Auswirkungen bei neurotypischen Personen und solchen mit positivem ADHD-Screening bei Aufgaben mit unterschiedlichem kognitiven Anspruch. Die ADHD-Gruppe zeigte eine deutlich höhere Präferenz für HM in bestimmten Situationen, wie z. B. beim Lernen und Sport, und eine stärkere Vorliebe für stimulierende Musik. Es wurden jedoch keine signifikanten Unterschiede in den subjektiven Auswirkungen von HM auf die kognitive und emotionale Funktion zwischen den Gruppen festgestellt. Die Studie unterstreicht die Bedeutung der Anpassung der HM-Nutzung an die individuellen Erregungsbedürfnisse und die verfügbaren kognitiven Ressourcen und bietet einen neuen Blickwinkel auf musikbasierte Interventionen bei ADHD.

(www.frontiersin.org)

KI Hintergrundmusik Kognitive Funktion

LLMs stoßen an ihre Grenzen: Das Scheitern von Llama 4 und der Hype-Zyklus der KI

2025-04-08

Die Veröffentlichung von Llama 4 deutet darauf hin, dass große Sprachmodelle möglicherweise ihre Leistungsgrenze erreicht haben. Metas massive Investition in Llama 4 brachte keine erwarteten Durchbrüche, wobei Gerüchte auf eine mögliche Datenmanipulation zur Erreichung der Ziele hindeuten. Dies spiegelt die Schwierigkeiten wider, denen OpenAI, Google und andere Unternehmen bei der Entwicklung einer KI auf GPT-5-Niveau begegnen. Die Enttäuschung der Branche über die Leistung von Llama 4 ist weit verbreitet, verstärkt durch den Weggang von Metas KI-Vizepräsidentin Joelle Pineau. Der Artikel hebt Probleme wie Datenlecks und Datenkontamination in der KI-Branche hervor und beschuldigt prominente Persönlichkeiten, übermäßig optimistische Vorhersagen zu treffen und reale Misserfolge zu ignorieren.

(garymarcus.substack.com)

KI KI-Beschränkungen

Category: KI