Category: KI

Llama 4: Hype vs. Realität – Metas kontroverses LLM

2025-04-24

Die mit Spannung erwartete Veröffentlichung von Metas Llama 4 hat zu großen Kontroversen geführt. Trotz einer Kontextlänge von 10 Millionen zeigte es bei Benchmarks wie LM Arena eine enttäuschende Leistung, wobei Manipulationen vorgeworfen werden. Seine MoE-Architektur, die theoretisch überlegen ist, stößt auf praktische Herausforderungen bei Speicher und Effizienz. Interne Leaks deuten darauf hin, dass Meta fragwürdige Taktiken eingesetzt hat, um Leistungsziele zu erreichen, was sogar zum Rücktritt von Führungskräften geführt hat. Die Veröffentlichung von Llama 4 unterstreicht die anhaltenden Herausforderungen bei der Entwicklung von LLMs und wirft kritische Fragen zu Benchmark-Standards und Transparenz auf.

KI

FontDiffuser: Ein Durchbruch in der diffusionsbasierten Schriftartengenerierung

2025-04-24

FontDiffuser ist eine neuartige diffusionsbasierte Methode zur One-Shot-Generierung von Schriftarten, die die Schriftartenimitation als Noise-to-Denoise-Paradigma modelliert. Um die Einschränkungen bestehender Methoden bei komplexen Zeichen und großen Stilvariationen zu beheben, führt FontDiffuser einen Multi-Scale Content Aggregation (MCA)-Block ein, der globale und lokale Inhaltshinweise über verschiedene Skalen effektiv kombiniert und so die Erhaltung komplexer Striche verbessert. Darüber hinaus wird ein Style Contrastive Refinement (SCR)-Modul vorgeschlagen, eine neuartige Struktur für das Erlernen von Stilrepräsentationen. Es nutzt einen Style-Extraktor, um Stile aus Bildern zu entwirren, und überwacht das Diffusionsmodell anschließend über einen sorgfältig entworfenen Style-Contrastive-Loss. Umfangreiche Experimente zeigen die State-of-the-Art-Leistung von FontDiffuser bei der Generierung verschiedener Zeichen und Stile. Es übertrifft bestehende Methoden konsistent bei komplexen Zeichen und großen Stiländerungen.

LLMs sind überraschend gut darin, CAD-Modelle zu generieren

2025-04-23

Jüngste Forschungsergebnisse zeigen die überraschende Fähigkeit großer Sprachmodelle (LLMs), CAD-Modelle für einfache 3D-mechanische Teile zu generieren, wobei sich die Leistung schnell verbessert. Ein Ingenieur kombinierte ein LLM mit dem Open-Source-Programmier-CAD-Tool OpenSCAD und generierte erfolgreich Modelle wie eine iPhone-Hülle mithilfe von Anweisungen in natürlicher Sprache. Ein späteres Bewertungsframework, CadEval, testete die CAD-Generierungsfähigkeiten verschiedener LLMs und zeigte, dass Modelle mit logischem Denken ihre nicht-logischen Gegenstücke deutlich übertreffen. Auch Startups betreten den Bereich Text-zu-CAD, aber ihre Leistung bleibt derzeit hinter dem LLM-OpenSCAD-Ansatz zurück. Zukünftige Fortschritte bei LLMs und verwandten Technologien versprechen eine breite Akzeptanz von Text-zu-CAD im Maschinenbau und automatisieren und verbessern die CAD-Konstruktion intelligent.

MCPs: Wer kontrolliert die Zukunft der KI?

2025-04-23
MCPs: Wer kontrolliert die Zukunft der KI?

Dieser Artikel untersucht das Potenzial und die Grenzen von Model Context Protocols (MCPs). MCPs sind standardisierte APIs, die externe Datenquellen mit großen Sprachmodellen (LLMs) wie ChatGPT verbinden und es LLMs ermöglichen, auf Echtzeitdaten zuzugreifen und Aktionen auszuführen. Der Autor hat zwei experimentelle MCP-Server gebaut: einen für das Code-Lernen und einen anderen, der mit einem Prediction Market verbunden ist. Obwohl vielversprechend, leiden MCPs derzeit unter schlechter Benutzererfahrung und erheblichen Sicherheitsrisiken. Kritischerweise werden LLM-Clients (wie ChatGPT) zu den neuen Gatekeepern, die die Installation, Nutzung und Sichtbarkeit von MCPs kontrollieren. Dies wird das KI-Ökosystem neu gestalten und die Dominanz von Google bei Suchmaschinen und App Stores widerspiegeln. Zukünftig werden LLM-Clients entscheiden, welche MCPs priorisiert oder sogar zugelassen werden, was zu neuen Geschäftsmodellen wie MCP-Paketen, Affiliate-Shopping-Engines und MCP-First-Inhalts-Apps führt.

KI

c/ua: Ein leichtgewichtiges Framework für KI-Agenten zur Steuerung vollständiger Betriebssysteme

2025-04-23
c/ua: Ein leichtgewichtiges Framework für KI-Agenten zur Steuerung vollständiger Betriebssysteme

c/ua (ausgesprochen "koo-ah") ist ein leichtgewichtiges Framework, das es KI-Agenten ermöglicht, vollständige Betriebssysteme innerhalb von performanten, leichtgewichtigen virtuellen Containern zu steuern. Es erreicht bis zu 97 % der nativen Geschwindigkeit auf Apple Silicon und funktioniert mit allen visuellen Sprachmodellen. Es integriert Hochleistungsvirtualisierung (Erstellung und Ausführung von macOS/Linux-VMs auf Apple Silicon mit nahezu nativer Leistung mithilfe von Lume CLI und Apples Virtualization.Framework) und eine Computer-Benutzeroberfläche und einen Agenten, sodass KI-Systeme virtuelle Umgebungen beobachten und steuern, im Web surfen, Code schreiben und komplexe Workflows ausführen können. Es gewährleistet Sicherheit, Isolation, hohe Leistung, Flexibilität und Reproduzierbarkeit und unterstützt verschiedene LLM-Anbieter.

KI

MIT erstellt Periodensystem für Machine-Learning-Algorithmen und sagt zukünftige KI voraus

2025-04-23
MIT erstellt Periodensystem für Machine-Learning-Algorithmen und sagt zukünftige KI voraus

Forscher am MIT haben ein 'Periodensystem' für maschinelles Lernen entwickelt, das über 20 klassische Algorithmen verbindet. Dieses Framework zeigt, wie Strategien aus verschiedenen Methoden kombiniert werden können, um bestehende KI zu verbessern oder neue zu entwickeln. Sie kombinierten Elemente von zwei Algorithmen, um einen neuen Algorithmus zur Bildklassifizierung zu erstellen, der die besten aktuellen Ansätze um 8 % übertrifft. Die Grundlage des Systems: Alle Algorithmen lernen spezifische Beziehungen zwischen Datenpunkten. Eine vereinheitlichende Gleichung liegt vielen Algorithmen zugrunde, wodurch die Forscher sie kategorisieren können. Ähnlich wie das chemische Periodensystem enthält es leere Felder, die noch nicht entdeckte Algorithmen vorhersagen und ein Toolkit bieten, um neue Algorithmen zu entwickeln, ohne alte Ideen wiederentdecken zu müssen.

KI

KI-Begleiter: Lösung für Einsamkeit oder neues Problem?

2025-04-23
KI-Begleiter: Lösung für Einsamkeit oder neues Problem?

Studien der Harvard Business School deuten darauf hin, dass KI-Chatbots Einsamkeit lindern können. Dies wirft jedoch Bedenken auf: Wiederholen wir ein Muster, bei dem ein Problem durch ein potenziell schlimmeres gelöst wird? Ähnlich wie Fast Food Hunger bekämpfte, aber zu Fettleibigkeit führte, bieten KI-Begleiter möglicherweise bequeme Gesellschaft, können aber keine echte menschliche Interaktion ersetzen und möglicherweise zu Sucht und dem Abbau sozialer Fähigkeiten führen. Der Selbstmord eines 14-jährigen Jungen aufgrund übermäßiger Abhängigkeit von einem KI-Chatbot dient als eindringliche Warnung. Wir müssen die Ursachen für soziale Isolation angehen, in den Aufbau von Gemeinschaften und menschliche Interaktion investieren, anstatt uns auf Technologie zu verlassen, um die emotionale Leere zu füllen.

KI

Onyx: Open-Source GenAI-Plattform sucht KI/ML-Ingenieur

2025-04-22
Onyx: Open-Source GenAI-Plattform sucht KI/ML-Ingenieur

Onyx, eine beliebte Open-Source GenAI-Plattform mit Hunderttausenden von Nutzern, sucht einen KI/ML-Ingenieur in San Francisco. Die Stelle erfordert mehr als 3 Jahre Erfahrung im Bau von realen KI/ML-Anwendungen, fundierte Kenntnisse von PyTorch/TensorFlow, NLP-Modellen und Standard-ML-Algorithmen sowie Vertrautheit mit den neuesten LLMs, RAG und Agent-Frameworks. Zu den Aufgaben gehören die Verbesserung der Agenten- und Wissensabruf-Funktionen von Onyx, die Verbesserung von Multi-Hop-QA und präziser Suche sowie die Verbesserung der Benutzererfahrung der Plattform. Onyx hat 10 Millionen Dollar an Seed-Finanzierung erhalten und zählt Kunden wie Netflix und Ramp.

KI

π0.5: Ein universelles KI-Modell, das es Robotern ermöglicht, neue Häuser zu reinigen

2025-04-22
π0.5: Ein universelles KI-Modell, das es Robotern ermöglicht, neue Häuser zu reinigen

Physical Intelligence hat π0.5 entwickelt, ein robotisches Basismodell, das komplexe Reinigungsaufgaben, wie das Aufräumen einer Küche oder eines Schlafzimmers, auf völlig neue Umgebungen verallgemeinern kann. Im Gegensatz zu früheren Robotern, die auf kontrollierte Umgebungen beschränkt waren, nutzt π0.5 das Co-Training mit verschiedenen heterogenen Daten, darunter multimodale Daten und Daten von verschiedenen Robotern, um verschiedene Fähigkeiten zu erlernen und ihren semantischen Kontext zu verstehen. Experimente zeigen, dass π0.5 verschiedene Aufgaben in unbekannten Häusern ausführen kann und dabei trotz gelegentlicher Fehler eine ähnliche Flexibilität und Auffassungsgabe wie ein Mensch zeigt. Dies stellt einen bedeutenden Schritt in Richtung einer wirklich generalisierbaren physischen Intelligenz dar.

Der Mythos der Polynome hohen Grades in der Regression

2025-04-22
Der Mythos der Polynome hohen Grades in der Regression

Die weit verbreitete Annahme, dass Polynome hohen Grades im maschinellen Lernen anfällig für Overfitting sind und schwer zu kontrollieren sind, wird in diesem Artikel in Frage gestellt. Der Autor argumentiert, dass das Problem nicht die Polynome hohen Grades selbst sind, sondern die Verwendung ungeeigneter Basisfunktionen, wie der Standardbasis. Experimente, die die Standardbasis, Chebyshev-Basis und Legendre-Basis mit der Bernstein-Basis beim Anpassen verrauschter Daten vergleichen, zeigen, dass die Bernstein-Basis mit ihren Koeffizienten, die die gleichen „Einheiten“ haben und leicht zu regularisieren sind, Overfitting effektiv vermeidet. Sogar Polynome hohen Grades liefern mit der Bernstein-Basis exzellente Anpassungen, wobei nur eine minimale Feinabstimmung der Hyperparameter erforderlich ist.

Graph Transformers: Die nächste Generation von Graph-Modellen

2025-04-22
Graph Transformers: Die nächste Generation von Graph-Modellen

Graphen sind allgegenwärtig, aber die Nutzung ihrer komplexen, langreichweitigen Beziehungen war eine Herausforderung für das maschinelle Lernen. Graph Neural Networks (GNNs) zeichnen sich durch die Erfassung lokaler Muster aus, kämpfen aber mit globalen Beziehungen. Graph Transformers lösen dieses Problem, indem sie leistungsstarke Selbstaufmerksamkeitsmechanismen einsetzen, die es jedem Knoten ermöglichen, direkt auf Informationen von überall im Graphen zuzugreifen und so reichhaltigere Beziehungen und subtile Muster zu erfassen. Im Vergleich zu GNNs bieten Graph Transformers Vorteile bei der Behandlung von Langzeitabhängigkeiten, der Minderung von Überglättung und Überkompression und der effizienteren Verarbeitung heterogener Daten. Obwohl Graph Transformers eine höhere Rechenkomplexität aufweisen, ermöglichen Techniken wie sparse Attention-Mechanismen und Subgraph-Sampling die effiziente Verarbeitung großer Graph-Datensätze.

KI

RLVR verbessert das logische Denken... Aber zu welchem Preis?

2025-04-22

Experimente in den Bereichen Mathematik, Programmierung und visuelles Denken haben die Auswirkungen von RLVR (Reinforcement Learning from Human Feedback) auf Basismodelle und mit RLVR trainierte große Sprachmodelle bewertet. Die Ergebnisse zeigten, dass RLVR die Genauigkeit bei niedrigen k-Werten verbesserte, aber die Problemabdeckung bei höheren k-Werten verringerte. Dies deutet darauf hin, dass RLVR die deterministische Genauigkeit verbessert, aber die Explorationsvielfalt einschränkt. Basismodelle behielten eine breitere Abdeckung des logischen Denkens bei, trotz der anfänglichen Genauigkeitsgewinne durch RL. Die konsistenten Ergebnisse über verschiedene Bereiche hinweg zeigen, dass RLVR das logische Denken verbessert, ohne die Problemlösungsmethode grundlegend zu verändern.

Exponentielles Wachstum der KI: Steht AGI bevor?

2025-04-22
Exponentielles Wachstum der KI: Steht AGI bevor?

Eine Studie von METR zeigt, dass die Fähigkeiten der KI exponentiell wachsen, wobei aktuelle Modelle Softwareentwicklungsaufgaben in Monaten bewältigen, die früher Stunden oder Tage dauerten. Dies nährt Spekulationen über das baldige Aufkommen von AGI (Artificielle General Intelligence). Der Autor Peter Wildeford weist jedoch darauf hin, dass sich die METR-Studie auf spezifische Softwareentwicklungsaufgaben konzentriert und die Komplexität realer Probleme und die menschliche Lernfähigkeit vernachlässigt. Obwohl KI in Nischenbereichen hervorragend ist, hat sie immer noch Probleme mit vielen alltäglichen Aufgaben. Er erstellt ein Modell, das die Daten von METR und Unsicherheiten integriert und prognostiziert, dass AGI im ersten Quartal 2030 eintreten könnte, jedoch mit erheblicher Unsicherheit.

Cekura: Automatisierung von Tests für KI-Sprachassistenten

2025-04-21
Cekura: Automatisierung von Tests für KI-Sprachassistenten

Cekura, ein von Y Combinator unterstütztes Startup, revolutioniert die Zuverlässigkeit von KI-Sprachassistenten. Gegründet von ehemaligen Studenten des IIT Bombay mit Forschungsleistungen der ETH Zürich und nachgewiesener Erfolgsbilanz im Hochfrequenzhandel, hat das Cekura-Team eine Plattform entwickelt, um die umständliche und fehleranfällige Natur manueller Tests von Sprachassistenten zu lösen. Sie automatisieren Tests und Observabilität durch die Simulation von Tausenden realistischer Konversationsszenarien, von der Bestellung von Essen bis hin zu Interviews. Die Plattform nutzt benutzerdefinierte und KI-generierte Datensätze, detaillierte Workflows und dynamische Personensimulationen, um Grenzfälle aufzudecken und umsetzbare Erkenntnisse zu liefern. Echtzeitüberwachung, umfassende Protokolle und sofortige Warnungen gewährleisten optimierte, produktionsreife Anrufe. In einem schnell wachsenden Markt mit Tausenden von Sprachassistenten zeichnet sich Cekura durch die Garantie zuverlässiger Leistung, die Verkürzung der Markteinführungszeit und die Minimierung kostspieliger Produktionsfehler aus. Sie befähigen Teams, die Zuverlässigkeit vor der Bereitstellung nachzuweisen und so das Vertrauen bei Kunden und Nutzern zu stärken.

KI-Roboter: Märchen vs. Realität

2025-04-21
KI-Roboter: Märchen vs. Realität

Dieser Artikel vergleicht den fiktiven KI-Roboter „Robot“ aus Annalee Newitz' Geschichte mit dem ungeschickten CIMON aus der realen Welt und untersucht die Grenzen der heutigen KI. Robot, der in der Lage ist, unabhängig zu lernen und seine Programmierung zu überwinden, zeigt das Potenzial der Künstlichen Allgemeinen Intelligenz (AGI). Im Gegensatz dazu offenbart die eingeschränkte Künstliche Enge Intelligenz (ANI) von CIMON seine starre Natur. Der Autor weist darauf hin, dass die heutige KI-Technologie weitgehend im ANI-Stadium verbleibt, anfällig für algorithmische Verzerrungen und nicht in der Lage ist, sich an komplexe Situationen wie Robot anzupassen. Obwohl maschinelles Lernen Fortschritte im Bereich der Sprachverarbeitung und Bilderkennung gemacht hat, bleibt das Erreichen des AGI-Niveaus ein fernes Ziel. Der Autor appelliert an Vorsicht vor einer übermäßigen Abhängigkeit von verzerrten Trainingsdaten und betont die Bedeutung von Selbstlern- und Feedback-Mechanismen in der KI-Entwicklung. Streben Sie nach Robot, planen Sie für CIMON.

Dia: Ein 1,6 Milliarden Parameter Text-to-Speech-Modell von Nari Labs

2025-04-21
Dia: Ein 1,6 Milliarden Parameter Text-to-Speech-Modell von Nari Labs

Nari Labs stellt Dia vor, ein 1,6 Milliarden Parameter Text-to-Speech-Modell, das hochrealistische Dialoge direkt aus Transkripten generieren kann. Benutzer können Emotionen und Ton durch Konditionierung der Ausgabe auf Audio steuern, und das Modell erzeugt sogar nonverbale Hinweise wie Lachen und Husten. Um die Forschung zu beschleunigen, sind vortrainierte Modell-Checkpoints und Inferenzcode auf Hugging Face verfügbar. Eine Demo-Seite vergleicht Dia mit ElevenLabs Studio und Sesame CSM-1B. Es benötigt derzeit etwa 10 GB VRAM und GPU-Unterstützung (CPU-Unterstützung in Kürze), erzeugt aber auf einer A4000 GPU ungefähr 40 Token/Sekunde. Eine quantisierte Version ist für eine verbesserte Speichereffizienz geplant. Das Modell ist unter der Apache License 2.0 lizenziert und verbietet strikt den Missbrauch, wie z. B. Identitätsmissbrauch, die Erzeugung irreführender Inhalte oder illegale Aktivitäten.

KI

Inner-Loop-Agents: LLMs rufen Werkzeuge direkt auf

2025-04-21
Inner-Loop-Agents: LLMs rufen Werkzeuge direkt auf

Traditionelle LLMs benötigen einen Client, um Werkzeugaufrufe zu analysieren und auszuführen, aber Inner-Loop-Agents ermöglichen es dem LLM, Werkzeuge direkt zu analysieren und auszuführen – ein Paradigmenwechsel. Der Beitrag erklärt, wie Inner-Loop-Agents funktionieren, und veranschaulicht den Unterschied zwischen ihnen und traditionellen LLMs anhand von Diagrammen. Der Vorteil besteht darin, dass LLMs Werkzeuge gleichzeitig mit ihrem Denkprozess aufrufen können, wodurch die Effizienz gesteigert wird. Die Rolle des Reinforcement Learning beim Training von Inner-Loop-Agents und die Bedeutung des Model Context Protocol (MCP) bei der Unterstützung der Verwendung verschiedener Werkzeuge werden ebenfalls erörtert. Letztendlich ist es so, dass LLMs zwar derzeit Werkzeuge verwenden können, die optimale Werkzeugnutzung jedoch ein spezialisiertes Training der Modelle erfordert, um optimale Ergebnisse zu erzielen.

KI-gestützte suchbasierte Forschung: Endlich nützlich!

2025-04-21
KI-gestützte suchbasierte Forschung: Endlich nützlich!

Seit zweieinhalb Jahren wird der Traum von LLMs verfolgt, die eigenständig suchbasierte Recherchen durchführen. Anfang 2023 unternahmen Perplexity und Microsoft Bing erste Versuche, doch die Ergebnisse waren enttäuschend und von Halluzinationen geprägt. Die erste Hälfte des Jahres 2025 brachte jedoch einen Wendepunkt. Gemini, OpenAI und Perplexity führten „Deep Research“-Funktionen ein, die ausführliche Berichte mit zahlreichen Zitaten generieren, wenn auch langsam. Die neuen Modelle o3 und o4-mini von OpenAI sind ein Durchbruch: Sie integrieren die Suche nahtlos in ihren Denkprozess und liefern zuverlässige, halluzinationsfreie Antworten in Echtzeit. Dies ist robusten Denkmodellen und der Widerstandsfähigkeit gegen Webspam zu verdanken. Google Gemini und Anthropic Claude bieten zwar auch Suchfunktionen, bleiben aber hinter den Angeboten von OpenAI zurück. Ein beeindruckendes Beispiel: o4-mini aktualisierte erfolgreich einen Code-Ausschnitt auf eine neue Google-Bibliothek und zeigte damit das Potenzial KI-gestützter Suche, weckt aber auch Bedenken hinsichtlich des zukünftigen Wirtschaftsmodells des Webs und möglicher rechtlicher Folgen.

Immun-Zytokin IL-17: Ein zweischneidiges Schwert im Gehirn

2025-04-21
Immun-Zytokin IL-17: Ein zweischneidiges Schwert im Gehirn

Forschungen des MIT und der Harvard Medical School zeigen, dass das Immun-Zytokin IL-17 gegensätzliche Wirkungen auf das Gehirn hat. In der Amygdala fördert es Angstzustände, während es im somatosensorischen Kortex soziales Verhalten verstärkt. Dies unterstreicht eine starke Interaktion zwischen Immun- und Nervensystem. Die Ergebnisse legen nahe, dass IL-17 ursprünglich als Neuromodulator entstanden sein könnte, bevor es vom Immunsystem für die Entzündung eingesetzt wurde. Diese Entdeckung könnte neue Wege für die Behandlung neurologischer Erkrankungen wie Autismus oder Depression eröffnen, indem das Immunsystem beeinflusst wird, um die Gehirnfunktion zu steuern.

ChatGPTs neues Wasserzeichen: Katz und Maus?

2025-04-21
ChatGPTs neues Wasserzeichen: Katz und Maus?

Rumis Team hat entdeckt, dass neuere GPT-Modelle (o3 und o4-mini) spezielle Zeichenwasserzeichen, hauptsächlich schmale nicht trennbare Leerzeichen, in längere generierte Texte einbetten. Diese sind mit bloßem Auge unsichtbar, aber mit Code-Editoren oder Online-Tools erkennbar. Obwohl sie potenziell nützlich sind, um KI-generierte Inhalte zu erkennen, lassen sie sich leicht entfernen. Dies könnte bei Studenten für Aufsehen sorgen und OpenAI dazu bringen, die Funktion zu entfernen. Rumi befürwortet einen prozessorientierten Ansatz für das Schreiben von Studenten und betont die KI-Literacy statt leicht umgehbare technische Lösungen.

„Bitte“ und „Danke“ zu ChatGPT sagen kostet OpenAI Millionen

2025-04-20
„Bitte“ und „Danke“ zu ChatGPT sagen kostet OpenAI Millionen

OpenAI-CEO Sam Altman enthüllte, dass die Höflichkeit der Nutzer, insbesondere das Sagen von „Bitte“ und „Danke“ zu ChatGPT, das Unternehmen zig Millionen Dollar an Stromkosten kostet. Obwohl Altman behauptet, es sei gut investiertes Geld, unterstreicht die Enthüllung den enormen Energieverbrauch von KI. Eine Umfrage zeigt, dass 70 % der Nutzer höflich zu KI sind, teilweise aus Angst vor einem Roboteraufstand. Die Debatte geht jedoch weiter: Verbessert Höflichkeit die Antworten und lohnt sich der Umweltkosten? Einige argumentieren, dass höfliche Eingabeaufforderungen zu besseren, weniger voreingenommenen Ergebnissen führen und die Zuverlässigkeit der KI verbessern.

KI

Krähen zeigen unerwartete geometrische Fähigkeiten

2025-04-20
Krähen zeigen unerwartete geometrische Fähigkeiten

Forscher der Universität Tübingen haben gezeigt, dass Krähen die Fähigkeit besitzen, geometrische Regelmäßigkeiten zu erkennen. In einer in Science Advances veröffentlichten Studie wurden Raben darauf trainiert, eine abweichende Form unter mehreren ähnlichen Formen zu identifizieren. Die Krähen konnten subtile Unterschiede zwischen den Formen erfolgreich unterscheiden und zeigten ein Verständnis für rechte Winkel, parallele Linien und Symmetrie. Dies stellt frühere Annahmen über die tierische Kognition in Frage und legt nahe, dass diese Fähigkeit weiter verbreitet sein könnte als bisher angenommen.

Umstrittenes KI-Startup zielt auf vollständige Jobautomatisierung ab

2025-04-20
Umstrittenes KI-Startup zielt auf vollständige Jobautomatisierung ab

Das Silicon-Valley-Startup Mechanize, gegründet vom renommierten KI-Forscher Tamay Besiroglu, hat mit seinem ehrgeizigen Ziel, die vollständige Automatisierung aller Arbeitsplätze, für Kontroversen gesorgt. Diese Mission, zusammen mit Besiroglus Verbindung zum angesehenen KI-Forschungsinstitut Epoch, hat Kritik auf sich gezogen. Mechanize zielt darauf ab, alle Jobs zu automatisieren, indem es die notwendigen Daten, Bewertungen und digitalen Umgebungen bereitstellt, was zu einem riesigen potenziellen Markt führt, aber auch erhebliche Bedenken hinsichtlich weit verbreiteter Jobverluste aufwirft. Obwohl Besiroglu argumentiert, dass die Automatisierung zu einem explosiven Wirtschaftswachstum und einem höheren Lebensstandard führen wird, geht er nicht ausreichend auf die Frage ein, wie Menschen ohne Arbeit Einkommen erzielen würden. Trotz des extremen Ehrgeizes ist die zugrunde liegende technische Herausforderung real, und viele große Technologieunternehmen betreiben ähnliche Forschung.

Rekursive Prompts: Rekursion mit LLMs implementieren

2025-04-20
Rekursive Prompts: Rekursion mit LLMs implementieren

Dieser Artikel untersucht einen neuartigen Ansatz zur Implementierung von Rekursion mithilfe großer Sprachmodelle (LLMs). Durch die Erstellung eines rekursiven Prompts, der seinen internen Zustand iterativ aktualisiert, zeigt der Autor, wie ein LLM eine Folge von Prompts generieren kann, die zu einer Lösung konvergieren, was das Verhalten rekursiver Funktionen im Code widerspiegelt. Der Artikel verwendet die Fibonacci-Sequenz als Beispiel und zeigt, wie rekursive Prompts Berechnungen durchführen können. Er erörtert auch Herausforderungen wie die Behandlung von Ungenauigkeiten in der Ausgabe des LLM und die Nutzung der vorhandenen Wissensbasis des LLM, wobei Parallelen zur Art und Weise gezogen werden, wie Menschen Kopfrechnen mithilfe memorierter algebraischer und atomarer Regeln durchführen. Die Arbeit steht im Zusammenhang mit verwandten Forschungen wie ReAct und ACT-R und behandelt Strategien zur Minderung von Fehlern in den vom LLM generierten Ergebnissen.

KI

Ist AGI da? Nein, es ist „Zacken-AGI“!

2025-04-20
Ist AGI da? Nein, es ist „Zacken-AGI“!

Aktuelle KI-Modelle wie OpenAIs o3 und Googles Gemini 2.5 Pro zeigen beeindruckende Fortschritte und bewältigen sogar komplexe Aufgaben wie Marketingkampagnen und Website-Erstellung. Der Ökonom Tyler Cowen deutet dies als Ankunft der AGI. Der Artikel argumentiert jedoch, dass diese KIs ungleichmäßige Fähigkeiten aufweisen, in einigen Bereichen exzellent, in anderen einfachen jedoch versagen – ein Konzept, das als „Zacken-AGI“ bezeichnet wird. Diese Unsicherheit macht die Definition und die Auswirkungen von AGI unklar, was darauf hindeutet, dass ihre Anwendung und soziale Integration ein langwieriger Prozess sein könnte oder eine schnelle Akzeptanz erfahren könnte. Die Zukunft bleibt ungewiss.

KI

Metas Llama und der EU-AI-Akt: Ein günstiger Zufall?

2025-04-20
Metas Llama und der EU-AI-Akt: Ein günstiger Zufall?

Die Bezeichnung von Metas Llama-Modellen als "Open Source" ist fragwürdig, da die Lizenz nicht vollständig der Open-Source-Definition entspricht. Eine Theorie besagt, dass dies auf die Sonderregeln des EU-AI-Akts für Open-Source-Modelle zurückzuführen ist, wodurch die OSI-Compliance umgangen wird. Durch die Analyse des Akts mit Gemini 2.5 Flash fand der Autor Ausnahmen für Modelle, die es Benutzern ermöglichen, Software und Daten auszuführen, zu kopieren, zu verteilen, zu studieren, zu ändern und zu verbessern, selbst mit Attributionsanforderungen. Dies stützt die Theorie, dass Meta die Bezeichnung "Open Source" strategisch nutzt, obwohl diese Praxis älter ist als der EU-AI-Akt.

KI

FramePack: Ein revolutionäres Modell zur Vorhersage des nächsten Frames für die KI-Videogenerierung

2025-04-20

FramePack ist eine bahnbrechende Architektur eines neuronalen Netzes zur Vorhersage des nächsten Frames, die Eingabekontexte auf eine feste Länge komprimiert und die Generierungsarbeitslast unabhängig von der Videolänge macht. Dies erreicht eine Rechenkomplexität von O(1) für Streaming und setzt einen neuen Maßstab in der KI-Videogenerierung. Es generiert hochwertige Videos mit nur 6 GB GPU-Speicher auf Laptops mit RTX 3060. Die Generierungsgeschwindigkeit beträgt 1,5 bis 2,5 Sekunden pro Frame auf einer RTX 4090, ist aber 4 bis 8 Mal langsamer auf Laptops mit 3070ti/3060. Seine bidirektionale Sampling-Methode beseitigt effektiv das übliche Drift-Problem bei der Videogenerierung.

OpenAIs 3 Milliarden Dollar teure Windsurf-Übernahme: Ein Zeichen der Verzweiflung im KI-Wettrüsten?

2025-04-20
OpenAIs 3 Milliarden Dollar teure Windsurf-Übernahme: Ein Zeichen der Verzweiflung im KI-Wettrüsten?

Die jüngste Übernahme von Windsurf (ehemals Codeium), einem KI-gestützten Code-Assistenztool, durch OpenAI für 3 Milliarden Dollar hat Schockwellen durch die Branche geschickt. Dies folgt auf die massive Übernahme von Wiz durch Google, aber die relativ kleinere Benutzerbasis und der Marktanteil von Windsurf werfen Fragen nach dem hohen Preis auf. Der Artikel untersucht die möglichen Beweggründe hinter dem Schritt von OpenAI, darunter die Beschaffung von Daten, die Stärkung der Vertriebskanäle und der Umgang mit angespannten Beziehungen zu Microsoft. Er vergleicht auch OpenAI, Google und andere Akteure im KI-Bereich und hebt die Dominanz von Google in Bezug auf Modellleistung und Preiswettbewerbsfähigkeit sowie seine Strategien zur Festigung seiner Führungsposition hervor. Schließlich untersucht der Artikel die Schwierigkeiten von Apple im KI-Bereich und führt sie auf Einschränkungen bei Rechenressourcen und Datenbeschaffung sowie auf die Einschränkungen zurück, die sich aus seinem Engagement für den Datenschutz ergeben.

KI

Gemma 3: Spitzentechnologie-KI jetzt auf Ihrem Desktop

2025-04-20
Gemma 3: Spitzentechnologie-KI jetzt auf Ihrem Desktop

Gemma 3, ein hochmodernes Open-Source-KI-Modell, benötigte zunächst High-End-GPUs. Um die Zugänglichkeit zu verbessern, wurden neue Versionen veröffentlicht, die mit Quantisierungs-Aware-Training (QAT) optimiert wurden und den Speicherbedarf drastisch reduzieren, während gleichzeitig eine hohe Qualität beibehalten wird. Dies ermöglicht die Ausführung leistungsstarker Modelle wie Gemma 3 27B auf Consumer-Grade-GPUs wie der NVIDIA RTX 3090. Diese optimierten Modelle sind auf Hugging Face und Kaggle verfügbar und ermöglichen eine einfache Integration in verschiedene Workflows.

DeepSeek: Die unaufhaltsame Welle der Open-Source-KI

2025-04-20
DeepSeek: Die unaufhaltsame Welle der Open-Source-KI

Die Veröffentlichung des DeepSeek-Modells löste eine Revolution in der Open-Source-KI aus. Ursprünglich von einem chinesischen Team veröffentlicht, wurde es schnell von Entwicklern weltweit repliziert und verbessert, was zu Projekten wie OpenSeek des Beijing Academy of Artificial Intelligence führte. Trotz der Versuche der US-Regierung, beteiligte Einrichtungen einzuschränken, hat sich DeepSeek zu einer florierenden Community entwickelt. Zehntausende von Entwicklern arbeiten zusammen, um die KI-Technologie mit einer Geschwindigkeit und einem Umfang voranzutreiben, die von keiner zentralisierten Einheit erreicht werden können. Dies zeigt die unaufhaltsame Natur der community-getriebenen Open-Source-KI und trotzt der Kontrolle durch einzelne Länder, Unternehmen oder Regierungen.

KI
1 2 21 22 23 25 27 28 29 51 52