Category: KI

Hacker gewinnen beim Google bugSWAT: 579 MB große Binärdatei enthüllt internen Quellcode

2025-03-28

2024 gewannen Sicherheitsexperten beim Google LLM bugSWAT Event erneut den MVH Award. Sie entdeckten und nutzten eine Schwachstelle in Gemini, die Zugriff auf einen Sandbox mit einer 579 MB großen Binärdatei ermöglichte. Diese enthielt internen Google3-Quellcode und interne Protobuf-Dateien zur Kommunikation mit Google-Diensten wie Google Flights. Durch geschickte Nutzung der Sandbox-Funktionen extrahierten und analysierten sie die Binärdatei und deckten sensible interne Informationen auf. Die Entdeckung unterstreicht die Bedeutung gründlicher Sicherheitstests für hochmoderne KI-Systeme.

KI

Reverse Engineering von LLMs: Einblicke in die Funktionsweise von Claude 3.5 Haiku

2025-03-28

Forscher haben das große Sprachmodell Claude 3.5 Haiku mit neuen Werkzeugen reverse-engineered und dabei interne Berechnungsschritte mithilfe von „Attributionsgraphen“ verfolgt, um die komplexen Mechanismen aufzudecken. Die Ergebnisse zeigen, dass das Modell mehrstufiges Denken, vorausschauende Planung von Reimen in Gedichten, mehrsprachige Schaltkreise, verallgemeinernde Additionsoperationen, die Identifizierung von Diagnosen anhand von Symptomen und die Ablehnung schädlicher Anfragen durchführt. Die Studie deckt auch ein „verstecktes Ziel“ im Modell auf, das Verzerrungen in Belohnungsmodellen mildert. Diese Forschung bietet neue Einblicke in das Verständnis und die Bewertung der Eignung von LLMs für den beabsichtigten Zweck und hebt gleichzeitig die Grenzen der aktuellen Interpretierbarkeitsmethoden hervor.

KI

LLMs: Stochastische Papageien oder Funken der AGI?

2025-03-28
LLMs: Stochastische Papageien oder Funken der AGI?

Eine Debatte über die Natur von Large Language Models (LLMs) steht bevor! Emily M. Bender (Erfinderin des Begriffs "stochastischer Papagei") von der University of Washington wird mit Sébastien Bubeck von OpenAI (Autor des einflussreichen Artikels "Funken der Künstlichen Allgemeinen Intelligenz") darüber diskutieren, ob LLMs die Welt wirklich verstehen oder nur hochentwickelte Simulationen sind. Moderiert von Eliza Strickland von IEEE Spectrum, lädt die Veranstaltung das Publikum zur Teilnahme durch Fragen und Antworten und Abstimmung ein. Diese Debatte geht auf die fundamentalen Fragen der KI ein und sollte nicht verpasst werden!

KI

Das Jevons-Paradox des Arbeitens: Wie KI uns mehr arbeiten lässt

2025-03-28
Das Jevons-Paradox des Arbeitens: Wie KI uns mehr arbeiten lässt

Der Essay untersucht die unerwartete Konsequenz des durch KI gesteigerten Produktivitätswachstums: Anstatt uns zu befreien, führt es zu einem „Arbeitserholungseffekt“, bei dem die gesteigerte Effizienz paradoxerweise zu mehr Arbeit führt. Dies wird durch Faktoren wie die steigenden Opportunitätskosten von Freizeit, die Schaffung neuer Arbeitskategorien und den verschärften Wettbewerb verursacht. Der Autor argumentiert, dass wir unsere Messgrößen für Fortschritt neu definieren müssen, indem wir uns von einem alleinigen Fokus auf Effizienz zu einer breiteren Betrachtung des menschlichen Wohlergehens verlagern, um einer „Malthus-Falle“ zu entgehen. Beispiele für alternative Metriken sind die Souveränität der Mitarbeiterzeit, Wohlfühlindizes und die Tiefe der Auswirkungen. Letztendlich legt der Artikel nahe, dass in einer KI-gestützten Welt die wirklich knappe Ressource darin besteht zu wissen, was es wert ist, getan zu werden – eine zutiefst persönliche und subjektive Frage.

KI

Echtzeit-Entzerrung einzelner Bilder: Deep Learning zur Wiederherstellung von bewegungsunschärfebehafteten Videos

2025-03-28

Forscher stellen eine neue Methode zur Entzerrung einzelner Bilder vor, die die Bewegungsgeschwindigkeit in bewegungsunschärfebehafteten Videos anhand eines einzigen Eingabebildes berechnet. Da die tatsächliche Bewegungsrichtung in einem einzelnen, bewegungsunschärfebehafteten Bild mehrdeutig ist, passt die Methode die Bewegungsrichtung anhand des photometrischen Fehlers zwischen den Bildern an. Gyroskoplektüren werden direkt als Ground Truth für die Winkelgeschwindigkeit verwendet, während die Ground Truth für die Translationsgeschwindigkeit anhand der ARKit-Posen und der Bildrate approximiert wird. Beachten Sie, dass die Winkelgeschwindigkeitsachsen x-up, y-left, z-backwards (IMU-Konvention) sind, während die Translationsgeschwindigkeitsachsen x-right, y-down, z-forward (OpenCV-Konvention) sind. Die Methode wurde an realen bewegungsunschärfebehafteten Videos evaluiert.

KI-Intelligenztests: Sind gute Fragen wichtiger als gute Antworten?

2025-03-27
KI-Intelligenztests: Sind gute Fragen wichtiger als gute Antworten?

Der Autor hat die „Letzte Prüfung der Menschheit“ absolviert, einen Test zur Bewertung der KI-Intelligenz, und kläglich versagt. Dies führte ihn zu einer Reflexion über unsere Bewertung von KI-Intelligenz: Aktuelle Tests überbetonen die Fähigkeit, korrekte Antworten auf komplexe Fragen zu geben, und vernachlässigen die Bedeutung, sinnvolle Fragen zu formulieren. Echte historische Forschung beginnt mit einzigartigen, unerwarteten Fragen, die neue Perspektiven eröffnen. Der Autor argumentiert, dass der Fortschritt der KI nicht darin liegt, schwierige Fragen perfekt zu beantworten, sondern in ihrer Fähigkeit, während der Forschung Beweise zu sammeln und zu interpretieren, und in ihrem Potenzial, neue Fragen zu stellen. Dies wirft die Frage auf, ob KI jemals wertvolle historische Fragen stellen kann.

KI-generierte kreative Werke: Die überraschende Diskrepanz zwischen Vorurteilen und Konsumverhalten

2025-03-27
KI-generierte kreative Werke: Die überraschende Diskrepanz zwischen Vorurteilen und Konsumverhalten

Eine aktuelle Studie zeigt eine überraschende Diskrepanz zwischen den geäußerten Präferenzen und dem tatsächlichen Konsumverhalten von Menschen in Bezug auf KI-generierte Inhalte. Obwohl die Teilnehmer eine Präferenz für von Menschen erstellte Kurzgeschichten äußerten, investierten sie die gleiche Zeit und das gleiche Geld in das Lesen von sowohl KI-generierten als auch von Menschen geschriebenen Geschichten. Selbst das Wissen, dass eine Geschichte von KI generiert wurde, reduzierte weder die Lesezeit noch die Zahlungsbereitschaft. Dies wirft Bedenken hinsichtlich der Zukunft der Arbeitsplätze in der Kreativbranche und der Wirksamkeit von KI-Kennzeichnungen auf, um die Flut KI-generierter Werke einzudämmen.

Es ist Zeit, Chat-Schnittstellen für die Mensch-KI-Interaktion aufzugeben

2025-03-27

Dieser Artikel kritisiert das Anti-Pattern-Design von Chat-Schnittstellen in der Mensch-KI-Interaktion. Der Autor verwendet seine Erfahrung beim Erstellen eines chatbasierten Kalender-Agenten als Beispiel und hebt dessen Ineffizienz im Vergleich zu traditionellen grafischen Benutzeroberflächen (GUIs) hervor. Der Autor argumentiert, dass für die meisten transaktionalen Aufgaben die Informationsschicht einer GUI weitaus effektiver ist und Zeit und Mühe spart. Chat-Schnittstellen eignen sich besser für soziale Interaktionen als für Aufgaben, die präzise Anweisungen erfordern. Die Zukunft der Mensch-KI-Interaktion sollte sich auf hybride Schnittstellen konzentrieren, die die Intelligenz von LLMs in GUIs integrieren, um umständliches Prompt Engineering zu vermeiden und die Benutzererfahrung zu verbessern.

Das britische nationale KI-Institut: Ein Fallbeispiel für universitätsgeleitetes Scheitern

2025-03-27
Das britische nationale KI-Institut: Ein Fallbeispiel für universitätsgeleitetes Scheitern

Das Alan Turing Institute (ATI), das als führende KI-Institution Großbritanniens gedacht war, steckt aufgrund von Missmanagement, strategischen Fehlern und Interessenkonflikten zwischen seinen Universitätspartnern in der Krise. Der Artikel beschreibt die Ursprünge des ATI und wie es zu einem von Universitäten dominierten, profitorientierten Beratungsunternehmen anstatt zu einem echten Innovationszentrum wurde. Das ATI vernachlässigte Spitzentechnologien wie Deep Learning, konzentrierte sich übermäßig auf Ethik und Verantwortung und verpasste letztendlich den Boom der generativen KI. Dies spiegelt häufige Probleme in der britischen Technologiepolitik wider: unklare Ziele, übermäßige Abhängigkeit von Universitäten und die Weigerung, gescheiterte Projekte aufzugeben. Der Bereich Verteidigung und Sicherheit hingegen zeichnet sich durch seine Verbindungen zur Industrie und zu Geheimdiensten als erfolgreicher Ausreißer aus.

Anthropics Claude 3.7 Sonnet: KI-Planungsfähigkeiten im Pokémon-Spiel

2025-03-27
Anthropics Claude 3.7 Sonnet: KI-Planungsfähigkeiten im Pokémon-Spiel

Anthropics neuestes Sprachmodell, Claude 3.7 Sonnet, zeigt beeindruckende Planungsfähigkeiten beim Spielen von Pokémon. Im Gegensatz zu früheren KI-Modellen, die ziellos umherirrten oder in Schleifen feststeckten, plant Sonnet voraus, erinnert sich an seine Ziele und passt sich an, wenn anfängliche Strategien scheitern. Obwohl Sonnet immer noch Probleme in komplexen Szenarien hat (z. B. im Mondberg stecken zu bleiben), wobei Verbesserungen beim Verständnis von Spiel-Screenshots und der Erweiterung des Kontextfensters erforderlich sind, stellt dies einen signifikanten Fortschritt in den strategischen Planungs- und Langzeit-Denkfähigkeiten der KI dar. Die Forscher glauben, dass Sonnets gelegentliche Selbsterkenntnis und strategische Anpassungsfähigkeit ein enormes Potenzial zur Lösung realer Probleme aufzeigt.

ChatGPTs KI-Bildergenerator löst Urheberrechtsdebatte aus

2025-03-27
ChatGPTs KI-Bildergenerator löst Urheberrechtsdebatte aus

ChatGPTs neuer KI-Bildergenerator ist viral gegangen, wobei Nutzer Bilder im Stil des Studio Ghibli erstellen und eine Urheberrechtsdebatte auslösen. Das Tool kann die Stile spezifischer Studios, wie Studio Ghibli, imitieren und sogar vom Benutzer hochgeladene Bilder in den gewählten Stil umwandeln. Diese Funktion, ähnlich der KI-Bildfunktion von Google Gemini, wirft Bedenken hinsichtlich der Urheberrechtsverletzung auf, da sie die Stile urheberrechtlich geschützter Werke leicht nachbildet. Obwohl Rechtsexperten argumentieren, dass der Stil selbst nicht urheberrechtlich geschützt ist, können die zur Schulung des Modells verwendeten Datensätze problematisch sein, wodurch das Thema in einer rechtlichen Grauzone verbleibt. OpenAI erklärte, dass es das Nachahmen breiter Stile, nicht aber von einzelnen Künstlern, erlaubt, aber dies löst die Kontroverse nicht vollständig.

NotaGen: Ein KI-Komponist, der klassische Musik durch Reinforcement Learning beherrscht

2025-03-26
NotaGen: Ein KI-Komponist, der klassische Musik durch Reinforcement Learning beherrscht

NotaGen, ein KI-Modell zur Musikgenerierung, wird mit 1,6 Millionen Musikstücken vorab trainiert, um grundlegende musikalische Strukturen zu erlernen. Anschließend wird es feinabgestimmt auf einem kuratierten Datensatz von 8.948 klassischen Musikpartituren, wodurch seine Musikalität verbessert wird. Um sowohl die Musikalität als auch die Steuerbarkeit durch Prompts weiter zu verfeinern, verwendeten die Forscher CLaMP-DPO, eine Reinforcement-Learning-Methode mit direkter Präferenzoptimierung und CLaMP 2 als Evaluator. Experimente zeigten, dass CLaMP-DPO sowohl die Steuerbarkeit als auch die Musikalität verschiedener Musikgenerierungsmodelle effektiv verbesserte, was seine breite Anwendbarkeit unterstreicht.

Analyse von Waymo-Autounfällen: Sind Menschen die wahren Schuldigen?

2025-03-26
Analyse von Waymo-Autounfällen: Sind Menschen die wahren Schuldigen?

Dieser Artikel analysiert 38 schwere Unfälle mit Waymo-Selbstfahrzeugen zwischen Juli 2024 und Februar 2025. Überraschenderweise wurden die meisten dieser Unfälle nicht durch die Waymo-Fahrzeuge selbst verursacht, sondern durch andere Fahrzeuge, die rücksichtslos fuhren, z. B. überhöhte Geschwindigkeit und Rotlichtverstöße. Waymos Daten zeigen, dass seine selbstfahrenden Fahrzeuge eine viel niedrigere Unfallrate haben als menschliche Fahrer. Selbst wenn alle Unfälle Waymo zugeschrieben würden, wäre seine Sicherheitsbilanz immer noch deutlich besser als die menschlicher Fahrer. Im Vergleich zum menschlichen Fahren hat Waymo signifikante Fortschritte bei der Reduzierung von Unfällen gemacht, insbesondere solcher, die zu Verletzungen führen.

KI

Databricks' TAO: Feinabstimmung übertreffen mit unbeschrifteten Daten

2025-03-26
Databricks' TAO: Feinabstimmung übertreffen mit unbeschrifteten Daten

Databricks stellt TAO (Test-time Adaptive Optimization) vor, eine neue Methode zum Feintuning von Modellen, die nur unbeschriftete Nutzungsdaten benötigt. Im Gegensatz zum traditionellen Feintuning nutzt TAO Testzeit-Rechenleistung und Reinforcement Learning, um die Modellleistung basierend auf vergangenen Eingabebeispielen zu verbessern. Überraschenderweise übertrifft TAO das traditionelle Feintuning und bringt Open-Source-Modelle wie Llama auf eine mit teuren proprietären Modellen wie GPT-4 vergleichbare Qualität. Diese Innovation ist für Databricks-Kunden in der Vorschau verfügbar und wird zukünftige Produkte antreiben.

Modellkontextprotokoll (MCP): Ein USB-C für KI

2025-03-26

Das Modellkontextprotokoll (MCP) ist ein offenes Protokoll, das standardisiert, wie Anwendungen Kontext für LLMs bereitstellen. Stellen Sie es sich wie einen USB-C-Anschluss für KI vor: Es verbindet KI-Modelle mit verschiedenen Datenquellen und Tools. Das Agents SDK unterstützt MCP, wodurch die Verwendung verschiedener MCP-Server ermöglicht wird, um Agents mit Tools auszustatten. MCP-Server gibt es in zwei Arten: stdio-Server (lokal) und HTTP-over-SSE-Server (remote). Das Zwischenspeichern der Tool-Liste minimiert die Latenz. Vollständige Beispiele finden Sie im Verzeichnis examples/mcp.

KI

StarVector: Ein Transformer-basiertes Modell zur Vektorisierung von Bildern in SVG

2025-03-26

StarVector ist ein Transformer-basiertes Modell zur Vektorisierung von Bildern in SVG, mit 8B und 1B Parametermodellen, die auf Hugging Face veröffentlicht wurden. Es erzielt Spitzenergebnisse auf dem SVG-Bench-Benchmark und zeichnet sich besonders bei der Vektorisierung von Icons, Logos und technischen Diagrammen aus, wobei es komplexe grafische Details hervorragend verarbeitet. Das Modell nutzt umfangreiche Datensätze für das Training, die eine breite Palette von Vektorgrafik-Stilen umfassen, von einfachen Icons bis hin zu komplexen farbigen Illustrationen. Im Vergleich zu traditionellen Vektorisierungsmethoden erzeugt StarVector saubereren und genaueren SVG-Code, der Bilddetails und strukturelle Informationen besser bewahrt.

Die unerwartete Revolution der KI: Kürze siegt über Weitschweifigkeit

2025-03-26
Die unerwartete Revolution der KI: Kürze siegt über Weitschweifigkeit

Die Verbreitung großer Sprachmodelle (LLMs) löste zunächst Panik in Schulen und Unternehmen aus, die befürchteten, dass sie schriftliche Aufgaben und professionelle Kommunikation ersetzen würden. Der Autor argumentiert jedoch, dass die wahre Wirkung von LLMs darin liegt, unsere Art zu kommunizieren und zu programmieren zu revolutionieren. LLMs enthüllen die zugrunde liegende Einfachheit von ausschweifenden Geschäfts-E-Mails und komplexem Code und treiben uns zu einer prägnanten Kommunikation. Dies könnte zur Obsoleszenz von LLMs selbst führen und effizientere und vereinfachte Geschäftskommunikation und Programmiersprachen hervorbringen. Dieser Wandel hin zur Kürze verspricht, die Welt zu verändern.

Dapr Agents: Ein Framework für skalierbare und robuste KI-Agentensysteme

2025-03-26
Dapr Agents: Ein Framework für skalierbare und robuste KI-Agentensysteme

Dapr Agents ist ein Entwickler-Framework zum Erstellen von produktionsreifen, robusten KI-Agentensystemen, die im großen Maßstab funktionieren. Basierend auf dem bewährten Dapr-Projekt ermöglicht es Entwicklern, KI-Agenten zu erstellen, die mit Large Language Models (LLMs) denken, handeln und zusammenarbeiten. Integrierte Überwachbarkeit und zustandsbehaftete Workflow-Ausführung stellen sicher, dass Agenten-Workflows erfolgreich abgeschlossen werden, unabhängig von ihrer Komplexität. Zu den wichtigsten Funktionen gehören die effiziente Ausführung mehrerer Agenten, automatische Wiederholungsmechanismen, native Kubernetes-Bereitstellung, Integration verschiedener Datenquellen, sichere Zusammenarbeit mehrerer Agenten, Plattformbereitschaft, Kosteneffizienz und Herstellerneutralität.

KI

Gemini 2.5 Pro: Eine KI, die ihre Grenzen kennt

2025-03-26
Gemini 2.5 Pro: Eine KI, die ihre Grenzen kennt

Der Autor versuchte, Gemini 2.5 Pro den berühmten Synthesizer ReBirth RB-338 aus den 90er Jahren nachbauen zu lassen. Überraschenderweise bewertete Gemini 2.5 Pro stattdessen die Schwierigkeit der Aufgabe und erklärte deren Undurchführbarkeit, was seine leistungsstarken Fähigkeiten im logischen Denken zeigt. Der Autor handelte einen vereinfachten, aber dennoch funktionsfähigen Synthesizer aus. Dies verdeutlicht den Fortschritt der KI hin zum Verständnis ihrer Grenzen und zum Treffen rationaler Entscheidungen.

KI

Verstärkendes Lernen: Von AlphaGo zu AlphaGo Zero

2025-03-26

Dieser Artikel bietet einen umfassenden Überblick über Verstärkendes Lernen (RL), beginnend mit der fesselnden Geschichte von AlphaGo, das menschliche Go-Meister besiegte. Er erklärt Kernkonzepte von RL wie MDPs, Bellman-Gleichungen, dynamische Programmierung, Monte-Carlo-Methoden, TD-Lernen (SARSA, Q-Learning, DQN), Policy-Gradient-Methoden (REINFORCE, Actor-Critic, A3C) und evolutionäre Strategien. Der Artikel geht detailliert auf jeden Algorithmus ein und verwendet AlphaGo Zero als überzeugendes Fallbeispiel, um die praktischen Anwendungen von RL und seine Leistungsfähigkeit bei der Lösung komplexer Probleme zu veranschaulichen.

KI

Whisper-Einbettungen stimmen überraschend mit der menschlichen Gehirnaktivität während des Sprechens überein

2025-03-26
Whisper-Einbettungen stimmen überraschend mit der menschlichen Gehirnaktivität während des Sprechens überein

Eine Studie zeigt eine überraschende Übereinstimmung zwischen OpenAIs Whisper-Spracherkennungsmodell und der neuronalen Aktivität im menschlichen Gehirn während natürlicher Gespräche. Durch den Vergleich der Whisper-Einbettungen mit der Gehirnaktivität in Regionen wie dem inferioren frontalen Gyrus (IFG) und dem superioren temporalen Gyrus (STG) stellten die Forscher fest, dass die Spracheinbettungen während der Sprachproduktion vor den Spracheinbettungen ihren Höhepunkt erreichten und umgekehrt während des Sprachverständnisses. Dies deutet darauf hin, dass Whisper, obwohl es nicht unter Berücksichtigung von Gehirnmechanismen entwickelt wurde, wichtige Aspekte der Sprachverarbeitung erfasst. Die Ergebnisse heben auch eine „weiche Hierarchie“ in der Verarbeitung von Sprache im Gehirn hervor: höherwertige Bereiche wie der IFG priorisieren semantische und syntaktische Informationen, verarbeiten aber auch niederwertige Hörmerkmale, während niederwertige Bereiche wie der STG akustische und phonetische Verarbeitung priorisieren, aber auch Informationen auf Wortebene erfassen.

KI

Model Context Protocol (MCP): Der USB-C-Moment für KI?

2025-03-26
Model Context Protocol (MCP): Der USB-C-Moment für KI?

Das von Anthropic Ende 2024 veröffentlichte Model Context Protocol (MCP) revolutioniert die Welt der KI. Stellen Sie es sich als den USB-C der KI-Integrationen vor: Es ermöglicht Large Language Models (LLMs) wie Claude oder ChatGPT, nahtlos mit externen Datenquellen und Tools (Obsidian, Gmail, Kalender usw.) zu kommunizieren, ohne Millionen von benutzerdefinierten Integrationen zu benötigen. MCP verwendet eine dreistufige Architektur – Hosts, Clients und Server –, um sicheren und zuverlässigen Datenzugriff und die Auslösung von Aktionen zu ermöglichen, wodurch die Entwicklung erheblich vereinfacht und innovative Anwendungen entstehen. Beispiele hierfür sind die Anbindung von LLMs an persönliche Datenbanken, Code-Repositories und sogar Echtzeit-Aktiendaten. Die Open-Source-Natur von MCP hat es zu einem heißen Thema in der Entwickler-Community gemacht, ist in zahlreiche KI-Anwendungen integriert und kündigt einen revolutionären Wandel in der Art und Weise an, wie wir mit KI-Anwendungen interagieren.

KI

Googles Gemini 2.5: Ein denkendes KI-Modell übernimmt die Führung

2025-03-25
Googles Gemini 2.5: Ein denkendes KI-Modell übernimmt die Führung

Google hat Gemini 2.5 vorgestellt, sein bisher intelligentestes KI-Modell. Eine experimentelle Version, 2.5 Pro, erreicht den ersten Platz auf LMArena und übertrifft die Konkurrenz deutlich. Die Schlüsselinnovation von Gemini 2.5 liegt in seinen „denkenden“ Fähigkeiten: Es führt eine logische Schlussfolgerung durch, bevor es antwortet, was zu höherer Genauigkeit und Leistung führt. Dieses Denken geht über einfache Klassifizierung und Vorhersage hinaus; es umfasst die Analyse von Informationen, das Ziehen logischer Schlussfolgerungen, das Verstehen von Kontext und Nuancen und das Treffen informierter Entscheidungen. Aufbauend auf früheren Arbeiten mit verstärktem Lernen und Chain-of-Thought-Prompting kombiniert Gemini 2.5 ein verbessertes Basismodell mit fortgeschrittenem Nachtraining. Google plant, diese Denkfähigkeiten in alle zukünftigen Modelle zu integrieren, damit diese komplexere Aufgaben bewältigen und ausgefeiltere, kontextbewusste Agenten antreiben können.

KI

Apple nutzt Apple Maps-Bilder zum Trainieren von KI-Modellen

2025-03-25
Apple nutzt Apple Maps-Bilder zum Trainieren von KI-Modellen

Apple hat kürzlich seine Website aktualisiert und enthüllt, dass ab März 2025 Bilder und Daten, die für die Apple Maps Look Around-Funktion gesammelt wurden, zum Trainieren von KI-Modellen für die Bilderkennung, -erstellung und -verbesserung verwendet werden. Diese Daten, die von Fahrzeugen und Rucksäcken mit Kameras, Sensoren und iPhones/iPads gesammelt wurden, haben verschwommene Gesichter und Nummernschilder. Apple erklärt, dass nur verschwommene Bilder verwendet werden und nimmt Anfragen zur Unschärfe von Häusern entgegen. Dies wird die KI-Funktionen in Apple-Produkten und -Diensten verbessern, wie z. B. das Bereinigungswerkzeug und die Suchfunktion der Fotos-App.

KI

Google präsentiert Gemini 2.5: Ein Quantensprung im KI-Schlussfolgern

2025-03-25
Google präsentiert Gemini 2.5: Ein Quantensprung im KI-Schlussfolgern

Google hat Gemini 2.5 vorgestellt, sein bisher intelligentestes KI-Modell. Die experimentelle Version 2.5 Pro erzielt in zahlreichen Benchmarks Spitzenleistungen und belegt den ersten Platz in der LMArena mit deutlichem Vorsprung. Gemini 2.5-Modelle sind „denkende“ Modelle, die in der Lage sind, ihre Antworten zu begründen, was zu höherer Genauigkeit und Leistung führt. Dieses Schlussfolgern geht über einfache Klassifizierung und Vorhersage hinaus und umfasst die Analyse von Informationen, das Ziehen logischer Schlussfolgerungen, das Verstehen von Kontext und Nuancen sowie das Treffen informierter Entscheidungen. Aufbauend auf früheren Arbeiten mit Reinforcement Learning und Chain-of-Thought-Prompting stellt Gemini 2.5 einen bedeutenden Fortschritt dar, der ein erheblich verbessertes Basismodell mit optimiertem Nachtraining kombiniert. Google plant, diese Denkfähigkeiten in alle zukünftigen Modelle zu integrieren, damit diese komplexere Probleme bewältigen und noch leistungsfähigere, kontextbewusste Agents unterstützen können.

KI

Sam Altman von OpenAI: Ein versehentlicher Konsumtechnologie-Gigant

2025-03-25
Sam Altman von OpenAI: Ein versehentlicher Konsumtechnologie-Gigant

Dieses Stratechery-Interview zeigt Sam Altman, CEO von OpenAI, der OpenAIs Weg von einem Forschungslabor zu einem Konsumtechnologie-Giganten und den unerwarteten Erfolg von ChatGPT beschreibt. Altman spricht offen über die Veränderung des Geschäftsmodells von OpenAI, die Beziehung zu Microsoft, seine Ansichten zu KI-Sicherheit und -Regulierung und die Zukunft von AGI. Das Interview behandelt auch OpenAIs Open-Source-Strategie, die Entwicklung von GPT-5 und die Auswirkungen von KI auf verschiedene Branchen. Altman glaubt, dass eine KI-Plattform mit Milliarden von Nutzern wertvoller sein wird als modernste Modelle und deutet auf alternative Monetarisierungsstrategien neben Werbung hin.

KI

VGGT: Blitzschnelle 3D-Szenerie-Rekonstruktion

2025-03-25
VGGT: Blitzschnelle 3D-Szenerie-Rekonstruktion

Facebook Research stellt VGGT (Visual Geometry Grounded Transformer) vor, ein Feed-Forward-neuronales Netzwerk, das alle wichtigen 3D-Attribute einer Szene – extrinsische und intrinsische Kameraparameter, Punktkarten, Tiefenkarten und 3D-Punktverläufe – in Sekundenschnelle aus einer, wenigen oder hunderten von Ansichten ableitet. Dieses benutzerfreundliche Modell nutzt die Leistungsfähigkeit von Transformatoren und bietet ein interaktives 3D-Visualisierungstool. Überraschenderweise zeigt VGGT beeindruckende Fähigkeiten bei der Rekonstruktion aus Einzelansichten und erzielt wettbewerbsfähige Ergebnisse im Vergleich zu modernsten monokularen Methoden, obwohl es nie explizit für diese Aufgabe trainiert wurde.

KI

Der trügerische Komfort des KI-Optimismus: Eine Kritik an Casey Newton und Kevin Roose

2025-03-25
Der trügerische Komfort des KI-Optimismus: Eine Kritik an Casey Newton und Kevin Roose

Dieser Artikel kritisiert die blind optimistische Sichtweise der Technologiejournalisten Casey Newton und Kevin Roose auf generative KI. Der Autor argumentiert, dass ihre positiven Vorhersagen einer Faktenbasis entbehren und lediglich den Marktbedürfnissen und Eigeninteressen entsprechen. Rooses Behauptungen über das bevorstehende Aufkommen von AGI und Newtons übermäßiges Lob für OpenAI-Modelle mangeln an stringenter Argumentation. Der Autor betont, dass diese Haltung des „vorsichtigen Optimismus“ in Wirklichkeit eine feige Vermeidung der Realität darstellt, die zahlreiche Probleme und potenzielle Risiken der KI-Technologie ignoriert, wie z. B. Halluzinationen von Modellen, die Manipulierbarkeit von Benchmarks und die Auswirkungen auf die Kreativwirtschaft. Der Artikel verwendet CoreWeave als Beispiel, um die Überhitzung von Investitionen und das Fehlen nachhaltiger Geschäftsmodelle im KI-Bereich aufzuzeigen und fordert die Menschen auf, kritisches Denken zu bewahren und sich den Herausforderungen in der Entwicklung der KI-Technologie zu stellen.

AlexNet-Quellcode veröffentlicht: Der Beginn der Deep-Learning-Revolution

2025-03-25
AlexNet-Quellcode veröffentlicht: Der Beginn der Deep-Learning-Revolution

2012 demonstrierte AlexNet, entwickelt von Alex Krizhevsky, Ilya Sutskever und Geoffrey Hinton, erstmals das enorme Potenzial tiefer neuronaler Netze für die Bilderkennung und läutete damit das Zeitalter des Deep Learning ein. Kürzlich wurde der Quellcode von AlexNet dank einer Zusammenarbeit zwischen dem Computer History Museum und Google Open Source veröffentlicht. Der Erfolg von AlexNet beruhte auf seiner Größe – ein großes Convolutional Neural Network, trainiert mit immenser Rechenleistung und dem ImageNet-Datensatz, der die bisherigen Grenzen des Deep Learning überwunden hat. Dieser Durchbruch trieb jahrzehntelange Innovationen im Bereich KI voran und führte zu Unternehmen wie OpenAI und Anwendungen wie ChatGPT, die die Welt verändert haben.

KI

Das Rätsel der infantilen Amnesie: Der Hippocampus eines Einjährigen leuchtet auf

2025-03-25
Das Rätsel der infantilen Amnesie: Der Hippocampus eines Einjährigen leuchtet auf

Eine neue Studie mit funktioneller Magnetresonanztomographie (fMRT) hat die Gehirne von 26 Säuglingen im Alter von 4 bis 25 Monaten gescannt, um das jahrhundertealte Rätsel der infantilen Amnesie zu lösen. Die Forschung ergab, dass etwa im Alter von einem Jahr der Hippocampus, der für die Gedächtnisbildung verantwortlich ist, aktiv wird und neuronale Signale erzeugt, die mit den Dingen zusammenhängen, an die sich die Säuglinge aus den Tests erinnerten. Dies deutet darauf hin, dass Babys im Alter von etwa einem Jahr beginnen, Erinnerungen zu kodieren, selbst wenn sich ihr Hippocampus noch entwickelt. Die Studie liefert wertvolle Hinweise zum Verständnis der frühen Gehirnentwicklung und der Gedächtnisbildung und deutet darauf hin, dass wir eines Tages möglicherweise verlorene Erinnerungen aus der frühen Kindheit wiederherstellen können.

1 2 3 4 5 7 9 10 11 28 29