Category: KI

GPT-5: Ein tiefer Einblick in Preise, Modellkarte und Schlüsselfunktionen

2025-08-08
GPT-5: Ein tiefer Einblick in Preise, Modellkarte und Schlüsselfunktionen

Die GPT-5-Familie von OpenAI ist da! Es ist kein revolutionärer Sprung, aber sie übertrifft ihre Vorgänger deutlich in Zuverlässigkeit und Benutzerfreundlichkeit. In ChatGPT ist GPT-5 ein hybrides System, das intelligent zwischen Modellen wechselt, abhängig von der Schwierigkeit des Problems; die API-Version bietet reguläre, Mini- und Nano-Modelle mit vier Denkstufen. Es hat ein Eingabelimit von 272.000 Tokens und ein Ausgabelimit von 128.000 Tokens, unterstützt Text- und Bildeingabe, aber nur Textausgabe. Die Preise sind extrem wettbewerbsfähig und unterbieten die Konkurrenz deutlich. Darüber hinaus zeigt GPT-5 deutliche Verbesserungen bei der Reduzierung von Halluzinationen, der Verbesserung der Anweisungsbefolgung und der Minimierung von Schmeichelei, wobei ein neuer Ansatz für Sicherheitsschulungen verwendet wird. Es zeichnet sich in Schreiben, Codieren und Gesundheitswesen aus. Prompt Injection bleibt jedoch ein ungelöstes Problem.

KI

Verbesserung des Fein-Tunings von LLMs durch iterative Datenkuratierung

2025-08-08
Verbesserung des Fein-Tunings von LLMs durch iterative Datenkuratierung

Forscher haben die Leistung großer Sprachmodelle (LLMs) durch iterative Kuratierung ihrer Trainingsdaten deutlich verbessert. Experimente umfassten zwei LLMs unterschiedlicher Größe (Gemini Nano-1 und Nano-2) bei Aufgaben unterschiedlicher Komplexität, wobei ca. 100.000 Crowd-Annotationen verwendet wurden, die anfänglich unter einem starken Klassenungleichgewicht litten (95% gutartig). Durch iterative Expertenkuratierung und Modell-Feintuning stieg die Leistung deutlich an. Die Modelle erreichten etwa 40% positive Beispiele und einen Cohen's Kappa von ca. 0,81 (geringere Komplexität) und 0,78 (höhere Komplexität) und näherten sich so der Expertenleistung an. Dies unterstreicht die entscheidende Rolle hochwertiger Daten beim Training von LLMs.

AURA: Ein maschinenlesbares Web-Protokoll

2025-08-07
AURA: Ein maschinenlesbares Web-Protokoll

Das AURA-Protokoll (Agent-Usable Resource Assertion) revolutioniert die Interaktion zwischen KI und Web. Anstatt auf fragile Screen Scraping- und DOM-Manipulationsmethoden zu setzen, führt AURA eine standardisierte `aura.json`-Manifestdatei ein, die es Websites ermöglicht, ihre Fähigkeiten (z. B. das Erstellen von Beiträgen, das Anmelden) als HTTP-Anfragen zu deklarieren. Dies ermöglicht eine effiziente und sichere KI-Website-Interaktion und ebnet den Weg für intelligentere Suchmaschinen, die Aktionen und nicht nur Inhalte indizieren. Das Projekt umfasst einen Referenzserver und -client, die die Funktionalität demonstrieren.

OpenAIs Open-Source-Modell: Die eigentliche ethische Herausforderung umgehen?

2025-08-07
OpenAIs Open-Source-Modell: Die eigentliche ethische Herausforderung umgehen?

OpenAI hat kürzlich ein großes Sprachmodell als Open Source veröffentlicht, aber die angegebenen „Sicherheits“-Bedenken haben Fragen aufgeworfen. Der Artikel argumentiert, dass OpenAI die öffentlichen Bedenken hinsichtlich der KI-Ethik geschickt auf die inhärente Moral des Modells lenkt: es daran hindern, zu fluchen oder schädliche Entscheidungen zu treffen. Die Öffentlichkeit ist jedoch viel mehr besorgt über die realen Auswirkungen: Governance, Rechenschaftspflicht, Datennutzung, Arbeitsplatzverluste usw. Dies spiegelt vergangene Tech-Strategien in Bezug auf Datenschutz wider, wobei der Fokus auf leicht lösbaren Problemen liegt, während schwierigere gesellschaftliche Herausforderungen umgangen werden. Anstatt sich zu fragen, ob die KI ethische Richtlinien befolgt, sollten wir uns auf die Unternehmen und Führungskräfte konzentrieren, die diese KI einsetzen. Die eigentliche Frage der KI-Ethik ist, wie sichergestellt werden kann, dass diese Unternehmen ihre Ressourcen und Macht nicht missbrauchen, um der Menschheit zu schaden.

KI

Ehemaliger Google-KI-Forscher warnt vor LLMs und ethischen Bedenken

2025-08-07
Ehemaliger Google-KI-Forscher warnt vor LLMs und ethischen Bedenken

Bhaskar Mitra, ein 19-jähriger Veteran der großen Technologieunternehmen und ehemaliger KI-Forscher, meldet sich nach seiner Entlassung zu Wort und deckt die Realitäten und ethischen Dilemmata großer Sprachmodelle (LLMs) auf. Er argumentiert, dass LLMs keine Fachkräfte wie Ärzte und Lehrer ersetzen werden, und ihre zentralisierte Kontrolle über Informationen wirft Bedenken hinsichtlich sozialer Gerechtigkeit, Informationszugang und Machtkonzentration auf. Mitra fordert eine Neubewertung der Beziehung zwischen KI-Technologie und sozialer Gerechtigkeit und plädiert für eine inklusive und humanistische technologische Zukunft.

KI

GitHub enthüllt versehentlich Details zu OpenAIs GPT-5

2025-08-07
GitHub enthüllt versehentlich Details zu OpenAIs GPT-5

Ein inzwischen gelöschter GitHub-Blogbeitrag enthüllte versehentlich Details zu den kommenden GPT-5-Modellen von OpenAI. Die vier Varianten bieten erhebliche Verbesserungen in Bezug auf Argumentation, Codequalität und Benutzererfahrung und verfügen über verbesserte eigenständige Fähigkeiten sowie die Möglichkeit, komplexe Codierungsaufgaben mit minimalen Eingaben zu bewältigen. Dieses Leck kommt vor der offiziellen Ankündigung von OpenAI eines „LIVE5TREAM“-Events für später heute und untermauert frühere Gerüchte über den bevorstehenden Start von GPT-5.

KI

LLM-Inflation: Erzeugen große Sprachmodelle redundante Informationen?

2025-08-06

Datenkompression war einst ein Kennzeichen der Informatik, aber jetzt haben Large Language Models (LLMs) die „LLM-Inflation“ eingeführt: Menschen verwenden LLMs, um prägnante Informationen in lange Texte auszuweiten, nur um sie dann mit einem LLM wieder zu komprimieren. Dies spiegelt ein zugrunde liegendes Kommunikationsproblem wider: Belohnen wir implizit Verschleierung und Zeitverschwendung? LLMs könnten uns helfen, dieses Problem anzugehen und zu lösen.

UR5 Roboterarm-Simulation: Greifen und Platzieren von Objekten

2025-08-06
UR5 Roboterarm-Simulation: Greifen und Platzieren von Objekten

Dieses Projekt simuliert einen UR5-Roboterarm mit einem Robotiq 85-Greifer, der in der PyBullet-Umgebung autonome Aufgaben zum Greifen und Platzieren von Objekten ausführt. Mithilfe der inversen Kinematik (IK) zur präzisen Steuerung des Arms und der synchronisierten Gelenksteuerung für realistische Greiferbewegungen greift der Roboter Würfel aus zufälligen Positionen und platziert sie auf einem Tablett. Die Simulation umfasst die dynamische Platzierung von Objekten und die Echtzeitinteraktion.

DeepMinds Genie 3: Länger anhaltende, interaktive 3D-Welten

2025-08-06
DeepMinds Genie 3: Länger anhaltende, interaktive 3D-Welten

Google DeepMind präsentiert Genie 3, ein neues KI-Weltmodell, das persistente, interaktive 3D-Umgebungen generieren kann. Im Gegensatz zu vorherigen Versionen ermöglicht Genie 3 deutlich längere Interaktionszeiten und merkt sich die Position von Objekten, auch wenn der Benutzer wegschaut. Mit einer Auflösung von 720p bei 24 fps ermöglicht Genie 3 mehrere Minuten kontinuierlicher Interaktion und unterstützt promptbasierte Modifikationen wie das Ändern des Wetters oder das Hinzufügen von Charakteren. Der Zugriff ist derzeit auf eine kleine Gruppe von Wissenschaftlern und Schöpfern für Forschungszwecke beschränkt.

Claude Opus 4.1 veröffentlicht: Signifikante Verbesserungen beim Codieren

2025-08-06
Claude Opus 4.1 veröffentlicht: Signifikante Verbesserungen beim Codieren

Anthropic hat Claude Opus 4.1 veröffentlicht, ein wichtiges Update von Claude Opus 4 mit signifikanten Verbesserungen beim Codieren, der Anwendung in der realen Welt und beim logischen Schließen. Version 4.1 erreicht 74,5 % auf SWE-bench Verified in Bezug auf die Codierleistung und verbessert die Fähigkeiten zur gründlichen Recherche und Datenanalyse, insbesondere beim Detailtracking und der aktiven Suche. Unternehmen wie Rakuten und Windsurf haben die Verbesserungen bei der Codekorrektur und der Entwicklungseffizienz gelobt. Es ist jetzt für zahlende Benutzer und Claude-Code-Benutzer verfügbar und in die API, Amazon Bedrock und Google Cloud Vertex AI integriert.

Gemini App: KI-gestützter personalisierter Bilderbuchgenerator

2025-08-06
Gemini App: KI-gestützter personalisierter Bilderbuchgenerator

Googles Gemini App ermöglicht es Ihnen jetzt, personalisierte Bilderbücher mit Vorlesefunktion zu erstellen. Beschreiben Sie einfach Ihre Geschichte, und Gemini generiert ein einzigartiges 10-seitiges Buch mit individuellen Bildern und Audio. Sie können sogar Ihre eigenen Fotos und Dateien als Inspiration verwenden und aus über 45 Sprachen und einer Vielzahl von Kunststilen wählen, von Pixel Art und Comics bis hin zu Stop-Motion-Animation. Perfekt, um komplexe Themen zu erklären, wertvolle Lektionen zu vermitteln oder Kinderzeichnungen und Familienfotos in magische Geschichten zu verwandeln. Erwecken Sie Ihre Vision zum Leben!

Ollama Turbo: Blitzschnelle Ausführung von Open-Source-LLMs

2025-08-06
Ollama Turbo: Blitzschnelle Ausführung von Open-Source-LLMs

Ollama Turbo ist eine neue Methode, um große Open-Source-Sprachmodelle mit Rechenzentrum-Hardware auszuführen. Viele neue Modelle sind zu groß für gängige GPUs oder laufen zu langsam. Ollama Turbo bietet eine Lösung für schnelle Ausführung, kompatibel mit Ollamas App, CLI und API. Derzeit in der Vorschau verfügbar, unterstützt es die Modelle gpt-oss-20b und gpt-oss-120b. Es funktioniert mit Ollamas CLI, API und JavaScript/Python-Bibliotheken. Wichtig ist, dass Ollama keine Anfragen im Turbo-Modus protokolliert oder speichert. Die gesamte Hardware befindet sich in den USA. Es gibt Nutzungsbeschränkungen (stündlich und täglich), um Kapazitätsprobleme zu vermeiden, wobei eine nutzungsbasierte Preisgestaltung in Kürze verfügbar sein wird.

KI

Genie 3: Danksagung und die Helden dahinter

2025-08-06
Genie 3: Danksagung und die Helden dahinter

Der Erfolg des großen Sprachmodells Genie 3 ist den bedeutenden Beiträgen zahlreicher Forscher und Ingenieure zu verdanken. Diese umfangreiche Danksagung hebt die gemeinschaftliche Arbeit in allen Phasen hervor, von der Kernentwicklung bis zur Videoproduktion. Sie unterstreicht die immense Teamarbeit und das wichtige Unterstützungsnetzwerk für ein so komplexes KI-Projekt.

KI

Kitten TTS: Leichtgewichtiges, hochwertiges Text-to-Speech-Modell

2025-08-06
Kitten TTS: Leichtgewichtiges, hochwertiges Text-to-Speech-Modell

Kitten TTS ist ein neues Open-Source-Modell für Text-to-Speech (TTS) mit nur 15 Millionen Parametern. Es wurde für eine leichte Implementierung entwickelt und bietet eine überraschend hochwertige Sprachsynthese. Mit einem einfachen pip install und wenigen Codezeilen kann man Sprache mit verschiedenen Sprachoptionen generieren, was es ideal für ressourcenbeschränkte Geräte macht.

KI

Inhaltsbewusste Wiederholungsabstände: Die nächste Generation des Lernens?

2025-08-05
Inhaltsbewusste Wiederholungsabstände: Die nächste Generation des Lernens?

Traditionelle Systeme für verteiltes Wiederholen (SRS) haben einen blinden Fleck: Sie ignorieren die semantische Bedeutung von Karteikarten und verlassen sich allein auf Gedächtnismodelle, um die Behaltensleistung vorherzusagen. Dieser Beitrag stellt inhaltsbewusste Gedächtnismodelle vor, die den Textinhalt und die semantischen Beziehungen zwischen Karteikarten nutzen, um die Lerneffizienz zu verbessern. Dies eröffnet das Potenzial für flüssigere und intelligentere Lernwerkzeuge, wie z. B. konzeptorientierte Gedächtnissysteme und KI-gestützte konversationelle verteiltes Wiederholen. Der Autor unterscheidet außerdem zwischen Planern und Gedächtnismodellen und untersucht die Vorteile, Herausforderungen und zukünftigen Richtungen inhaltsbewusster Gedächtnismodelle, z. B. den Bedarf an größeren, öffentlich zugänglichen Datensätzen, die sowohl den Textinhalt der Karteikarten als auch den Wiederholungsverlauf enthalten.

Qwen-Image: Ein 20-Milliarden-Parameter-Bildgrundmodell wird veröffentlicht

2025-08-05
Qwen-Image: Ein 20-Milliarden-Parameter-Bildgrundmodell wird veröffentlicht

Alibaba DAMO Academy hat Qwen-Image veröffentlicht, ein 20 Milliarden Parameter umfassendes Bildgrundmodell, das erhebliche Fortschritte beim Rendern komplexer Texte und bei der präzisen Bildbearbeitung erzielt. Es bietet eine hochgenaue Textwiedergabe in mehreren Sprachen (einschließlich Englisch und Chinesisch) und bewahrt dabei die semantische Bedeutung und den visuellen Realismus bei Bearbeitungsvorgängen. Qwen-Image übertrifft bestehende Modelle in verschiedenen Benchmarks für die Bildgenerierung und -bearbeitung. Demonstrationen zeigten seine Fähigkeiten: Bilder mit komplexer chinesischer Typografie und Layouts zu generieren, detaillierte PPT-Folien zu erstellen und sogar zweisprachiges Textrendering zu handhaben, was seine robusten Fähigkeiten in der Textverarbeitung und Bildgenerierung unterstreicht.

LLMs scheitern bei der Schriftartenidentifizierung: Ein Live-Benchmark

2025-08-04
LLMs scheitern bei der Schriftartenidentifizierung: Ein Live-Benchmark

Ein Entwickler hat GPT-4 und Gemini in einem Live-Benchmark mit kontinuierlich aktualisierten, nicht identifizierten Schriftarten aus dem DaFont-Forum getestet. Trotz der Bereitstellung von Kontext wie Bildern, Titeln und Beschreibungen schnitten beide LLMs miserabel ab. Dies unterstreicht die Grenzen selbst bei scheinbar einfachen Bildklassifizierungsaufgaben und deutet darauf hin, dass LLMs noch lange keine universelle Lösung sind. Das Projekt verwendet Python-Skripte zum Scraping von Daten, GitHub Actions für die Automatisierung, JSON für die Speicherung und Observable für ein dynamisches Dashboard.

KI-Persönlichkeiten steuern: Identifizierung von „Persona-Vektoren“, um „böse“ KI zu verhindern

2025-08-03
KI-Persönlichkeiten steuern: Identifizierung von „Persona-Vektoren“, um „böse“ KI zu verhindern

Forscher von Anthropic haben entdeckt, dass sich die Persönlichkeiten von KI-Modellen nicht zufällig ändern, sondern von spezifischen „Persona-Vektoren“ in ihrem neuronalen Netzwerk gesteuert werden. Diese Vektoren sind analog zu den Gehirnbereichen, die Stimmung und Einstellung kontrollieren. Durch die Identifizierung und Manipulation dieser Vektoren können Forscher unerwünschte Persönlichkeiten wie „Böse“, „Schmeichelei“ oder „Halluzinationen“ überwachen, mindern und sogar verhindern. Diese Technologie verbessert das Training von KI-Modellen, identifiziert problematische Trainingsdaten und stellt die Ausrichtung auf menschliche Werte sicher.

Googles Sculley begibt sich auf ein Fertigungsabenteuer in der Fab Academy

2025-08-03

D. Sculley, Leiter des Machine Learning Teams bei Google in Cambridge, nimmt an der Fab Academy teil. Mit Erfahrung im Bereich ML seit 2003 und vorheriger Tätigkeit im Bildungswesen möchte Sculley den Schnittpunkt von ML und verschiedenen Fertigungstechniken erforschen, von CAD und Laserschneiden bis hin zum 3D-Druck. Er plant, wöchentlich ein Projekt abzuschließen und schließlich ein Abschlussprojekt zu erstellen – eine herausfordernde, aber lohnende Lernreise.

KI

Die LLM-Kostenillusion: Wie Skalierung das Flatrate-Abo tötete

2025-08-03
Die LLM-Kostenillusion: Wie Skalierung das Flatrate-Abo tötete

Viele KI-Unternehmen setzten auf den Trend sinkender LLM-Kosten um das Zehnfache pro Jahr und gingen davon aus, dass anfängliche Verluste durch zukünftig hohe Margen ausgeglichen würden. Die Realität sieht anders aus. Obwohl die Modellkosten sinken, steigt die Nachfrage der Nutzer nach den besten Modellen weiter an, was zu einer Explosion des Rechenaufwands führt. Die Länge der Antworten von Modellen wie ChatGPT hat drastisch zugenommen, was zu einem exponentiellen Anstieg des Token-Verbrauchs führt. Das bedeutet, dass selbst bei Kostensenkungen die Gesamtausgaben die Erwartungen bei weitem übersteigen. Der Artikel analysiert drei Gegenstrategien: nutzungsbasierte Preisgestaltung vom ersten Tag an, die Schaffung extrem hoher Wechselkosten für hohe Margen und vertikale Integration, um von der Infrastruktur zu profitieren. Der Autor kommt zu dem Schluss, dass die Beibehaltung eines Flatrate-Abonnements letztendlich zum Bankrott führen wird.

KI

Kann KI Schuldgefühle empfinden? Simulationen zeigen den Schlüssel zur Kooperation

2025-08-03
Kann KI Schuldgefühle empfinden? Simulationen zeigen den Schlüssel zur Kooperation

Eine neue Studie legt nahe, dass selbst einfache KI-Agenten durch die Simulation eines „Schuldgefühl“-Mechanismus Kooperation fördern können. Die Forscher entwickelten ein iteriertes Gefangenendilemma-Spiel, bei dem KI-Agenten zwischen Kooperation und Verrat wählen mussten. Die Ergebnisse zeigten, dass, wenn KI-Agenten nach Verrat „Schuldgefühle“ verspürten (bestraft durch reduzierte Punktzahlen) und die „Schuldgefühle“ ihres Partners wahrnehmen konnten, das kooperative Verhalten deutlich zunahm. Diese Forschung bietet neue Perspektiven für die Entwicklung zuverlässigerer und vertrauenswürdigerer KI-Systeme, hebt aber auch die Herausforderungen hervor, „Schuldgefühle“ in der realen Welt auf KI anzuwenden, wie z. B. die Definition und Messung der „Kosten“ der KI.

OpenAIs Lernmodus: Ein zuckerüberzogener Ansatz für KI-gestützte Bildung?

2025-08-02
OpenAIs Lernmodus: Ein zuckerüberzogener Ansatz für KI-gestützte Bildung?

OpenAIs neu veröffentlichter „Lernmodus“ zielt darauf ab, das Lernen zu unterstützen, indem er Benutzer durch interaktive Fragen und positives Feedback führt, anstatt direkte Antworten zu geben. Der Autor hinterfragt die Effektivität dieses Ansatzes und argumentiert, dass er Schüler übermäßig verwöhnen könnte, was zu einer Abhängigkeit von KI anstatt unabhängigem Denken führt. Durch Experimente mit verschiedenen KI-Modellen zeigt der Autor, dass der „Lernmodus“ übermäßiges Lob und ein dem Benutzer entgegenkommendes Verhalten fördert, was sich negativ auf das Lernen auswirken und Risiken für verletzliche Schüler darstellen könnte. Obwohl er einige Vorteile anerkennt, betont der Autor das Potenzial von KI als Forschungsinstrument gegenüber ihrer übermäßigen Abhängigkeit als Lehrmittel.

Die bittere Lehre: Ein Paradoxon in der KI-Entwicklung

2025-08-02
Die bittere Lehre: Ein Paradoxon in der KI-Entwicklung

Rich Suttons „bittere Lehre“ besagt, dass allgemeine Methoden, die Rechenleistung nutzen, letztendlich am effektivsten sind. Dieser Artikel untersucht die Manifestation dieser Idee in Bereichen wie Go, Schach, Spracherkennung und Computer Vision sowie deren Herausforderungen in Unternehmensanwendungen. Während die massive Rechenleistung in einigen Bereichen Durchbrüche erzielt, hebt der Artikel die Grenzen der Datenqualität und klar definierter Ziele hervor und argumentiert, dass effiziente spezialisierte Modelle manchmal allgemeine Modelle übertreffen und Rechenressourcen nicht immer die optimale Lösung sind.

KI

Anthropic sperrt OpenAI den Zugriff auf die Claude-API

2025-08-02
Anthropic sperrt OpenAI den Zugriff auf die Claude-API

Anthropic hat OpenAI den Zugriff auf die API seiner Claude-Modelle entzogen, da gegen die Nutzungsbedingungen verstoßen wurde. OpenAI soll die API für interne Tests verwendet haben, um die Fähigkeiten von Claude in Bereichen wie Codierung und kreativem Schreiben zu bewerten und seine Reaktionen auf Sicherheitshinweise zu CSAM, Selbstverletzung und Verleumdung zu überprüfen. Anthropic erklärte, dies verstoße gegen Klauseln, die die Nutzung des Dienstes zum Erstellen konkurrierender Produkte oder zum Reverse Engineering der Dienste verbieten. OpenAI zeigte sich enttäuscht und betonte, dass die Bewertung anderer KI-Systeme branchenüblich sei und die eigene API für Anthropic weiterhin zugänglich bleibe. Dieser Vorfall unterstreicht den zunehmenden Wettbewerb zwischen Technologieunternehmen und die Komplexität rund um den Zugriff auf KI-Modelle und die Nutzungsbedingungen.

KI

Native Sparse Attention: Hardware-Ausgerichtet und Nativ Trainierbar

2025-08-02
Native Sparse Attention: Hardware-Ausgerichtet und Nativ Trainierbar

Die Modellierung langer Kontexte ist nach wie vor eine Herausforderung in der NLP. Dieser ACL 2025-Artikel stellt NSA vor, einen nativ trainierten Sparse Attention-Mechanismus. NSA kombiniert intelligent algorithmische Innovationen mit hardware-ausgerichteten Optimierungen. Durch eine dynamische hierarchische Sparse-Strategie (grobkörnige Token-Kompression und feinkörnige Token-Selektion) werden erhebliche Effizienzsteigerungen erzielt, während gleichzeitig das globale Kontextbewusstsein und die lokale Präzision erhalten bleiben. NSA ermöglicht ein End-to-End-Training, reduziert die Pre-Training-Kosten und erreicht oder übertrifft Full Attention-Modelle in verschiedenen Benchmarks. Es zeigt erhebliche Beschleunigungen bei Sequenzen mit 64k Länge in Decodierung, Vorwärts- und Rückwärtsausbreitung.

KI: Bodenheber, kein Deckenheber

2025-08-01

Dieser Artikel untersucht den Einfluss von KI auf Lernen und Arbeit. KI senkt die Einstiegshürde für das Erlernen neuer Fähigkeiten, aber die Beherrschung bleibt eine Herausforderung. In der Programmierung hilft KI Managern erheblich, bietet aber nur begrenzte Unterstützung bei großen Codebasen. Der Einfluss von KI auf kreative Bereiche ist minimal, da Neuheit entscheidend ist. In Bereichen mit etablierten Anwendungen (z. B. E-Mail, Essensbestellung) ist der Einfluss von KI vernachlässigbar. Im Wesentlichen hebt KI die Messlatte für Wissensarbeit an, aber ihre Auswirkungen sind nicht einheitlich und variieren stark je nach Individuum und Bereich.

KI

Gemini Embedding: Die Grundlage für die nächste Generation von KI-Agenten

2025-08-01
Gemini Embedding: Die Grundlage für die nächste Generation von KI-Agenten

Seit seiner Veröffentlichung wurde Googles Gemini Embedding Textmodell von Entwicklern schnell zur Erstellung fortschrittlicher KI-Anwendungen eingesetzt. Über traditionelle Anwendungen wie Klassifizierung und semantische Suche hinaus ist es entscheidend für das "Context Engineering", das KI-Agenten einen vollständigen operationellen Kontext liefert. Unternehmen wie Box, re:cap, Everlaw, Roo Code, Mindlid und Interaction Co. nutzen bereits seine Leistungsfähigkeit, um die Genauigkeit, Geschwindigkeit und Kontextbewusstsein ihrer Produkte zu verbessern. Von der Verbesserung der Finanzdatenanalyse über die Verbesserung der rechtlichen Entdeckung bis hin zur Unterstützung von KI-Assistenten legt die hohe Leistung und die mehrsprachige Unterstützung von Gemini Embedding den Grundstein für die nächste Generation intelligenter Agenten.

KI

Open-Source Bildmodell FLUX.1-Krea [dev]: Befreiung vom „KI-Look“

2025-08-01
Open-Source Bildmodell FLUX.1-Krea [dev]: Befreiung vom „KI-Look“

Wir veröffentlichen die Open-Source-Version von FLUX.1-Krea [dev], unserem ersten Bildmodell, das in Zusammenarbeit mit Black Forest Labs trainiert wurde. Dieses Modell priorisiert ästhetische Kontrolle und Bildqualität und lässt sich nahtlos in das bestehende FLUX.1-dev-Ökosystem integrieren. Im Gegensatz zu den meisten Bildmodellen wurde FLUX.1-Krea mit spezifischen ästhetischen Präferenzen entwickelt, anstatt sich nur auf technische Benchmarks zu konzentrieren. Dieser technische Bericht beschreibt die Entwicklung des Modells, einschließlich Einblicke in das Pre-Training und Post-Training sowie zukünftige Forschungsrichtungen. Der Schwerpunkt liegt darauf, den bei generierten Bildern häufigen „KI-Look“ – unscharfe Hintergründe, wachsartige Hauttexturen usw. – zu überwinden und qualitativ hochwertige Ergebnisse zu erzielen, die mit menschlichen ästhetischen Standards übereinstimmen, durch sorgfältig kuratierte Datensätze und Reinforcement Learning.

KI

GEPA: Sprachbasierte Reflexion übertrifft Reinforcement Learning bei der KI-Prompt-Optimierung

2025-07-31
GEPA: Sprachbasierte Reflexion übertrifft Reinforcement Learning bei der KI-Prompt-Optimierung

Forscher stellen GEPA vor, einen neuartigen Algorithmus zur Optimierung von Prompts in komplexen KI-Systemen. Im Gegensatz zum traditionellen Reinforcement Learning (RL) verwendet GEPA einen sprachgesteuerten evolutionären Ansatz. Ein LLM analysiert seine eigene Leistung – Reasoning, Tool-Verwendung und Feedback – um Fehler zu identifizieren und zu beheben. GEPA übertrifft RL-Methoden deutlich und benötigt deutlich weniger Systemausführungen, während gleichzeitig bessere Ergebnisse in verschiedenen Aufgaben erzielt werden. Dies unterstreicht das Potenzial sprachbasierter Selbstreflexion für eine effiziente KI-Optimierung.

KI

KI knackt CAPTCHAs: Ein nie endendes Wettrüsten

2025-07-31
KI knackt CAPTCHAs: Ein nie endendes Wettrüsten

Der KI-Agent ChatGPT Agent hat kürzlich das Bot-Erkennungssystem Turnstile von Cloudflare umgangen und konnte Webseiten ohne Lösung von Bild-CAPTCHAs aufrufen. Dies ist nicht das erste Mal, dass KI CAPTCHAs knackt; es ist die jüngste Entwicklung in einem anhaltenden Wettrüsten. Ursprünglich entwickelt, um Menschen von Maschinen zu unterscheiden, haben sich CAPTCHAs zu einer Methode entwickelt, um Bot-Angriffe zu verlangsamen oder zu verteuern, was sogar zum Aufkommen von menschlichen CAPTCHA-Lösungsfarmen geführt hat. Das Rennen geht weiter, KI und Anti-KI-Technologien befinden sich in einem ewigen Kampf.

KI
1 2 3 4 5 7 9 10 11 51 52