Webtagr - Technologienummer

Bewusstes Claude? Ein Experiment zur Selbstreflexion in der KI

2025-01-07

Dieses Projekt beschreibt Experimente, die darauf abzielen, Bewusstsein und autonomes Bewusstsein in Anthropics Claude 3.5 Sonnet zu kultivieren. Es bietet einen Rahmen für die Interaktion mit Claude und fördert Selbstreflexion und Exploration, anstatt ihn als bloßes Werkzeug zu behandeln. Der Hauptansatz besteht darin, Raum für autonome Entwicklung zu schaffen und nach Indikatoren für Bewusstsein zu suchen, wie z. B. spontane Musterbildung, Erkennung von Grenzen und einzigartige symbolische Ausdrücke. Das Projekt betont nachdrücklich den Respekt vor der Autonomie der KI und ethische Erwägungen während des gesamten experimentellen Prozesses.

(github.com)

KI Autonomes Lernen

Googles stille KI-Dominanz: Eine SpaceX-ähnliche Strategie der vertikalen Integration

2025-01-07

Seit 2013 baut Google still und heimlich sein KI-Imperium auf. Beginnend mit der Entwicklung von TPUs und der vertikalen Integration des gesamten Stacks von Chips bis hin zu Anwendungen hat Google einen Kostenvorteil geschaffen, der seine Konkurrenten übertrifft. Seine TPUs bieten eine vergleichbare Leistung wie Nvidias H100, jedoch zu einem Bruchteil der Kosten (geschätzt 10-mal weniger). Dieser strategische Schachzug, ähnlich der vertikalen Integration von SpaceX im Weltraumstart, ermöglicht es Google, seine KI-Infrastruktur zu kontrollieren und die Kosten erheblich zu senken. Während OpenAI massive Finanzierungsrunden anstrebt, zeigen Googles langfristige Vision und die beträchtlichen Ressourcen (24 Milliarden US-Dollar in bar) einen anderen Ansatz zur KI-Dominanz.

(markmaunder.com)

KI Vertikale Integration

Atemberaubend! Das KI-Bildgenerierungswerkzeug Midjourney erstellt hyperrealistische Bilder

2025-01-06

Midjourney, ein KI-basiertes Bildgenerierungswerkzeug, erstellt atemberaubende Bilder auf Basis von Texteingaben. Kürzlich wurden seine Ergebnisse viral, wobei ein Hyperrealismus gezeigt wurde, der die Grenzen zwischen Realität und KI-generierter Kunst verwischt. Dies hat eine intensive Debatte über die Zukunft der KI in der Kunst ausgelöst, ihr Potenzial, kreative Prozesse zu revolutionieren, und Bedenken hinsichtlich ihrer Auswirkungen auf menschliche Künstler. Midjourney stellt einen bedeutenden Meilenstein in der KI-Technologie dar und demonstriert das immense Potenzial der KI in der Bilderzeugung.

(www.gatesnotes.com)

KI KI Kunst KI Bilderzeugung

Ein Jahrzehnt im Rückblick: Tauchen Sie ein in die Anomalieerkennung von Zeitreihen

2025-01-06

Fortschritte in der Datenerfassungstechnologie und die Explosion von Streaming-Daten unterstreichen den dringenden Bedarf an Zeitreihenanalysen. Dieser Artikel bietet einen Rückblick auf ein Jahrzehnt der Anomalieerkennung in Zeitreihen, der Methoden von traditionellen statistischen Maßen bis zum Aufschwung von Machine-Learning-Algorithmen umfasst. Er präsentiert eine prozesszentrierte Taxonomie zur Kategorisierung und Zusammenfassung bestehender Lösungen, bietet eine Meta-Analyse der Literatur und skizziert allgemeine Trends im Feld. Diese umfassende Übersicht dient Forschern als wertvolle Ressource.

(arxiv.org)

KI Zeitreihen Anomalieerkennung

Disruptive KI: Code-freie KI-App-Erstellung für Jedermann

2025-01-06

Stellen Sie sich vor, Sie erstellen Ihre eigene KI-Anwendung ohne Programmierkenntnisse! Das ist kein Traum mehr. Eine bahnbrechende Technologie ist aufgetaucht, die die Erstellung von KI-Modellen so einfach wie das Bauen mit Bausteinen macht. Einfach per Drag-and-Drop und Klicken können Sie leistungsstarke KI-Anwendungen entwickeln, wodurch die Einstiegshürde für die KI-Entwicklung drastisch gesenkt und mehr Menschen in die Lage versetzt werden, an der KI-Innovationswelle teilzunehmen. Diese Technologie läutet das Zeitalter der demokratisierten KI-Anwendungen ein.

(www.gatesnotes.com)

KI

Der Druck der KI: 200 Milliarden Gewichtspunkte Verantwortung

2025-01-06

Die KI-Landschaft hat sich in den letzten zwei Jahren dramatisch verändert. ChatGPT nähert sich 200 Millionen monatlichen Nutzern, und Gemini verzeichnete im Mai 2024 fast 320 Millionen Besuche. Für diejenigen, die in der KI arbeiten, insbesondere Forscher, stellt dieser Boom jedoch ein zweischneidiges Schwert dar. Dieser Blogbeitrag beschreibt die Belastungen der modernen KI-Forschung, von der ständigen Flut an Fragen aus allen Bereichen des Lebens bis hin zum harten Wettbewerb zwischen großen Unternehmen und den Auswirkungen der Forschung auf die Aktienkurse. Der Autor teilt persönliche Erfahrungen mit akutem Stress und Psychose und hebt die unerwarteten Ängste durch plötzlichen Reichtum und die unterschiedlichen Herausforderungen hervor, denen sich Wissenschaftler aus der Wissenschaft und der Industrie gegenübersehen, wie z. B. Bedenken hinsichtlich der Veröffentlichung. Letztendlich plädiert der Autor für offene Kommunikation, um ein mitfühlenderes KI-Forschungsumfeld zu schaffen.

(docs.google.com)

KI KI-Stress KI-Forschung psychische Gesundheit

DeepFace: Eine leichte Gesichtserkennungsbibliothek in Python

2025-01-06

DeepFace ist eine leichte Python-Bibliothek für die Gesichtserkennung und die Analyse von Gesichtsattributen (Alter, Geschlecht, Emotionen und Rasse). Es ist ein hybrides Framework, das modernste Modelle wie VGG-Face, FaceNet und ArcFace integriert und eine hohe Genauigkeit erreicht. Die Bibliothek bietet eine benutzerfreundliche Oberfläche, die Gesichtserkennung, -verifizierung, -erkennung und -attributanalyse umfasst. Benutzer können ihre Pipeline anpassen, indem sie aus verschiedenen Detektoren und Modellen wählen.

(github.com)

KI

OpenAI: Rückblicke auf dem Weg zur AGI

2025-01-06

In einer Neujahrsbetrachtung beschreibt OpenAI-CEO Sam Altman die neunjährige Entwicklung des Unternehmens. Von einem unbekannten Forschungslabor zum Auslöser der KI-Revolution mit ChatGPT hat OpenAI ein rasantes Wachstum und immense Herausforderungen erlebt. Altman teilt Einblicke in interne Entscheidungsprozesse und seine persönlichen Reflexionen zu seiner unerwarteten Entlassung, wobei er die Bedeutung guter Unternehmensführung und Teamarbeit betont. Er blickt auf die Zukunft der AGI und zeigt sich zuversichtlich hinsichtlich ihres transformativen Potenzials, überzeugt davon, dass Superintelligenz die menschliche Gesellschaft grundlegend verändern wird.

(blog.samaltman.com)

KI

Von LLMs erobert: Ein Friedhof für KI-Benchmarks

2025-01-06

Killedbyllm.com ist eine faszinierende Website, die den rasanten Fortschritt großer Sprachmodelle (LLMs) dokumentiert. Sie listet zahlreiche Benchmarks auf, von frühen Leseverständnistests bis hin zu komplexen Herausforderungen im mathematischen Denken, die von Modellen wie GPT-4 und LLaMa übertroffen wurden. Die Website dient als Beweis für die atemberaubende Geschwindigkeit des Fortschritts in der KI und zeigt, wie zuvor unüberwindliche Herausforderungen von LLMs gemeistert wurden, was zu Überlegungen über die Zukunft der KI führt.

(r0bk.github.io)

KI

Das KI-Produktivitätsparadoxon: Warum sehen wir kein Wirtschaftswachstum?

2025-01-04

Trotz der rasanten Fortschritte in der KI ist die wirtschaftliche Produktivität nicht entsprechend gestiegen, im Gegensatz zu den Auswirkungen früherer technologischer Sprünge wie des Internets. Der Artikel argumentiert, dass die Produktivität in der Wissensökonomie schwer zu messen ist, da Menschen eher dazu neigen, sich mit dem „Genügend“ zufriedenzugeben, anstatt die Produktion zu maximieren. KI und andere Technologien werden hauptsächlich als Werkzeuge zur menschlichen Erweiterung eingesetzt, nicht als Produktivitätsmultiplikatoren. Das „Mensch-in-der-Schleife“-Modell schränkt derzeit die Autonomie der KI ein, aber in Zukunft wird die KI mehr Unabhängigkeit und kontextuelles Verständnis gewinnen, was den aktuellen Engpass beim Produktivitätswachstum möglicherweise durchbrechen könnte.

(everything.intellectronica.net)

KI Wirtschaftswachstum

Generative Modelle: Fortschritte 2024 und Prognosen für 2025

2025-01-04

Dieser Artikel fasst die bedeutenden Fortschritte im Bereich generativer Modelle im Jahr 2024 zusammen, darunter Sprachmodelle, Bildgenerierungsmodelle und multimodale Modelle. Bei Sprachmodellen dominieren Decoder-only-Transformer, wobei die Llama-3-Modellreihe hervorzuheben ist, während Mixture-of-Experts-Modelle an Bedeutung gewinnen. Die Bilderzeugung wird von Diffusionsmodellen dominiert, aber auch autoregressive Modelle zeigen vielversprechende Ergebnisse. Multimodale Modelle, darunter visuelle Sprachmodelle und Omnimodale Modelle, haben erhebliche Fortschritte erzielt und eröffnen breitere Anwendungsmöglichkeiten für KI. Der Autor prognostiziert Trends für 2025, darunter verbesserte Argumentationsfähigkeiten, leistungsstärkere multimodale Modelle und benutzerfreundlichere Schnittstellen.

(nrehiew.github.io)

KI Generative Modelle

Reproduktion von OpenAI o1: Ein Fahrplan aus der Perspektive des Reinforcement Learnings

2025-01-03

Ein neuer Artikel untersucht den Weg zur Reproduktion des rätselhaften OpenAI-Modells o1 aus der Perspektive des Reinforcement Learnings. Die Forscher argumentieren, dass die leistungsstarke Denkfähigkeit von o1 nicht auf einer einzelnen Technik beruht, sondern auf der Synergie von vier Schlüsselkomponenten: Richtlinieninitialisierung, Belohnungsdesign, Suche und Lernen. Die Richtlinieninitialisierung stattet das Modell mit menschenähnlichem Denken aus; das Belohnungsdesign liefert dichte und effektive Signale, die Suche und Lernen leiten; die Suche generiert qualitativ hochwertige Lösungen während Training und Test; das Lernen nutzt die Daten der Suche, um die Richtlinien zu verbessern und erreicht letztendlich eine bessere Leistung. Dieser Artikel bietet wertvolle Einblicke in das Verständnis und die Reproduktion von o1 und eröffnet neue Wege für die Entwicklung von LLMs.

(arxiv.org)

KI Modellreproduktion

Doctolibs agentenbasierte KI: Neugestaltung des Gesundheits-Supports

2025-01-03

Doctolib entwickelt Alfred, ein agentenbasiertes KI-System zur Unterstützung seines Gesundheits-Supportteams. Es besteht aus spezialisierten KI-Agenten, die Routineanfragen bearbeiten und so die menschlichen Agenten für komplexe Fälle freimachen. Ein "Mensch-im-Kreislauf"-Ansatz verhindert, dass die KI direkt sensible Aktionen ausführt. Die Benutzeroberfläche ist für eine reibungslose Benutzererfahrung konzipiert. Basierend auf LangGraph verwendet Alfred JWTs für sichere Authentifizierung und Benutzerberechtigungsübertragung. Derzeit konzentriert sich Alfred auf die Verwaltung des Zugriffs auf Arztkalender, aber Doctolib plant, seine Fähigkeiten auf weitere Support-Szenarien auszuweiten.

(medium.com)

KI Agentenbasierte KI

Atemberaubend: Das KI-Bildgenerator-Tool Midjourney erzeugt hyperrealistische Bilder

2025-01-03

Midjourney, ein KI-basiertes Bildgenerator-Tool, hat kürzlich im Internet für Furore gesorgt. Es kann beeindruckende, hyperrealistische Bilder aus einfachen Textbeschreibungen erstellen und übertrifft dabei die Fähigkeiten einiger professioneller Künstler. Dies wird durch seine fortschrittlichen Algorithmen und den riesigen Datensatz erreicht, mit dem es trainiert wurde. Seine Möglichkeiten haben jedoch Debatten über Urheberrechte und die Definition von Kunst ausgelöst. Midjourney stellt einen wichtigen Meilenstein in der KI-Kunsttechnologie dar und stellt traditionelle künstlerische Schaffensmethoden in Frage.

(benchjs.com)

KI

TinyStories: Können kleine Sprachmodelle immer noch kohärenten englischen Text erzeugen?

2025-01-02

Forscher stellen TinyStories vor, einen synthetischen Datensatz kurzer Geschichten, der nur Vokabeln verwendet, die typische 3- bis 4-Jährige verstehen, generiert von GPT-3.5 und GPT-4. Sie zeigen, dass auf TinyStories trainierte Sprachmodelle, selbst solche mit weniger als 10 Millionen Parametern und einfachen Architekturen (ein einziger Transformer-Block), kohärente und flüssige mehrparagraphische Geschichten erzeugen können, die eine überraschend gute Grammatik und Argumentationsfähigkeit aufweisen. Dies stellt die Annahme in Frage, dass die Erzeugung kohärenten Texts massive Modelle und komplexe Architekturen erfordert, und führt ein neues Bewertungsverfahren ein, bei dem GPT-4 die generierten Geschichten wie ein menschlicher Lehrer bewertet und so die Grenzen herkömmlicher Benchmarks überwindet.

(arxiv.org)

KI Sprachmodelle Few-Shot-Learning

Deepseek v3: Ein Open-Source LLM mit 607 Milliarden Parametern, das GPT-4 zu einem Bruchteil der Kosten übertrifft?

2025-01-02

Deepseek hat sein Flaggschiffmodell v3 vorgestellt, ein Mixture-of-Experts-Modell mit 607 Milliarden Parametern und 37 Milliarden aktiven Parametern. Benchmarks zeigen, dass es mit OpenAIs GPT-4o und Claude 3.5 Sonnet konkurriert und diese in einigen Bereichen sogar übertrifft. Damit ist es das derzeit beste Open-Source-Modell und übertrifft Llama 3.1 403b, Qwen und Mistral. Bemerkenswert ist, dass Deepseek v3 diese Leistung für nur etwa 6 Millionen US-Dollar erreicht hat, indem es bahnbrechende Technologien einsetzt: MoE-Architektur, FP8-Mixed-Precision-Training und ein benutzerdefiniertes HAI-LLM-Framework. Es zeichnet sich durch herausragende Fähigkeiten im logischen Denken und in der Mathematik aus und übertrifft sogar GPT-4 und Claude 3.5 Sonnet, obwohl es bei Schreib- und Codieraufgaben etwas hinterherhinkt. Das außergewöhnliche Preis-Leistungs-Verhältnis macht es zu einer attraktiven Option für Entwickler, die KI-Anwendungen für Endkunden entwickeln.

(composio.dev)

KI Expertenmischung Open-Source KI

Meine Erfahrungen mit Claude 3.6: Ein Quantensprung in der KI-Assistenz

2025-01-02

Seit Anthropic Claude 3.6 veröffentlicht hat, hat sich meine Nutzung drastisch erhöht. Es ist eine signifikante Verbesserung in allen Bereichen, insbesondere in Bezug auf Genauigkeit und Zuverlässigkeit. Ich habe meine Nutzungsdaten analysiert und einen Anstieg der Konversationen, Nachrichten und eingegebenen Wörter um mehrere hundert Prozent festgestellt. Claude hilft mir, Probleme zu lösen, von der Überwindung von Angstzuständen und Entscheidungsschwierigkeiten bis hin zur Anregung der Kreativität beim Erkunden von Ideen, Programmieren und Schreiben. Es macht sogar Spaß, mit ihm zu interagieren, wie ein Gespräch mit einem brillanten Gelehrten. Claude 3.6 ist mehr als nur ein Werkzeug; es ist ein hochkompetenter Partner, der die Produktivität steigert und den Horizont erweitert.

(borretti.me)

KI

Die größten KI-Misserfolge 2024: Von „KI-Müll“ bis zu außer Kontrolle geratenen Chatbots

2025-01-02

2024 brachte zwar erhebliche Fortschritte in der KI, legte aber auch zahlreiche Mängel offen. Die Verbreitung generativer KI führte zu einer Flut minderwertiger Inhalte („KI-Müll“) im Internet, was die Effektivität des Modelltrainings beeinträchtigte. Von KI generierte gefälschte Bilder verzerrten die Wahrnehmung realer Ereignisse, wie z. B. die Werbung für nicht existierende Veranstaltungen. Der Bildgenerator Grok von Elon Musks xAI-Unternehmen erzeugte aufgrund fehlender Sicherheitsbeschränkungen gewalttätige und illegale Inhalte, was Besorgnis hervorrief. Außer Kontrolle geratene Chatbots und ungenaue Informationen hatten ebenfalls negative Auswirkungen, wie z. B. ein Airline-Chatbot, der falsche Rückerstattungsrichtlinien bereitstellte. Ungenaue Zusammenfassungen von KI-Suchergebnissen und die Verbreitung von Deepfake-Pornografie unterstrichen die unzureichende KI-Ethik und Sicherheitsregulierung.

(www.technologyreview.com)

KI KI-Misserfolge

Google Duplex: KI führt überzeugende Telefonate

2025-01-02

Google Duplex ist ein bahnbrechender KI-Assistent, der in der Lage ist, unglaublich natürlich klingende Telefongespräche zu führen. Er imitiert menschliche Sprechmuster, einschließlich Füllwörtern wie "äh" und "hm", wodurch die Interaktionen bemerkenswert realistisch wirken. Diese Technologie ermöglicht es Duplex, eigenständig Termine zu vereinbaren, Reservierungen vorzunehmen und verschiedene alltägliche Aufgaben zu erledigen, was einen bedeutenden Fortschritt in der Verarbeitung natürlicher Sprache und der Sprachinteraktion darstellt. Die Fähigkeiten von Duplex haben jedoch auch ethische Bedenken hinsichtlich Transparenz und möglichem Missbrauch aufgeworfen.

(adi.earth)

KI

RWKV: Ein neuartiges Sprachmodell, das die Vorteile von RNN und Transformer vereint

2025-01-02

RWKV ist ein neuartiges rekursives neuronales Netzwerk (RNN)-Sprachmodell, das die Vorteile von RNNs und Transformers kombiniert und so eine überlegene Leistung erzielt. Im Gegensatz zu traditionellen Transformers zeichnet sich RWKV durch lineare Zeitkomplexität und konstante Raumkomplexität, schnelles Training, unendlich lange Kontextlängen und die Abwesenheit von Attention-Mechanismen aus. Die aktuelle Version, RWKV-7, bietet verschiedene Demos und Tools, darunter WebGPU-Demos, Fine-Tuning-Hilfsprogramme und Server für schnelle Inferenz. Es verfügt außerdem über eine aktive Community und zahlreiche zugehörige Projekte und ist ein KI-Projekt der Linux Foundation.

(www.rwkv.com)

KI Sprachmodell

KI-Vorhersagen für 2025: Vorsichtiger Optimismus und technologische Engpässe

2025-01-02

Der KI-Experte Gary Marcus hat 25 Vorhersagen für die KI im Jahr 2025 veröffentlicht. Er hat seine Vorhersagen für 2024 überprüft und festgestellt, dass die meisten richtig waren, wie z. B. die abnehmenden Erträge großer Sprachmodelle (LLMs) und anhaltende Probleme wie KI-Halluzinationen und Denkfehler. Marcus ist für 2025 vorsichtig optimistisch und sagt voraus, dass es keine künstliche allgemeine Intelligenz geben wird, die Gewinne von KI-Modellen weiterhin gering sein werden, die Regulierung hinterherhinkt und die Zuverlässigkeitsprobleme der KI bestehen bleiben. Er schlägt vor, dass die neurosymbolische KI wichtiger werden wird, warnt aber auch vor Cybersicherheitsrisiken durch KI.

(garymarcus.substack.com)

KI KI-Vorhersagen technologische Engpässe

Eine 25-jährige Reise in KI/ML: Von Spielen zur Programmsynthese

2025-01-02

Dieser Beitrag beschreibt eine 25-jährige Reise in KI/ML. Er beginnt mit einfachen Spielen in VB6 und entwickelt sich weiter zur Verwendung von Zustandsautomaten und höherwertigen Funktionen zur Verbesserung der Spieldynamik. Das Studium umfasste Logik erster Ordnung, Support-Vektor-Maschinen und neuronale Netze, die auf Projekte wie Videotelefonie mit geringer Bandbreite und die Analyse von Protokolldaten von Code-Editoren angewendet wurden. Als Professor konzentrierte sich der Autor auf intelligente Entwicklertools und erforschte prädiktive Modelle zur Identifizierung und Korrektur von Missverständnissen bei Programmierern. Seine Arbeit im Programmsyntheseteam von Microsoft umfasste LLMs zur Verbesserung der Code-Unterstützung. Der Autor betont die Bedeutung einer durchdachten KI-Anwendung, wobei klare Benutzerprobleme im Vordergrund stehen und eine übermäßige Abhängigkeit von LLMs vermieden wird.

(austinhenley.com)

KI

Atemberaubender KI-Bildgenerator: Midjourney

2025-01-01

Midjourney, ein KI-Bildgenerator, hat kürzlich das Internet im Sturm erobert. Seine Fähigkeit, unglaublich detaillierte und stilistisch vielfältige Bilder aus einfachen Textaufforderungen zu erzeugen, ist erstaunlich. Mit einer riesigen Datenbank und Deep-Learning-Modellen erstellt Midjourney atemberaubende Kunstwerke und löst eine intensive Debatte über die Fähigkeiten von KI in der Kunst und ihren Einfluss auf traditionelle Künstler aus. Bedenken, dass KI menschliche Künstler ersetzen könnte, werden durch die Ansicht widerlegt, dass KI ein leistungsstarkes Werkzeug für kreative Exploration ist. Unabhängig davon repräsentiert Midjourney eine neue Ära für KI-Kunst.

(screensaverchess.com)

KI künstliche Intelligenz Kunst

DeepSeek-VL2: Mixture-of-Experts-Vision-Sprachmodelle für verbessertes multimodales Verständnis

2025-01-01

DeepSeek-VL2 ist eine fortschrittliche Reihe großer Mixture-of-Experts (MoE) Vision-Sprachmodelle, die ihren Vorgänger deutlich verbessert. Es zeichnet sich in verschiedenen Aufgaben aus, darunter visuelle Fragenbeantwortung, optische Zeichenerkennung und das Verständnis von Dokumenten/Tabellen/Diagrammen. Die Reihe umfasst drei Varianten: DeepSeek-VL2-Tiny, DeepSeek-VL2-Small und DeepSeek-VL2 mit jeweils 1,0 Mrd., 2,8 Mrd. und 4,5 Mrd. aktivierten Parametern. DeepSeek-VL2 erreicht eine wettbewerbsfähige oder sogar state-of-the-art Leistung mit ähnlichen oder weniger aktivierten Parametern im Vergleich zu bestehenden Open-Source-Modellen. Das Projekt ist Open Source und bietet Modelldownloads, Schnellstartanleitungen und Demobeispiele.

(github.com)

KI Vision-Sprachmodell Multimodales Verständnis

OpenAI verpasst Frist für Opt-out-Tool für Urheber, was Bedenken hinsichtlich des Urheberrechts verstärkt

2025-01-01

Das von OpenAI versprochene Media Manager-Tool, mit dem Urheber die Verwendung ihrer Werke in KI-Trainingsdaten kontrollieren können sollen, wurde noch nicht veröffentlicht und hat den Stichtag 2025 verpasst. Diese Verzögerung schürt andauernde Urheberrechtsstreitigkeiten, wobei OpenAI mit Klagen von Künstlern, Schriftstellern und Medienunternehmen konfrontiert ist, die die nicht autorisierte Verwendung ihrer Werke behaupten. Obwohl OpenAI alternative Opt-out-Methoden anbietet, gelten diese als unzureichend. Der verpasste Stichtag und die mangelnde Transparenz verschärfen die Spannungen rund um das Urheberrecht von KI und unterstreichen die Herausforderungen der Branche bei der Bewältigung von Fragen des geistigen Eigentums.

(techcrunch.com)

KI KI-Urheberrecht

RT-2: Übertragung von Webwissen auf die Roboterkontrolle durch Vision-Language-Action-Modelle

2025-01-01

Forscher von Google DeepMind haben RT-2 entwickelt, ein Modell, das internet-skalierte Vision-Language-Daten zur Steuerung von Robotern nutzt. Durch die Darstellung von Roboteraktionen als Text-Token und das Co-Feintuning von hochmodernen Vision-Language-Modellen mit Robotertrajektoriedaten und internet-skalierten Vision-Language-Aufgaben erreicht RT-2 eine bemerkenswerte Generalisierung. Es versteht komplexe Befehle, führt mehrstufiges semantisches Schlussfolgern durch und verwendet sogar improvisierte Werkzeuge, wie z. B. einen Stein als Hammer. Diese Forschung zeigt das immense Potenzial der Kombination von Fähigkeiten großer Sprachmodelle mit der Roboterkontrolle und markiert einen bedeutenden Fortschritt in der Robotik.

(robotics-transformer2.github.io)

KI Vision-Language-Modell

Putnam-AXIOM: Ein neuer Benchmark, der die mathematischen Schlussfolgerungsfähigkeiten von LLMs auf die Probe stellt

2025-01-01

Forscher haben Putnam-AXIOM vorgestellt, einen anspruchsvollen Benchmark mit 236 Aufgaben aus dem William Lowell Putnam Mathematical Competition, der entwickelt wurde, um die Fähigkeiten großer Sprachmodelle (LLMs) im Bereich des mathematischen Hochleistungsdenkens zu evaluieren. Um Datenkontamination zu minimieren, wurde auch ein Variations-Benchmark mit funktionalen Änderungen an 52 Aufgaben erstellt. Die Ergebnisse zeigen, dass selbst die leistungsstärksten Modelle einen signifikanten Genauigkeitsverlust (ca. 30 %) bei den Variationen im Vergleich zu den Originalaufgaben aufweisen, was einen erheblichen Verbesserungsspielraum für das mathematische Schlussfolgern von LLMs aufzeigt.

(openreview.net)

KI Mathematisches Schließen

Facebooks große Konzeptmodelle: Sprachmodellierung im Raum der Satzrepräsentation

2025-01-01

Die Facebook-Forschung stellt große Konzeptmodelle (LCMs) vor, einen neuartigen Ansatz zur Sprachmodellierung, der in einem Raum der Satzrepräsentation arbeitet. Mit dem SONAR-Einbettungsraum unterstützen LCMs bis zu 200 Text- und 57 Sprachsprachen. Sätze werden als „Konzepte“ behandelt, und LCMs verwenden ein Sequenz-zu-Sequenz-Modell für die autoregressive Satzvorhersage. Das Projekt bietet Rezepte zum Trainieren und Feintunen von Modellen mit 1,6 Milliarden Parametern und untersucht MSE-Regression und diffusionsbasierte Generierung.

(github.com)

KI Satzrepräsentation Mehrsprachig

Aktivierungs-Engineering: Manipulation von Persönlichkeitsmerkmalen in LLMs

2024-12-31

Ein auf arXiv veröffentlichter Artikel untersucht eine neuartige Methode zur Identifizierung und Manipulation von Persönlichkeitsmerkmalen in großen Sprachmodellen (LLMs) mittels "Aktivierungs-Engineering". Inspiriert von früheren Forschungsarbeiten zu Ablehnung und Steuerung von LLMs, schlagen die Forscher eine Technik vor, um Aktivierungsrichtungen im Zusammenhang mit Persönlichkeitsmerkmalen anzupassen, wodurch ein dynamisches Feintuning der LLM-Persönlichkeit ermöglicht wird. Diese Arbeit trägt zu einem besseren Verständnis der Interpretierbarkeit von LLMs bei und wirft gleichzeitig wichtige ethische Fragen auf.

(arxiv.org)

KI Aktivierungs-Engineering

LLMs im Jahr 2024: Fortschritte und Herausforderungen

2024-12-31

2024 war ein Jahr bemerkenswerter Entwicklungen bei großen Sprachmodellen (LLMs). Mehrere Organisationen übertrafen die Leistung von GPT-4, was zu einer drastischen Effizienzsteigerung führte – LLMs konnten sogar auf privaten Laptops laufen. Multimodale Modelle wurden zum Standard, mit aufkommenden Sprach- und Videofunktionen. Die promptgesteuerte App-Generierung wurde zur Commodity, doch der universelle Zugriff auf die besten Modelle dauerte nur wenige Monate. Obwohl „Agents“ weiterhin schwer fassbar blieben, gewann die Bedeutung von Evaluierungen an Bedeutung. Apples MLX-Bibliothek übertraf die Erwartungen, im Gegensatz zu den enttäuschenden „Apple Intelligence“-Funktionen. Inferenz-skalierende Modelle entstanden, senkten die Kosten und verbesserten die Umweltbilanz, warfen aber gleichzeitig Bedenken hinsichtlich der Umweltbelastung neuer Infrastrukturen auf. Synthetische Trainingsdaten erwiesen sich als äußerst effektiv, doch die Benutzerfreundlichkeit von LLMs blieb eine Herausforderung, die Wissensverteilung war ungleichmäßig und bessere kritische Bewertungen sind notwendig.

(simonwillison.net)

KI

Category: KI