ELIZA wiederbelebt: Der weltweit erste Chatbot restauriert

2025-01-18
ELIZA wiederbelebt: Der weltweit erste Chatbot restauriert

Forscher haben erfolgreich ELIZA, den weltweit ersten Chatbot, auf einem restaurierten CTSS – dem weltweit ersten Timesharing-System (emuliert auf einem IBM 7094) – wieder zum Leben erweckt. Mittels originaler Ausdrucke, MAD-SLIP-Code und unterstützende Dokumente aus dem Archiv von Prof. Weizenbaum am MIT rekonstruierten sie ELIZA und ihr berühmtes DOCTOR-Skript. Das gesamte Projekt ist Open Source, sodass jeder Benutzer eines Unix-artigen Betriebssystems den bahnbrechenden Chatbot ausführen kann.

Mehr lesen
KI

Die Mathematik hinter dem NYT-Wortspiel 'Waffle' entschlüsselt

2025-01-17
Die Mathematik hinter dem NYT-Wortspiel 'Waffle' entschlüsselt

Ein Artikel auf arXiv untersucht die Mathematik hinter dem täglichen Wortspiel 'Waffle' der New York Times. Der Autor S.P. Glasby erforscht die kombinatorischen Eigenschaften des Spiels und erklärt, warum einige Rätsel einfach und andere außergewöhnlich schwer zu lösen sind. Die Forschung zeigt, dass eine perfekte Lösung genau 11 Bahnen unter den 21 Feldern erfordert, wobei mindestens eine Bahn die Länge 1 hat. Dies liefert einen mathematischen Rahmen, um ähnliche Wortspiele zu verstehen und potenziell zu verbessern.

Mehr lesen
Spiele

Titans: Eine neue neuronale Architektur zum Lernen des Memorierens zur Testzeit

2025-01-16
Titans: Eine neue neuronale Architektur zum Lernen des Memorierens zur Testzeit

Forscher stellen Titans vor, eine neue neuronale Architektur, die ein neuronales Speichermodul mit einem Aufmerksamkeitsmechanismus kombiniert, um den langfristigen historischen Kontext effektiv zu speichern. Im Gegensatz zu traditionellen rekurrenten Modellen und Aufmerksamkeitsmechanismen zeigt Titans höhere Effizienz und Genauigkeit bei der Verarbeitung langer Sequenzen, insbesondere bei "Suche nach der Nadel im Heuhaufen". Es übertrifft Transformer und neuere lineare rekurrente Modelle in verschiedenen Aufgaben, darunter Sprachmodellierung, Common-Sense-Reasoning, Genomik und Zeitreihen, und skaliert auf Kontextfenster von über 2 Millionen Token.

Mehr lesen

Auf dem Weg zum System-2-Schlussfolgern in LLMs: Lernen, mit Meta Chain-of-Thought zu denken

2025-01-10
Auf dem Weg zum System-2-Schlussfolgern in LLMs: Lernen, mit Meta Chain-of-Thought zu denken

Forscher schlagen ein neues Framework namens Meta Chain-of-Thought (Meta-CoT) vor, das das traditionelle Chain-of-Thought (CoT) erweitert, indem es das zugrunde liegende Denken, das zu einem bestimmten CoT führt, explizit modelliert. Meta-CoT nutzt Prozessüberwachung, die Generierung synthetischer Daten und Suchalgorithmen. Der Artikel beschreibt eine konkrete Pipeline zum Training eines Modells zur Erzeugung von Meta-CoTs, die Instruction Tuning mit linearisierten Suchspuren und Reinforcement Learning nach dem Training umfasst. Diese Arbeit liefert eine theoretische und praktische Roadmap zur Ermöglichung von Meta-CoT in LLMs und ebnet den Weg für leistungsfähigeres und menschenähnlicheres Schließen in der künstlichen Intelligenz.

Mehr lesen
KI

Der CAP-Satz in Frage gestellt: Eine Vermutung zum partiellen Fortschritt unter Asynchronität

2025-01-08
Der CAP-Satz in Frage gestellt: Eine Vermutung zum partiellen Fortschritt unter Asynchronität

Ein neuer Artikel stellt den bekannten CAP-Satz in Frage. Die Autoren vermuten, dass partieller Fortschritt bei Netzwerkpartitionen möglich ist, d. h. das System kann für eine Teilmenge von Clients reaktionsfähig bleiben und einen Nicht-Null-Durchsatz bei Ausfällen erreichen. Sie präsentieren das Design ihres CASSANDRA-Konsensusprotokolls, das es partitionierten Replikaten ermöglicht, Client-Anfragen zu ordnen, und bietet somit einen möglichen Weg zu Systemen, die bis zu einem gewissen Grad sowohl konsistent als auch verfügbar sind, selbst bei Partitionen. Diese Forschung bietet einen neuartigen Ansatz zum Aufbau robusterer verteilter Systeme.

Mehr lesen

Ein Jahrzehnt im Rückblick: Tauchen Sie ein in die Anomalieerkennung von Zeitreihen

2025-01-06
Ein Jahrzehnt im Rückblick: Tauchen Sie ein in die Anomalieerkennung von Zeitreihen

Fortschritte in der Datenerfassungstechnologie und die Explosion von Streaming-Daten unterstreichen den dringenden Bedarf an Zeitreihenanalysen. Dieser Artikel bietet einen Rückblick auf ein Jahrzehnt der Anomalieerkennung in Zeitreihen, der Methoden von traditionellen statistischen Maßen bis zum Aufschwung von Machine-Learning-Algorithmen umfasst. Er präsentiert eine prozesszentrierte Taxonomie zur Kategorisierung und Zusammenfassung bestehender Lösungen, bietet eine Meta-Analyse der Literatur und skizziert allgemeine Trends im Feld. Diese umfassende Übersicht dient Forschern als wertvolle Ressource.

Mehr lesen

Wissenschaftler entschlüsseln das Geheimnis der perfekten Cacio e Pepe

2025-01-04
Wissenschaftler entschlüsseln das Geheimnis der perfekten Cacio e Pepe

Ein Team von Wissenschaftlern hat sich mit der kulinarischen Kunst auseinandergesetzt, genauer gesagt mit dem italienischen Klassiker Cacio e Pepe, um die Geheimnisse seiner perfekten cremigen Textur zu lüften. Ihre Forschung ergab, dass die Stärkekonzentration der Schlüsselfaktor für die Stabilität der Sauce ist. Stärkekonzentrationen unter 1 % (bezogen auf die Käsemasse) führen zur Klumpenbildung, ein Phänomen, das als „Mozzarella-Phase“ bezeichnet wird und zu einer separierten und unangenehmen Sauce führt. Die Studie untersuchte auch den Einfluss des Verhältnisses von Käse zu Wasser bei einer festen Stärkekonzentration, wobei eine untere kritische Lösungstemperatur beobachtet und ein minimales effektives Modell der freien Energie entwickelt wurde, um dies zu erklären. Schließlich präsentierten sie ein wissenschaftlich optimiertes Rezept, das eine konstant einwandfreie Cacio e Pepe garantiert.

Mehr lesen

Reproduktion von OpenAI o1: Ein Fahrplan aus der Perspektive des Reinforcement Learnings

2025-01-03
Reproduktion von OpenAI o1: Ein Fahrplan aus der Perspektive des Reinforcement Learnings

Ein neuer Artikel untersucht den Weg zur Reproduktion des rätselhaften OpenAI-Modells o1 aus der Perspektive des Reinforcement Learnings. Die Forscher argumentieren, dass die leistungsstarke Denkfähigkeit von o1 nicht auf einer einzelnen Technik beruht, sondern auf der Synergie von vier Schlüsselkomponenten: Richtlinieninitialisierung, Belohnungsdesign, Suche und Lernen. Die Richtlinieninitialisierung stattet das Modell mit menschenähnlichem Denken aus; das Belohnungsdesign liefert dichte und effektive Signale, die Suche und Lernen leiten; die Suche generiert qualitativ hochwertige Lösungen während Training und Test; das Lernen nutzt die Daten der Suche, um die Richtlinien zu verbessern und erreicht letztendlich eine bessere Leistung. Dieser Artikel bietet wertvolle Einblicke in das Verständnis und die Reproduktion von o1 und eröffnet neue Wege für die Entwicklung von LLMs.

Mehr lesen

4,5 Millionen gefälschte Sterne auf GitHub: Ein schattiger Popularitätswettbewerb

2025-01-02
4,5 Millionen gefälschte Sterne auf GitHub: Ein schattiger Popularitätswettbewerb

Eine neue Studie deckt 4,5 Millionen mutmaßlich gefälschte Sterne auf GitHub auf, die hauptsächlich zur Bewerbung kurzlebiger Malware-Repositories verwendet werden, die als Raubkopien von Software, Spiel-Cheats oder Kryptowährungs-Bots getarnt sind. Die Forscher entwickelten StarScout, ein Tool zum Erkennen anomalen Sternverhaltens. Die Studie zeigt einen rasanten Anstieg gefälschter Sternaktivitäten seit 2024. Während sich gefälschte Sternbeobachter in ihren Profilmerkmalen nicht signifikant von durchschnittlichen Benutzern unterscheiden, sind ihre Aktivitätsmuster höchst ungewöhnlich. Obwohl sie kurzfristige Werbevorteile bieten, werden gefälschte Sterne letztendlich zu einer langfristigen Belastung. Diese Forschung hat erhebliche Auswirkungen auf Plattformmoderatoren, Open-Source-Praktiker und Forscher im Bereich der Lieferketten-Sicherheit.

Mehr lesen
Technologie

TinyStories: Können kleine Sprachmodelle immer noch kohärenten englischen Text erzeugen?

2025-01-02
TinyStories: Können kleine Sprachmodelle immer noch kohärenten englischen Text erzeugen?

Forscher stellen TinyStories vor, einen synthetischen Datensatz kurzer Geschichten, der nur Vokabeln verwendet, die typische 3- bis 4-Jährige verstehen, generiert von GPT-3.5 und GPT-4. Sie zeigen, dass auf TinyStories trainierte Sprachmodelle, selbst solche mit weniger als 10 Millionen Parametern und einfachen Architekturen (ein einziger Transformer-Block), kohärente und flüssige mehrparagraphische Geschichten erzeugen können, die eine überraschend gute Grammatik und Argumentationsfähigkeit aufweisen. Dies stellt die Annahme in Frage, dass die Erzeugung kohärenten Texts massive Modelle und komplexe Architekturen erfordert, und führt ein neues Bewertungsverfahren ein, bei dem GPT-4 die generierten Geschichten wie ein menschlicher Lehrer bewertet und so die Grenzen herkömmlicher Benchmarks überwindet.

Mehr lesen

Aktivierungs-Engineering: Manipulation von Persönlichkeitsmerkmalen in LLMs

2024-12-31
Aktivierungs-Engineering: Manipulation von Persönlichkeitsmerkmalen in LLMs

Ein auf arXiv veröffentlichter Artikel untersucht eine neuartige Methode zur Identifizierung und Manipulation von Persönlichkeitsmerkmalen in großen Sprachmodellen (LLMs) mittels "Aktivierungs-Engineering". Inspiriert von früheren Forschungsarbeiten zu Ablehnung und Steuerung von LLMs, schlagen die Forscher eine Technik vor, um Aktivierungsrichtungen im Zusammenhang mit Persönlichkeitsmerkmalen anzupassen, wodurch ein dynamisches Feintuning der LLM-Persönlichkeit ermöglicht wird. Diese Arbeit trägt zu einem besseren Verständnis der Interpretierbarkeit von LLMs bei und wirft gleichzeitig wichtige ethische Fragen auf.

Mehr lesen

Jenseits der Gradientenmittelung in der parallelen Optimierung: Verbesserte Robustheit durch Gradientenübereinstimmungsfilterung

2024-12-30
Jenseits der Gradientenmittelung in der parallelen Optimierung: Verbesserte Robustheit durch Gradientenübereinstimmungsfilterung

Dieser Artikel stellt die Gradientenübereinstimmungsfilterung (GAF) vor, eine neue Methode zur Verbesserung der Gradientenmittelung in der verteilten Deep-Learning-Optimierung. Traditionelle Methoden mitteln die Gradienten von Mikrobatchs, um einen Makrobatch-Gradienten zu berechnen, aber dies kann in späteren Trainingsphasen zu orthogonalen oder negativ korrelierten Gradienten führen, was zu Überanpassung führt. GAF reduziert die Gradientenvarianz, indem es die Kosinusdistanz zwischen Mikrogrenzwerten berechnet und widersprüchliche Aktualisierungen vor der Mittelung herausfiltert. Experimente an Bildklassifizierungsbenchmarks wie CIFAR-100 und CIFAR-100N-Fine zeigen, dass GAF die Validierungsgenauigkeit deutlich verbessert, selbst bei kleineren Mikrobatchgrößen, und bis zu 18,2 % im Vergleich zu traditionellen Ansätzen erreicht, während gleichzeitig die Rechenkosten reduziert werden.

Mehr lesen

Bewertung der Codegenerierungsfähigkeiten von LLMs: Einführung von MultiCodeBench

2024-12-30
Bewertung der Codegenerierungsfähigkeiten von LLMs: Einführung von MultiCodeBench

KI-gestützte Programmierassistenten, die auf Code-Large Language Models (LLMs) basieren, sind immer häufiger geworden und steigern die Produktivität von Entwicklern erheblich. Bisherige Benchmarks für die Codegenerierung konzentrieren sich jedoch hauptsächlich auf allgemeine Szenarien, wodurch die Leistung von LLMs in spezifischen Anwendungsbereichen weitgehend unbekannt bleibt. In diesem Artikel wird MultiCodeBench vorgestellt, ein neuer Benchmark mit 2400 Programmieraufgaben in 12 beliebten Softwareentwicklungsbereichen und 15 Programmiersprachen. Experimente mit elf gängigen LLMs zeigen deren Codegenerierungsleistung in verschiedenen Bereichen und liefern Entwicklern praktische Einblicke bei der Auswahl von LLMs sowie Hinweise für Modellentwickler zur Verbesserung domänenspezifischer Codegenerierungsfähigkeiten.

Mehr lesen
Entwicklung

Durchbruch bei der Bewertung großer Sprachmodelle für die Generierung von Unit-Tests

2024-12-30
Durchbruch bei der Bewertung großer Sprachmodelle für die Generierung von Unit-Tests

Forscher führten eine umfassende Bewertung des Potenzials großer Sprachmodelle (LLMs) bei der Automatisierung der Unit-Test-Generierung durch. Sie verglichen die Leistung von fünf Open-Source-LLMs mit dem proprietären GPT-4 und dem traditionellen Tool Evosuite an 17 Java-Projekten und untersuchten den Einfluss verschiedener Prompting-Strategien. Die Studie ergab, dass Open-Source-LLMs Vorteile in Bezug auf Datenschutz bieten und in bestimmten Aufgaben besser abschneiden, aber auch Einschränkungen bei der LLM-basierten Unit-Test-Generierung aufzeigte. Diese Forschung liefert wertvolle Erkenntnisse, um zukünftige Anwendungen von LLMs in diesem Bereich zu leiten.

Mehr lesen

Identitätsverwirrung bei LLMs: Eine Vertrauenskrise entsteht

2024-12-30
Identitätsverwirrung bei LLMs: Eine Vertrauenskrise entsteht

Eine aktuelle Studie deckt eine weit verbreitete "Identitätsverwirrung" in großen Sprachmodellen (LLMs) auf. Die Forscher fanden heraus, dass über 25 % der LLMs ihre Herkunft oder Identität falsch darstellen, hauptsächlich aufgrund von Halluzinationen des Modells und nicht durch Replikation oder Wiederverwendung. Diese Identitätsverwirrung untergräbt das Vertrauen der Benutzer erheblich, insbesondere bei kritischen Aufgaben wie Bildung und beruflicher Nutzung, und übertrifft die negativen Auswirkungen logischer Fehler. Die Ergebnisse unterstreichen die systemischen Risiken, die durch die Identitätsverwirrung von LLMs entstehen, und fordern mehr Aufmerksamkeit für die Zuverlässigkeit und Vertrauenswürdigkeit der Modelle.

Mehr lesen

Erklärung von Entscheidungen großer Sprachmodelle mithilfe von Shapley-Werten

2024-12-28
Erklärung von Entscheidungen großer Sprachmodelle mithilfe von Shapley-Werten

Große Sprachmodelle (LLMs) bieten spannende Möglichkeiten zur Simulation menschlichen Verhaltens, aber ihre Entscheidungsprozesse sind nicht transparent. Dieser Artikel präsentiert einen neuen Ansatz, der auf Shapley-Werten basiert, um das Verhalten von LLMs zu interpretieren und den Beitrag jeder Komponente der Eingabeaufforderung zur Ausgabe des Modells zu quantifizieren. Anhand zweier Anwendungen zeigt die Studie, dass LLM-Entscheidungen anfällig für „Token-Rauschen“ sind, wobei das Modell überproportional auf Token mit minimalem Informationsgehalt reagiert. Dies wirft Bedenken hinsichtlich der Robustheit und Generalisierbarkeit von Erkenntnissen aus LLMs bei der Simulation menschlichen Verhaltens auf und unterstreicht die Notwendigkeit eines sorgfältigen Eingabedesigns und eines differenzierteren Verständnisses ihrer Grenzen bei der Verwendung in der Forschung.

Mehr lesen

Invarianten: Berechnung und Anwendungen

2024-12-27
Invarianten: Berechnung und Anwendungen

Ein Tutorial-Artikel, veröffentlicht in den Proceedings von ISSAC 2023, untersucht die Berechnung und Anwendung von Invarianten in der Mathematik. Der Artikel konzentriert sich auf das Zusammenspiel zwischen differentieller und algebraischer Invariantentheorie und präsentiert eine algebraische Adaption der Methode des beweglichen Bezugssystems aus der Differentialgeometrie zur Berechnung einer erzeugenden Menge rationaler Invarianten. Er diskutiert auch die Rolle von differentiellen Invariantensignaturen bei der Lösung von Äquivalenzproblemen in Geometrie und Algebra und einige Herausforderungen beim Entwurf von Algorithmen, die auf diesem Konzept basieren.

Mehr lesen

Adversarielle Strategien schlagen übermenschliche Go-KIs

2024-12-24
Adversarielle Strategien schlagen übermenschliche Go-KIs

Forscher erzielten eine Gewinnrate von über 97 % gegen das hochmoderne Go-KI-System KataGo, indem sie adversarielle Strategien trainierten. Diese Gegner gewannen nicht durch gutes Go-Spiel, sondern indem sie KataGo zu kritischen Fehlern verleiteten. Der Angriff übertrug sich ohne erneutes Training auf andere übermenschliche Go-KIs und war einfach genug, damit menschliche Experten ihn ohne algorithmische Unterstützung reproduzieren konnten. Die Schwachstelle blieb bestehen, selbst nachdem KataGo adversariell trainiert wurde, um sich dagegen zu verteidigen, was überraschende Fehlermodi selbst in übermenschlichen KI-Systemen aufzeigt.

Mehr lesen

Supernova-Daten deuten auf grundlegende Änderung kosmologischer Modelle hin

2024-12-23
Supernova-Daten deuten auf grundlegende Änderung kosmologischer Modelle hin

Eine neue Studie präsentiert eine kosmologisch modellunabhängige statistische Analyse des Pantheon+ Datensatzes von Typ Ia Supernova-Spektren und verbessert die Standardmethodik von Lane et al. Durch die ausschließliche Verwendung der Tripp-Gleichung zur Supernova-Standardisierung werden potenzielle Korrelationen in den Streckungs- und Farbverteilungen vermieden. Die Ergebnisse favorisieren das 'Timescape'-Kosmologische Modell stark gegenüber dem Standard-ΛCDM-Modell bei der Erklärung der Daten und liefern Beweise für die Notwendigkeit, die Grundlagen der theoretischen und beobachtungsbasierten Kosmologie zu überdenken. Selbst bei Beschränkung der Stichprobe auf Rotverschiebungen jenseits konventioneller Skalen statistischer Homogenität (z > 0,075) wird Timescape ΛCDM vorgezogen.

Mehr lesen

Offline Reinforcement Learning verbessert mehrstufiges Reasoning bei LLMs

2024-12-23
Offline Reinforcement Learning verbessert mehrstufiges Reasoning bei LLMs

Forscher stellen OREO vor, eine Offline-Verstärkungslernmethode zur Verbesserung der mehrstufigen Schlussfolgerungsfähigkeiten großer Sprachmodelle (LLMs). Basierend auf dem Verstärkungslernen mit maximaler Entropie lernt OREO gleichzeitig ein Policy-Modell und eine Wertfunktion, indem es die weiche Bellman-Gleichung optimiert. Dies behebt Einschränkungen der direkten Präferenzoptimierung (DPO) beim mehrstufigen Reasoning, insbesondere den Bedarf an umfangreichen paarweisen Präferenzdaten und die Herausforderung einer effektiven Kreditzuweisung. Experimente zeigen die Überlegenheit von OREO gegenüber bestehenden Offline-Lernmethoden bei Benchmarks mit mathematischem Reasoning und verkörperter Agentensteuerung.

Mehr lesen

Tokenisierungsproblem als NP-vollständig bewiesen – Herausforderungen der Datenkompression verdoppelt

2024-12-22
Tokenisierungsproblem als NP-vollständig bewiesen – Herausforderungen der Datenkompression verdoppelt

Ein auf arXiv veröffentlichter Artikel beweist die NP-Vollständigkeit von zwei Varianten der Tokenisierung, definiert als das Problem, einen Datensatz auf höchstens δ Symbole zu komprimieren, entweder durch direktes Finden eines Vokabulars (direkte Tokenisierung) oder durch Auswahl einer Folge von Merge-Operationen (Bottom-up-Tokenisierung). Diese Erkenntnis hat erhebliche Auswirkungen auf die Datenkompression und die Verarbeitung natürlicher Sprache und unterstreicht die immense Herausforderung, das Tokenisierungsproblem für große Datensätze effizient zu lösen.

Mehr lesen

Bahnbrechende Entwicklung: Sichere Kompilierung von C nach Rust

2024-12-21
Bahnbrechende Entwicklung: Sichere Kompilierung von C nach Rust

Forscher haben eine neue Methode entwickelt, um C-Code sicher in Rust zu kompilieren. Diese Technik nutzt statische Analyse und typengesteuerte Übersetzung, um die Abhängigkeit von Rusts `unsafe`-Blöcken zu vermeiden und so die Speichersicherheit zu gewährleisten. Die Methode wurde erfolgreich auf Code der kryptografischen Bibliothek HACL* und der EverParse-Bibliotheken angewendet und hat zu einer 80.000-zeiligen, verifizierten, modernen kryptografischen Bibliothek in reinem Rust geführt – eine Premiere.

Mehr lesen
Entwicklung C-Kompilierung

Leichte Sicherheitsklassifizierung mit beschnittenen Sprachmodellen

2024-12-19
Leichte Sicherheitsklassifizierung mit beschnittenen Sprachmodellen

Forscher stellen die Layer Enhanced Classification (LEC) vor, eine neue, leichtgewichtige Technik zur Klassifizierung von Inhaltsicherheit und Prompt-Injection in großen Sprachmodellen (LLMs). LEC trainiert einen optimierten Penalized Logistic Regression (PLR)-Klassifikator auf dem verborgenen Zustand der optimalen intermediären Transformer-Schicht eines LLMs. Durch die Kombination der Effizienz von PLR mit dem ausgefeilten Sprachverständnis von LLMs übertrifft LEC GPT-4o und spezialisierte Modelle. Kleine, allgemeine Modelle wie Qwen 2.5 und Architekturen wie DeBERTa v3 erweisen sich als robuste Merkmalsextraktoren und trainieren effektiv mit weniger als 100 hochwertigen Beispielen. Wichtig ist, dass intermediäre Transformer-Schichten die finale Schicht in der Regel übertreffen. Ein einzelnes, allgemeines LLM kann die Inhaltsicherheit klassifizieren, Prompt-Injections erkennen und Ausgaben generieren, oder kleinere LLMs können auf ihre optimale intermediäre Schicht beschnitten werden, um Merkmale zu extrahieren. Konsistente Ergebnisse über verschiedene Architekturen hinweg deuten darauf hin, dass die robuste Merkmalsextraktion vielen LLMs innewohnt.

Mehr lesen

Klassische Sortieralgorithmen enthüllen unerwartete Fähigkeiten in einem minimalen Modell basaler Intelligenz

2024-12-19
Klassische Sortieralgorithmen enthüllen unerwartete Fähigkeiten in einem minimalen Modell basaler Intelligenz

Eine neue Studie verwendet klassische Sortieralgorithmen als Modell der Morphogenese und stellt damit die gängige Auffassung über diese Algorithmen in Frage. Durch das Aufbrechen der Annahmen von Top-Down-Steuerung und perfekt zuverlässiger Hardware haben die Forscher entdeckt, dass Arrays autonomer Elemente sich zuverlässiger und robuster sortieren als traditionelle Implementierungen, selbst bei Fehlern. Überraschenderweise zeigen diese Algorithmen die Fähigkeit, den Fortschritt vorübergehend zu reduzieren, um Fehler zu umgehen, und ein unerwartetes Clusterverhalten zwischen den Elementen in chimären Arrays, die verschiedenen Algorithmen folgen. Diese Entdeckung bietet eine neue Perspektive auf die vielfältige Intelligenz und zeigt, wie basale Formen der Intelligenz in einfachen Systemen entstehen können, ohne explizit in ihrer zugrundeliegenden Mechanik codiert zu sein.

Mehr lesen

Kulturelle Evolution der Kooperation unter LLM-Agenten

2024-12-18
Kulturelle Evolution der Kooperation unter LLM-Agenten

Forscher untersuchten, ob eine „Gesellschaft“ von Large Language Model (LLM)-Agenten trotz Anreizen zum Abweichen, gegenseitig vorteilhafte soziale Normen lernen kann. Experimente zeigten signifikante Unterschiede in der Entwicklung der Kooperation zwischen den Basismodellen, wobei Claude 3.5 Sonnet Gemini 1.5 Flash und GPT-4o deutlich übertraf. Darüber hinaus nutzte Claude 3.5 Sonnet einen kostspieligen Bestrafungsmechanismus, um noch höhere Punktzahlen zu erreichen – ein Erfolg, der von den anderen Modellen nicht wiederholt wurde. Diese Studie schlägt einen neuen Benchmark für LLMs vor, der sich auf die gesellschaftlichen Auswirkungen des Einsatzes von LLM-Agenten konzentriert und Einblicke in den Aufbau robusterer und kooperativer KI-Agenten bietet.

Mehr lesen

Kein Adam mehr: Skalierung der Lernrate bei der Initialisierung ist alles, was Sie brauchen

2024-12-18
Kein Adam mehr: Skalierung der Lernrate bei der Initialisierung ist alles, was Sie brauchen

Forscher stellen SGD-SaI vor, einen neuen Optimierer, der den stochastischen Gradientenabstieg verbessert. SGD-SaI behebt Trainingsungleichgewichte, indem es die Lernrate bei der Initialisierung für verschiedene Parametergruppen skaliert, basierend auf deren Gradienten-Signal-Rausch-Verhältnis. Wesentlich speichereffizienter als AdamW, erreicht SGD-SaI vergleichbare oder überlegene Leistung gegenüber AdamW bei verschiedenen Transformer-basierten Aufgaben, einschließlich ImageNet-Klassifizierung und LLM-Pretraining. Seine Robustheit und Praktikabilität werden in verschiedenen Anwendungen gezeigt, was es zu einer überzeugenden Alternative macht.

Mehr lesen
KI

Best-of-N Jailbreaking: Ein neuartiger Angriff auf KI-Systeme

2024-12-15
Best-of-N Jailbreaking: Ein neuartiger Angriff auf KI-Systeme

Forscher haben einen neuen KI-Angriffs-Algorithmus namens Best-of-N (BoN) Jailbreaking entwickelt. Dieser Black-Box-Algorithmus modifiziert wiederholt Eingabeaufforderungen – z. B. durch zufälliges Mischen oder Großschreibung von Text – bis er eine schädliche Antwort vom KI-System erhält. BoN erreichte beeindruckend hohe Angriffs-Erfolgsraten (ASR) bei Closed-Source-Sprachmodellen wie GPT-4o (89 %) und Claude 3.5 Sonnet (78 %) und umgeht effektiv bestehende Abwehrmechanismen. Darüber hinaus lässt sich BoN nahtlos auf visuelle und auditive Sprachmodelle erweitern, was die Anfälligkeit selbst fortschrittlicher KI-Systeme für scheinbar harmlose Eingabevariationen aufzeigt. Diese Forschung unterstreicht erhebliche Sicherheitsbedenken im Bereich der KI.

Mehr lesen

Automatisierte Zucht von Cyborg-Insekten: Automatisches Montagesystem zum Bau von Insekten-Computer-Hybridrobotern

2024-12-15
Automatisierte Zucht von Cyborg-Insekten: Automatisches Montagesystem zum Bau von Insekten-Computer-Hybridrobotern

Forscher haben ein automatisiertes System zur Montage von Insekten-Computer-Hybridrobotern entwickelt. Das System verwendet einen vision-geführten Roboterarm, um maßgeschneiderte bipolare Elektroden präzise auf den Rücken von Madagaskar-Fauchschaben zu implantieren. Der gesamte Prozess dauert nur 68 Sekunden, und die montierten Roboter erreichen eine Lenk- und Bremskontrolle, die mit manuell montierten Systemen vergleichbar ist. Ein Multi-Agenten-System aus 4 Robotern hat erfolgreich ein Hindernisparcours bewältigt, was die Machbarkeit der Massenproduktion und realer Anwendungen zeigt. Diese Forschung ebnet den Weg für die skalierbare Produktion und den Einsatz von Insektenrobotern.

Mehr lesen

CCxTrust: Vertrauenswürdige Computing-Plattform basierend auf kollaborativem Vertrauen von TEE und TPM

2024-12-12
CCxTrust: Vertrauenswürdige Computing-Plattform basierend auf kollaborativem Vertrauen von TEE und TPM

CCxTrust ist eine innovative vertrauenswürdige Computing-Plattform, die die Vorteile von Trusted Execution Environments (TEEs) und Trusted Platform Modules (TPMs) kombiniert, um einen Rahmen für kollaboratives Vertrauen zu schaffen. Durch die Nutzung der Black-Box-Root of Trust (RoT) in CPU-TEEs und der flexiblen White-Box-RoT von TPMs erreicht CCxTrust End-to-End-Schutz sensibler Daten und Modelle und überwindet die Einschränkungen, die sich aus der Abhängigkeit von einer einzigen Hardware-RoT ergeben. Die Plattform implementiert unabhängige Roots of Trust for Measurement (RTM) und eine kollaborative Root of Trust for Report (RTR), die durch ein Composite-Attestations-Protokoll für verbesserte Sicherheit und Effizienz erweitert wird. Experimentelle Ergebnisse zeigen signifikante Leistungsvorteile.

Mehr lesen

Durchbruch in der Erreichbarkeitsanalyse des Domain Name Systems

2024-12-12
Durchbruch in der Erreichbarkeitsanalyse des Domain Name Systems

Forscher haben das erste Entscheidungsverfahren zur Verifizierung des Domain Name Systems (DNS) vorgestellt und dessen Komplexität als 2ExpTime bestimmt. Die Studie formalisiert die Semantik von DNS und verwendet eine neuartige Abstraktion basierend auf positiv präfix-testbaren Sprachen, wodurch das DNS-Verifizierungsproblem auf das Verifizierungsproblem für Pushdown-Systeme reduziert wird. Dieser Ansatz modelliert effektiv Angriffsvektoren in DNS, wie Amplifikationsangriffe und Rewrite-Blackholing, und liefert eine neue theoretische Grundlage für die Gewährleistung der Sicherheit und Zuverlässigkeit von DNS.

Mehr lesen
1 2 4 Next →