arXivLabs: Experimentelle Projekte mit Community-Mitwirkenden

2025-02-03
arXivLabs: Experimentelle Projekte mit Community-Mitwirkenden

arXivLabs ist ein Framework, das es Mitarbeitern ermöglicht, neue arXiv-Funktionen direkt auf unserer Website zu entwickeln und zu teilen. Sowohl Einzelpersonen als auch Organisationen, die mit arXivLabs zusammenarbeiten, haben unsere Werte von Offenheit, Gemeinschaft, Exzellenz und Datenschutz der Benutzerdaten angenommen und akzeptiert. arXiv engagiert sich für diese Werte und arbeitet nur mit Partnern zusammen, die diese einhalten. Haben Sie eine Idee für ein Projekt, das der arXiv-Community einen Mehrwert bietet? Erfahren Sie mehr über arXivLabs.

Mehr lesen
Entwicklung

arXivLabs: Experimentelle Projekte mit Community-Mitwirkenden

2025-02-02
arXivLabs: Experimentelle Projekte mit Community-Mitwirkenden

arXivLabs ist ein Rahmen, der es Mitarbeitern ermöglicht, neue arXiv-Funktionen direkt auf unserer Website zu entwickeln und zu teilen. Sowohl Einzelpersonen als auch Organisationen, die mit arXivLabs zusammenarbeiten, haben unsere Werte von Offenheit, Gemeinschaft, Exzellenz und Datenschutz für Benutzerdaten angenommen und akzeptiert. arXiv verpflichtet sich diesen Werten und arbeitet nur mit Partnern zusammen, die diese einhalten. Haben Sie eine Idee für ein Projekt, das der arXiv-Community einen Mehrwert bietet? Erfahren Sie mehr über arXivLabs.

Mehr lesen
Entwicklung

arXivLabs: Experimentieren mit Community-gesteuerten Funktionen

2025-02-01
arXivLabs: Experimentieren mit Community-gesteuerten Funktionen

arXivLabs ist ein Framework, das es Mitarbeitern ermöglicht, neue arXiv-Funktionen direkt auf der Website zu entwickeln und zu teilen. Teilnehmer, sowohl Einzelpersonen als auch Organisationen, teilen die Werte von arXiv: Offenheit, Community, Exzellenz und Datenschutz der Benutzerdaten. arXiv engagiert sich für diese Werte und arbeitet nur mit Partnern zusammen, die diese Werte teilen. Haben Sie eine Idee für ein Projekt, das der arXiv-Community zugutekommt? Erfahren Sie mehr über arXivLabs.

Mehr lesen
Entwicklung Offene Plattform

arXivLabs: Experimentelle Projekte mit Community-Mitwirkenden

2025-02-01
arXivLabs: Experimentelle Projekte mit Community-Mitwirkenden

arXivLabs ist ein Framework, das es Mitwirkenden ermöglicht, neue arXiv-Funktionen direkt auf unserer Website zu entwickeln und zu teilen. Sowohl Einzelpersonen als auch Organisationen, die mit arXivLabs zusammenarbeiten, haben unsere Werte von Offenheit, Gemeinschaft, Exzellenz und Datenschutz für Benutzerdaten angenommen und akzeptiert. arXiv ist diesen Werten verpflichtet und arbeitet nur mit Partnern zusammen, die sich an diese halten. Haben Sie eine Idee für ein Projekt, das der arXiv-Community einen Mehrwert bietet? Erfahren Sie mehr über arXivLabs.

Mehr lesen
Technologie

arXivLabs: Gemeinschaftsbasierte Entwicklung von arXiv-Funktionen

2025-02-01
arXivLabs: Gemeinschaftsbasierte Entwicklung von arXiv-Funktionen

arXivLabs ist ein Framework, das es Mitarbeitern ermöglicht, neue arXiv-Funktionen direkt auf der Website zu entwickeln und zu teilen. Teilnehmer, sowohl Einzelpersonen als auch Organisationen, bekennen sich zu den Werten von arXiv: Offenheit, Gemeinschaft, Exzellenz und Datenschutz der Benutzerdaten. arXiv engagiert sich für diese Werte und arbeitet nur mit Partnern zusammen, die diese teilen. Haben Sie eine Idee, um die arXiv-Community zu verbessern? Erfahren Sie mehr über arXivLabs.

Mehr lesen
Entwicklung Gemeinschaftsarbeit

arXivLabs: Experimentelle Projekte mit Community-Mitwirkenden

2025-01-31
arXivLabs: Experimentelle Projekte mit Community-Mitwirkenden

arXivLabs ist ein Framework, das es Mitarbeitern ermöglicht, neue arXiv-Funktionen direkt auf unserer Website zu entwickeln und zu teilen. Sowohl Einzelpersonen als auch Organisationen, die mit arXivLabs zusammenarbeiten, haben unsere Werte von Offenheit, Community, Exzellenz und Datenschutz der Benutzerdaten angenommen und akzeptiert. arXiv engagiert sich für diese Werte und arbeitet nur mit Partnern zusammen, die sich an sie halten. Haben Sie eine Idee für ein Projekt, das der arXiv-Community einen Mehrwert bietet? Erfahren Sie mehr über arXivLabs.

Mehr lesen

arXivLabs: Experimentelle Projekte mit Community-Kollaborateuren

2025-01-31
arXivLabs: Experimentelle Projekte mit Community-Kollaborateuren

arXivLabs ist ein Framework, das es Kollaborateuren ermöglicht, neue arXiv-Funktionen direkt auf unserer Website zu entwickeln und zu teilen. Sowohl Einzelpersonen als auch Organisationen, die mit arXivLabs arbeiten, haben unsere Werte von Offenheit, Community, Exzellenz und Datenschutz der Benutzerdaten angenommen und akzeptiert. arXiv verpflichtet sich diesen Werten und arbeitet nur mit Partnern zusammen, die diese einhalten. Haben Sie eine Idee für ein Projekt, das der arXiv-Community einen Mehrwert bietet? Erfahren Sie mehr über arXivLabs.

Mehr lesen

arXivLabs: Experimentelle Projekte mit Community-Mitwirkenden

2025-01-31
arXivLabs: Experimentelle Projekte mit Community-Mitwirkenden

arXivLabs ist ein Framework, das es Mitwirkenden ermöglicht, neue arXiv-Funktionen direkt auf unserer Website zu entwickeln und zu teilen. Sowohl Einzelpersonen als auch Organisationen, die mit arXivLabs zusammenarbeiten, haben unsere Werte von Offenheit, Gemeinschaft, Exzellenz und Datenschutz der Benutzerdaten angenommen und akzeptiert. arXiv verpflichtet sich zu diesen Werten und arbeitet nur mit Partnern zusammen, die sich an diese halten. Haben Sie eine Idee für ein Projekt, das der arXiv-Community einen Mehrwert bietet? Erfahren Sie mehr über arXivLabs.

Mehr lesen

Ein schnellerer Quanten-Fourier-Transformationsalgorithmus

2025-01-27
Ein schnellerer Quanten-Fourier-Transformationsalgorithmus

Ronit Shah präsentiert einen verbesserten Algorithmus für die Quanten-Fourier-Transformation (QFT). Traditionell benötigt die approximative QFT Θ(n log n) Gatter, und die exakte QFT Θ(n²) Gatter. Der neue Algorithmus, der eine neuartige rekursive Partitionierung von Qubits nutzt, reduziert die Kosten der approximativen QFT auf Θ(n(log log n)²) Gatter und der exakten QFT auf Θ(n(log n)²) Gatter. Dieser Durchbruch verspricht erhebliche Effizienzsteigerungen im Quantencomputing.

Mehr lesen

DeepSeek-R1: Förderung der Denkfähigkeit in LLMs durch Reinforcement Learning

2025-01-25
DeepSeek-R1: Förderung der Denkfähigkeit in LLMs durch Reinforcement Learning

DeepSeek-AI präsentiert seine erste Generation von Denkmodellen, DeepSeek-R1-Zero und DeepSeek-R1. DeepSeek-R1-Zero, ein Modell, das durch Reinforcement Learning (RL) im großen Maßstab ohne vorheriges Supervised Fine-Tuning (SFT) trainiert wurde, zeigt bemerkenswerte Denkfähigkeiten. Durch RL entwickelt DeepSeek-R1-Zero von selbst zahlreiche leistungsstarke und interessante Denkverhalten. Es stößt jedoch auf Herausforderungen wie schlechte Lesbarkeit und Sprachmischung. Um diese Probleme zu lösen und die Denkfähigkeit weiter zu verbessern, präsentieren wir DeepSeek-R1, das mehrstufiges Training und Kaltstartdaten vor dem RL integriert. DeepSeek-R1 erreicht eine vergleichbare Leistung wie OpenAI-o1-1217 bei Denkaufgaben. Um die Forschungsgemeinschaft zu unterstützen, veröffentlichen wir DeepSeek-R1-Zero, DeepSeek-R1 und sechs destillierte dichte Modelle (1.5B, 7B, 8B, 14B, 32B, 70B) basierend auf Qwen und Llama als Open Source.

Mehr lesen

Grundlagen großer Sprachmodelle: Ein neues Buch entschlüsselt Kernkonzepte

2025-01-23
Grundlagen großer Sprachmodelle: Ein neues Buch entschlüsselt Kernkonzepte

Ein neues Buch, "Grundlagen großer Sprachmodelle", wurde veröffentlicht. Anstatt eine umfassende Abdeckung modernster Technologien anzustreben, befasst es sich eingehend mit den grundlegenden Kernkonzepten großer Sprachmodelle. Strukturiert in vier Kapitel, die Pretraining, generative Modelle, Prompting-Techniken und Alignment-Methoden behandeln, richtet sich das Buch an Studenten, Fachleute und Praktiker im Bereich der Verarbeitung natürlicher Sprache und verwandter Gebiete. Es dient als wertvolle Referenz für alle, die sich für große Sprachmodelle interessieren.

Mehr lesen

Verlustfreie Komprimierung von Vektor-IDs verbessert die approximative Nearest-Neighbor-Suche

2025-01-23
Verlustfreie Komprimierung von Vektor-IDs verbessert die approximative Nearest-Neighbor-Suche

Forscher stellen ein verlustfreies Komprimierungsschema für Vektor-IDs vor, um die hohen Speicherkosten von Indizes bei der approximativen Nearest-Neighbor-Suche zu adressieren. Sie nutzen die Tatsache aus, dass die Reihenfolge der IDs in vielen Indexstrukturen irrelevant ist, und verwenden asymmetrische Zahlensysteme oder Wavelet-Bäume. Die Methode erreicht eine bis zu 7-fache Komprimierung der Vektor-IDs ohne Beeinträchtigung der Genauigkeit oder der Suchlaufzeit. Dies führt zu einer Reduzierung der Indexgröße um 30 % bei Datensätzen im Milliardenbereich. Darüber hinaus kann der Ansatz auch quantisierte Vektorcodes verlustfrei komprimieren, indem er Suboptimalitäten im ursprünglichen Quantisierungsalgorithmus ausnutzt.

Mehr lesen

FLAME: Ein kleines Sprachmodell für Tabellenkalkulationsformeln

2025-01-22
FLAME: Ein kleines Sprachmodell für Tabellenkalkulationsformeln

Große Sprachmodelle sind teuer zu trainieren und bereitzustellen, um bei der Erstellung von Excel-Formeln zu helfen. Dieser Artikel stellt FLAME vor, ein Transformer-basiertes Modell, das ausschließlich mit Excel-Formeln trainiert wurde. Mit nur 60 Millionen Parametern und einem Bruchteil der Trainingsdaten, die von größeren Modellen verwendet werden, erreicht FLAME eine konkurrenzfähige oder sogar überlegene Leistung bei Aufgaben zur Reparatur, Vervollständigung und Abfrage von Formeln im Vergleich zu Modellen wie Codex und CodeT5. Dies ist auf seine neuartigen Pre-Training-Ziele und seinen Excel-spezifischen Tokenizer zurückzuführen.

Mehr lesen
Entwicklung Formel

Tensorprodukt-Attention: Alles, was Sie brauchen

2025-01-22
Tensorprodukt-Attention: Alles, was Sie brauchen

Die Skalierung von Sprachmodellen zur Verarbeitung längerer Eingabefolgen erfordert in der Regel große Schlüssel-Wert-Caches (KV-Caches), was zu einem erheblichen Speicheraufwand während der Inferenz führt. In diesem Artikel wird die Tensorprodukt-Attention (TPA) vorgestellt, ein neuartiger Aufmerksamkeitsmechanismus, der Tensorzerlegungen verwendet, um Abfragen, Schlüssel und Werte kompakt darzustellen und so die Größe des KV-Caches während der Inferenz deutlich zu reduzieren. Durch die Faktorisierung dieser Darstellungen in kontextbezogene niederdimensionale Komponenten (kontextuelle Faktorisierung) und die nahtlose Integration mit RoPE verbessert TPA die Modellqualität bei gleichzeitiger Beibehaltung der Speichereffizienz. Basierend auf TPA stellen die Autoren den Tensorprodukt-Attention-Transformer (T6) vor, eine neue Modellarchitektur für die Sequenzmodellierung. Umfangreiche empirische Evaluierungen bei Sprachmodellierungsaufgaben zeigen, dass T6 Standard-Transformer-Basislinien wie MHA, MQA, GQA und MLA in verschiedenen Metriken, darunter Perplexität und eine Reihe bekannter Bewertungsbenchmarks, übertrifft. Insbesondere ermöglicht die Speichereffizienz von TPA die Verarbeitung deutlich längerer Sequenzen unter festen Ressourcenbeschränkungen und behebt damit eine kritische Skalierbarkeitsherausforderung bei modernen Sprachmodellen. Der Code ist verfügbar.

Mehr lesen

ELIZA wiederbelebt: Der weltweit erste Chatbot restauriert

2025-01-18
ELIZA wiederbelebt: Der weltweit erste Chatbot restauriert

Forscher haben erfolgreich ELIZA, den weltweit ersten Chatbot, auf einem restaurierten CTSS – dem weltweit ersten Timesharing-System (emuliert auf einem IBM 7094) – wieder zum Leben erweckt. Mittels originaler Ausdrucke, MAD-SLIP-Code und unterstützende Dokumente aus dem Archiv von Prof. Weizenbaum am MIT rekonstruierten sie ELIZA und ihr berühmtes DOCTOR-Skript. Das gesamte Projekt ist Open Source, sodass jeder Benutzer eines Unix-artigen Betriebssystems den bahnbrechenden Chatbot ausführen kann.

Mehr lesen
KI

Die Mathematik hinter dem NYT-Wortspiel 'Waffle' entschlüsselt

2025-01-17
Die Mathematik hinter dem NYT-Wortspiel 'Waffle' entschlüsselt

Ein Artikel auf arXiv untersucht die Mathematik hinter dem täglichen Wortspiel 'Waffle' der New York Times. Der Autor S.P. Glasby erforscht die kombinatorischen Eigenschaften des Spiels und erklärt, warum einige Rätsel einfach und andere außergewöhnlich schwer zu lösen sind. Die Forschung zeigt, dass eine perfekte Lösung genau 11 Bahnen unter den 21 Feldern erfordert, wobei mindestens eine Bahn die Länge 1 hat. Dies liefert einen mathematischen Rahmen, um ähnliche Wortspiele zu verstehen und potenziell zu verbessern.

Mehr lesen
Spiele

Titans: Eine neue neuronale Architektur zum Lernen des Memorierens zur Testzeit

2025-01-16
Titans: Eine neue neuronale Architektur zum Lernen des Memorierens zur Testzeit

Forscher stellen Titans vor, eine neue neuronale Architektur, die ein neuronales Speichermodul mit einem Aufmerksamkeitsmechanismus kombiniert, um den langfristigen historischen Kontext effektiv zu speichern. Im Gegensatz zu traditionellen rekurrenten Modellen und Aufmerksamkeitsmechanismen zeigt Titans höhere Effizienz und Genauigkeit bei der Verarbeitung langer Sequenzen, insbesondere bei "Suche nach der Nadel im Heuhaufen". Es übertrifft Transformer und neuere lineare rekurrente Modelle in verschiedenen Aufgaben, darunter Sprachmodellierung, Common-Sense-Reasoning, Genomik und Zeitreihen, und skaliert auf Kontextfenster von über 2 Millionen Token.

Mehr lesen

Auf dem Weg zum System-2-Schlussfolgern in LLMs: Lernen, mit Meta Chain-of-Thought zu denken

2025-01-10
Auf dem Weg zum System-2-Schlussfolgern in LLMs: Lernen, mit Meta Chain-of-Thought zu denken

Forscher schlagen ein neues Framework namens Meta Chain-of-Thought (Meta-CoT) vor, das das traditionelle Chain-of-Thought (CoT) erweitert, indem es das zugrunde liegende Denken, das zu einem bestimmten CoT führt, explizit modelliert. Meta-CoT nutzt Prozessüberwachung, die Generierung synthetischer Daten und Suchalgorithmen. Der Artikel beschreibt eine konkrete Pipeline zum Training eines Modells zur Erzeugung von Meta-CoTs, die Instruction Tuning mit linearisierten Suchspuren und Reinforcement Learning nach dem Training umfasst. Diese Arbeit liefert eine theoretische und praktische Roadmap zur Ermöglichung von Meta-CoT in LLMs und ebnet den Weg für leistungsfähigeres und menschenähnlicheres Schließen in der künstlichen Intelligenz.

Mehr lesen
KI

Der CAP-Satz in Frage gestellt: Eine Vermutung zum partiellen Fortschritt unter Asynchronität

2025-01-08
Der CAP-Satz in Frage gestellt: Eine Vermutung zum partiellen Fortschritt unter Asynchronität

Ein neuer Artikel stellt den bekannten CAP-Satz in Frage. Die Autoren vermuten, dass partieller Fortschritt bei Netzwerkpartitionen möglich ist, d. h. das System kann für eine Teilmenge von Clients reaktionsfähig bleiben und einen Nicht-Null-Durchsatz bei Ausfällen erreichen. Sie präsentieren das Design ihres CASSANDRA-Konsensusprotokolls, das es partitionierten Replikaten ermöglicht, Client-Anfragen zu ordnen, und bietet somit einen möglichen Weg zu Systemen, die bis zu einem gewissen Grad sowohl konsistent als auch verfügbar sind, selbst bei Partitionen. Diese Forschung bietet einen neuartigen Ansatz zum Aufbau robusterer verteilter Systeme.

Mehr lesen

Ein Jahrzehnt im Rückblick: Tauchen Sie ein in die Anomalieerkennung von Zeitreihen

2025-01-06
Ein Jahrzehnt im Rückblick: Tauchen Sie ein in die Anomalieerkennung von Zeitreihen

Fortschritte in der Datenerfassungstechnologie und die Explosion von Streaming-Daten unterstreichen den dringenden Bedarf an Zeitreihenanalysen. Dieser Artikel bietet einen Rückblick auf ein Jahrzehnt der Anomalieerkennung in Zeitreihen, der Methoden von traditionellen statistischen Maßen bis zum Aufschwung von Machine-Learning-Algorithmen umfasst. Er präsentiert eine prozesszentrierte Taxonomie zur Kategorisierung und Zusammenfassung bestehender Lösungen, bietet eine Meta-Analyse der Literatur und skizziert allgemeine Trends im Feld. Diese umfassende Übersicht dient Forschern als wertvolle Ressource.

Mehr lesen

Wissenschaftler entschlüsseln das Geheimnis der perfekten Cacio e Pepe

2025-01-04
Wissenschaftler entschlüsseln das Geheimnis der perfekten Cacio e Pepe

Ein Team von Wissenschaftlern hat sich mit der kulinarischen Kunst auseinandergesetzt, genauer gesagt mit dem italienischen Klassiker Cacio e Pepe, um die Geheimnisse seiner perfekten cremigen Textur zu lüften. Ihre Forschung ergab, dass die Stärkekonzentration der Schlüsselfaktor für die Stabilität der Sauce ist. Stärkekonzentrationen unter 1 % (bezogen auf die Käsemasse) führen zur Klumpenbildung, ein Phänomen, das als „Mozzarella-Phase“ bezeichnet wird und zu einer separierten und unangenehmen Sauce führt. Die Studie untersuchte auch den Einfluss des Verhältnisses von Käse zu Wasser bei einer festen Stärkekonzentration, wobei eine untere kritische Lösungstemperatur beobachtet und ein minimales effektives Modell der freien Energie entwickelt wurde, um dies zu erklären. Schließlich präsentierten sie ein wissenschaftlich optimiertes Rezept, das eine konstant einwandfreie Cacio e Pepe garantiert.

Mehr lesen

Reproduktion von OpenAI o1: Ein Fahrplan aus der Perspektive des Reinforcement Learnings

2025-01-03
Reproduktion von OpenAI o1: Ein Fahrplan aus der Perspektive des Reinforcement Learnings

Ein neuer Artikel untersucht den Weg zur Reproduktion des rätselhaften OpenAI-Modells o1 aus der Perspektive des Reinforcement Learnings. Die Forscher argumentieren, dass die leistungsstarke Denkfähigkeit von o1 nicht auf einer einzelnen Technik beruht, sondern auf der Synergie von vier Schlüsselkomponenten: Richtlinieninitialisierung, Belohnungsdesign, Suche und Lernen. Die Richtlinieninitialisierung stattet das Modell mit menschenähnlichem Denken aus; das Belohnungsdesign liefert dichte und effektive Signale, die Suche und Lernen leiten; die Suche generiert qualitativ hochwertige Lösungen während Training und Test; das Lernen nutzt die Daten der Suche, um die Richtlinien zu verbessern und erreicht letztendlich eine bessere Leistung. Dieser Artikel bietet wertvolle Einblicke in das Verständnis und die Reproduktion von o1 und eröffnet neue Wege für die Entwicklung von LLMs.

Mehr lesen

4,5 Millionen gefälschte Sterne auf GitHub: Ein schattiger Popularitätswettbewerb

2025-01-02
4,5 Millionen gefälschte Sterne auf GitHub: Ein schattiger Popularitätswettbewerb

Eine neue Studie deckt 4,5 Millionen mutmaßlich gefälschte Sterne auf GitHub auf, die hauptsächlich zur Bewerbung kurzlebiger Malware-Repositories verwendet werden, die als Raubkopien von Software, Spiel-Cheats oder Kryptowährungs-Bots getarnt sind. Die Forscher entwickelten StarScout, ein Tool zum Erkennen anomalen Sternverhaltens. Die Studie zeigt einen rasanten Anstieg gefälschter Sternaktivitäten seit 2024. Während sich gefälschte Sternbeobachter in ihren Profilmerkmalen nicht signifikant von durchschnittlichen Benutzern unterscheiden, sind ihre Aktivitätsmuster höchst ungewöhnlich. Obwohl sie kurzfristige Werbevorteile bieten, werden gefälschte Sterne letztendlich zu einer langfristigen Belastung. Diese Forschung hat erhebliche Auswirkungen auf Plattformmoderatoren, Open-Source-Praktiker und Forscher im Bereich der Lieferketten-Sicherheit.

Mehr lesen
Technologie

TinyStories: Können kleine Sprachmodelle immer noch kohärenten englischen Text erzeugen?

2025-01-02
TinyStories: Können kleine Sprachmodelle immer noch kohärenten englischen Text erzeugen?

Forscher stellen TinyStories vor, einen synthetischen Datensatz kurzer Geschichten, der nur Vokabeln verwendet, die typische 3- bis 4-Jährige verstehen, generiert von GPT-3.5 und GPT-4. Sie zeigen, dass auf TinyStories trainierte Sprachmodelle, selbst solche mit weniger als 10 Millionen Parametern und einfachen Architekturen (ein einziger Transformer-Block), kohärente und flüssige mehrparagraphische Geschichten erzeugen können, die eine überraschend gute Grammatik und Argumentationsfähigkeit aufweisen. Dies stellt die Annahme in Frage, dass die Erzeugung kohärenten Texts massive Modelle und komplexe Architekturen erfordert, und führt ein neues Bewertungsverfahren ein, bei dem GPT-4 die generierten Geschichten wie ein menschlicher Lehrer bewertet und so die Grenzen herkömmlicher Benchmarks überwindet.

Mehr lesen

Aktivierungs-Engineering: Manipulation von Persönlichkeitsmerkmalen in LLMs

2024-12-31
Aktivierungs-Engineering: Manipulation von Persönlichkeitsmerkmalen in LLMs

Ein auf arXiv veröffentlichter Artikel untersucht eine neuartige Methode zur Identifizierung und Manipulation von Persönlichkeitsmerkmalen in großen Sprachmodellen (LLMs) mittels "Aktivierungs-Engineering". Inspiriert von früheren Forschungsarbeiten zu Ablehnung und Steuerung von LLMs, schlagen die Forscher eine Technik vor, um Aktivierungsrichtungen im Zusammenhang mit Persönlichkeitsmerkmalen anzupassen, wodurch ein dynamisches Feintuning der LLM-Persönlichkeit ermöglicht wird. Diese Arbeit trägt zu einem besseren Verständnis der Interpretierbarkeit von LLMs bei und wirft gleichzeitig wichtige ethische Fragen auf.

Mehr lesen

Jenseits der Gradientenmittelung in der parallelen Optimierung: Verbesserte Robustheit durch Gradientenübereinstimmungsfilterung

2024-12-30
Jenseits der Gradientenmittelung in der parallelen Optimierung: Verbesserte Robustheit durch Gradientenübereinstimmungsfilterung

Dieser Artikel stellt die Gradientenübereinstimmungsfilterung (GAF) vor, eine neue Methode zur Verbesserung der Gradientenmittelung in der verteilten Deep-Learning-Optimierung. Traditionelle Methoden mitteln die Gradienten von Mikrobatchs, um einen Makrobatch-Gradienten zu berechnen, aber dies kann in späteren Trainingsphasen zu orthogonalen oder negativ korrelierten Gradienten führen, was zu Überanpassung führt. GAF reduziert die Gradientenvarianz, indem es die Kosinusdistanz zwischen Mikrogrenzwerten berechnet und widersprüchliche Aktualisierungen vor der Mittelung herausfiltert. Experimente an Bildklassifizierungsbenchmarks wie CIFAR-100 und CIFAR-100N-Fine zeigen, dass GAF die Validierungsgenauigkeit deutlich verbessert, selbst bei kleineren Mikrobatchgrößen, und bis zu 18,2 % im Vergleich zu traditionellen Ansätzen erreicht, während gleichzeitig die Rechenkosten reduziert werden.

Mehr lesen

Bewertung der Codegenerierungsfähigkeiten von LLMs: Einführung von MultiCodeBench

2024-12-30
Bewertung der Codegenerierungsfähigkeiten von LLMs: Einführung von MultiCodeBench

KI-gestützte Programmierassistenten, die auf Code-Large Language Models (LLMs) basieren, sind immer häufiger geworden und steigern die Produktivität von Entwicklern erheblich. Bisherige Benchmarks für die Codegenerierung konzentrieren sich jedoch hauptsächlich auf allgemeine Szenarien, wodurch die Leistung von LLMs in spezifischen Anwendungsbereichen weitgehend unbekannt bleibt. In diesem Artikel wird MultiCodeBench vorgestellt, ein neuer Benchmark mit 2400 Programmieraufgaben in 12 beliebten Softwareentwicklungsbereichen und 15 Programmiersprachen. Experimente mit elf gängigen LLMs zeigen deren Codegenerierungsleistung in verschiedenen Bereichen und liefern Entwicklern praktische Einblicke bei der Auswahl von LLMs sowie Hinweise für Modellentwickler zur Verbesserung domänenspezifischer Codegenerierungsfähigkeiten.

Mehr lesen
Entwicklung

Durchbruch bei der Bewertung großer Sprachmodelle für die Generierung von Unit-Tests

2024-12-30
Durchbruch bei der Bewertung großer Sprachmodelle für die Generierung von Unit-Tests

Forscher führten eine umfassende Bewertung des Potenzials großer Sprachmodelle (LLMs) bei der Automatisierung der Unit-Test-Generierung durch. Sie verglichen die Leistung von fünf Open-Source-LLMs mit dem proprietären GPT-4 und dem traditionellen Tool Evosuite an 17 Java-Projekten und untersuchten den Einfluss verschiedener Prompting-Strategien. Die Studie ergab, dass Open-Source-LLMs Vorteile in Bezug auf Datenschutz bieten und in bestimmten Aufgaben besser abschneiden, aber auch Einschränkungen bei der LLM-basierten Unit-Test-Generierung aufzeigte. Diese Forschung liefert wertvolle Erkenntnisse, um zukünftige Anwendungen von LLMs in diesem Bereich zu leiten.

Mehr lesen

Identitätsverwirrung bei LLMs: Eine Vertrauenskrise entsteht

2024-12-30
Identitätsverwirrung bei LLMs: Eine Vertrauenskrise entsteht

Eine aktuelle Studie deckt eine weit verbreitete "Identitätsverwirrung" in großen Sprachmodellen (LLMs) auf. Die Forscher fanden heraus, dass über 25 % der LLMs ihre Herkunft oder Identität falsch darstellen, hauptsächlich aufgrund von Halluzinationen des Modells und nicht durch Replikation oder Wiederverwendung. Diese Identitätsverwirrung untergräbt das Vertrauen der Benutzer erheblich, insbesondere bei kritischen Aufgaben wie Bildung und beruflicher Nutzung, und übertrifft die negativen Auswirkungen logischer Fehler. Die Ergebnisse unterstreichen die systemischen Risiken, die durch die Identitätsverwirrung von LLMs entstehen, und fordern mehr Aufmerksamkeit für die Zuverlässigkeit und Vertrauenswürdigkeit der Modelle.

Mehr lesen
1 2 3 4 5 6 7 9