Deep Code Bench: Ein neuer Benchmark-Datensatz für die Code-Retrieval

2025-09-11
Deep Code Bench: Ein neuer Benchmark-Datensatz für die Code-Retrieval

Qodo hat Deep Code Bench veröffentlicht, einen neuen Benchmark-Datensatz mit realen Fragen aus großen, komplexen Code-Repositories. Im Gegensatz zu bestehenden Benchmarks erfordern diese Fragen das Abrufen von Informationen über mehrere Dateien hinweg, was reale Entwicklerszenarien widerspiegelt. Der Datensatz, der mithilfe von LLMs aus Pull-Request-Daten generiert wurde, bietet eine robuste Bewertung von Code-Retrieval-Systemen. Qodos Deep-Research-Agent übertrifft andere in Bezug auf den Fakten-Recall und erreicht etwa 76 % Genauigkeit.

Mehr lesen
Entwicklung Benchmark-Datensatz

Qodo Command erzielt beeindruckende 71,2 % auf SWE-bench Verified

2025-08-12
Qodo Command erzielt beeindruckende 71,2 % auf SWE-bench Verified

Qodo Command, ein KI-Codierungsagent für die Kommandozeile, erzielte einen beeindruckenden Score von 71,2 % beim SWE-bench Verified Benchmark, einem führenden Test zur Bewertung von KI-Agenten bei realen Softwareentwicklungsaufgaben. Dieses Ergebnis wurde mit der Produktionsversion von Qodo Command ohne Feinabstimmung oder benchmarkspezifische Anpassungen erzielt. Der Erfolg beruht auf Funktionen wie Kontextzusammenfassung, Ausführungsplanung, Wiederholungs- und Ausweichmechanismen sowie dem LangGraph-Framework. Entwickelt zur Unterstützung mehrerer LLMs, arbeitet Qodo Command derzeit mit Anthropic's Claude 4 zusammen, um adaptive und lernorientierte Codierungsagenten zu erstellen.

Mehr lesen
Entwicklung KI-Codierungsagent

GPT-5 glänzt im Qodo Code-Review-Benchmark

2025-08-08
GPT-5 glänzt im Qodo Code-Review-Benchmark

Qodo hat seinen privaten PR-Benchmark verwendet, der reale Code-Review-Workflows simuliert, um Top-Sprachmodelle, einschließlich GPT-5, zu evaluieren. Die Ergebnisse zeigten, dass GPT-5 beim Verständnis von Code-Diffs, der Identifizierung von Bugs und dem Vorschlagen von Verbesserungen hervorragend abschnitt. Seine "minimale" Variante erzielte eine beeindruckende Balance zwischen Geschwindigkeit und Qualität. Obwohl GPT-5 einige Schwächen wie Fehlalarme und inkonsistente Kennzeichnungen aufwies, war seine Gesamtleistung bei der Code-Review beeindruckend und markiert einen bedeutenden Fortschritt bei der KI-gestützten Code-Review.

Mehr lesen
Entwicklung

Qodo Gen CLI: Automatisieren Sie Ihren SDLC mit KI-Agenten

2025-06-25
Qodo Gen CLI: Automatisieren Sie Ihren SDLC mit KI-Agenten

Qodo Gen CLI ist eine leistungsstarke Befehlszeilenschnittstelle zum Erstellen, Verwalten und Ausführen von KI-Agenten. Entwickler können benutzerdefinierte Agenten erstellen, um Workflows über den gesamten Software Development Lifecycle (SDLC) zu automatisieren und KI-Funktionen in jede IDE zu integrieren. Mit Unterstützung führender LLMs und flexibler Bereitstellungsoptionen bietet Qodo Gen CLI sowohl Terminal- als auch browserbasierte Schnittstellen. Automatisieren Sie Aufgaben wie Codeüberprüfung, Dokumentationsgenerierung und Testabdeckung, steigern Sie die Effizienz und ermöglichen Sie es Entwicklern, sich auf die Erstellung von Funktionen zu konzentrieren.

Mehr lesen
Entwicklung SDLC-Automatisierung

KI-Codegenerierung: Genauigkeit und Vertrauen sind entscheidend

2025-06-12
KI-Codegenerierung: Genauigkeit und Vertrauen sind entscheidend

Nur 3,8 % der Entwickler berichten, sowohl von geringen Halluzinationen als auch von hohem Vertrauen in das Ausliefern von KI-generiertem Code. Dies sind die Teams, die wirklich von KI in der Produktion profitieren. Sie vertrauen den Vorschlägen, liefern schneller aus und schließen den Kreislauf mit hochwertigem Feedback. Unter dieser Gruppe mit geringen Halluzinationen berichten diejenigen, die auch zuversichtlich sind (17 %), von einer 1,3-fach höheren Wahrscheinlichkeit, Verbesserungen der Codequalität zu sehen (44 % gegenüber 35 %) und einer 2,5-fach höheren Zuversicht beim Ausliefern von KI-Code (24 % gegenüber 9 %). Dies ist die Gruppe, die wir als „Sweet Spot“ bezeichnen – und innerhalb dieser Gruppe berichten über die Hälfte (53 %) von deutlichen Verbesserungen der Codequalität. Dies deutet auf einen starken Zusammenhang zwischen Genauigkeit, Qualität und Vertrauen hin. Wenn Entwickler sowohl weniger Fehler als auch qualitativ hochwertigere Ergebnisse sehen, vertrauen sie der KI viel eher und setzen sie in der Produktion ein. Wir sehen auch, dass geringe Halluzinationen die Wahrscheinlichkeit, dass Entwickler sagen, KI habe die Codequalität verbessert, um das 1,3-fache erhöhen (44 % gegenüber 35 % insgesamt). Dennoch bleiben die meisten Entwickler – selbst diejenigen mit genauen Ergebnissen – zögerlich. Hier können automatisierte Qualitätsprüfungen die Lücke schließen.

Mehr lesen
Entwicklung Entwicklervertrauen

Debuggen von Java-Logikfehlern mit Unit-Tests

2025-05-07
Debuggen von Java-Logikfehlern mit Unit-Tests

Logikfehler in der Java-Entwicklung sind notorisch schwer mit traditionellen Methoden zu debuggen. Dieser Artikel stellt einen testgetriebenen Debugging-Ansatz vor, der Unit-Tests verwendet, um Logikfehler zu finden und zu lokalisieren. Er beschreibt verschiedene Testtechniken, darunter Hypothesentests, Zustandsprogressionstests und Regressionstests, und erklärt, wie man Testergebnisse nutzt, um das Codeverhalten zu verstehen und letztendlich die Logik zu verbessern. Der Artikel erwähnt auch KI-gestützte Unit-Testing-Tools, die Entwicklern helfen können, potenzielle Logik-Schwachstellen effektiver aufzudecken.

Mehr lesen
Entwicklung Logikfehler

LangGraph: Entwicklung eines flexiblen KI-Coding-Assistenten mit Best Practices

2025-03-24
LangGraph: Entwicklung eines flexiblen KI-Coding-Assistenten mit Best Practices

Qodo hat einen KI-Coding-Assistenten mit dem Framework LangGraph entwickelt, das Flexibilität mit der Einhaltung von Best Practices verbindet. Anfangs wurden vordefinierte Workflows für Codierungsaufgaben verwendet, doch mit leistungsstärkeren LLMs wie Claude Sonnet 3.5 wechselte man zu LangGraphs graphbasiertem Ansatz. LangGraph ermöglicht die Erstellung von Agenten, die von völlig offen bis hin zu vollständig strukturierten deterministischen Workflows reichen, sodass Qodo die Struktur seiner Workflows an die Fähigkeiten des LLM anpassen kann. Die übersichtliche API des Frameworks, wiederverwendbare Komponenten und die integrierte Zustandsverwaltung vereinfachten die Entwicklung und unterstützen Persistenz, Checkpoints und Verzweigungspunkte. Obwohl Dokumentation und Tests einige Herausforderungen darstellen, bot LangGraph eine solide Grundlage für die Entwicklung eines robusten KI-Coding-Assistenten.

Mehr lesen
Entwicklung

Qodo Gen 1.0: Agentenbasierte KI-Codierung mit LangGraph und MCP

2025-03-18
Qodo Gen 1.0: Agentenbasierte KI-Codierung mit LangGraph und MCP

Qodo Gen 1.0 führt agentenbasierte Workflows in sein KI-Codierungs- und Test-IDE-Plugin ein, wodurch die KI dynamisch entscheiden kann, wie sie komplexe Codierungsaufgaben bewältigt. Dies wurde durch die Umstrukturierung der Infrastruktur unter Verwendung von LangGraph für strukturierte Workflows und dem Model Context Protocol (MCP) von Anthropic für eine standardisierte Integration externer Tools erreicht. Die Architektur unterstützt asynchrone Kommunikation, bedarfsgerechte Kontextwiederherstellung und verbesserte Fehlerbehandlung und Zuverlässigkeit, sodass die KI autonom arbeiten, Echtzeitdaten abrufen und Strategien basierend auf den Ergebnissen der Toolkette anpassen kann. LangGraph bietet Flexibilität und Kontrolle, während MCP die Integration externer Tools vereinfacht. Das Ergebnis ist eine intelligentere Automatisierung, ein erweiterbares System und ein strukturierter Ansatz für die KI-Autonomie.

Mehr lesen
Entwicklung

Qodo-Embed-1: Eine Familie effizienter und kompakter Code-Embedding-Modelle

2025-03-03
Qodo-Embed-1: Eine Familie effizienter und kompakter Code-Embedding-Modelle

Qodo hat Qodo-Embed-1 angekündigt, eine neue Familie von Code-Embedding-Modellen, die einen State-of-the-Art-Performance mit deutlich kleinerem Footprint als bestehende Modelle erreicht. Das Modell mit 1,5 Milliarden Parametern erzielte im CoIR-Benchmark einen Score von 68,53 und übertraf damit größere Modelle mit 7 Milliarden Parametern. Trainiert mit synthetischer Datengenerierung, um die Einschränkungen bestehender Modelle bei der genauen Abfrage von Code-Schnipseln zu überwinden, verbessert Qodo-Embed-1 die Genauigkeit und Effizienz der Code-Retrieval deutlich. Das Modell mit 1,5 Milliarden Parametern ist Open Source, während das Modell mit 7 Milliarden Parametern kommerziell verfügbar ist.

Mehr lesen

Aufbau eines robusten Bewertungsrahmens für RAG-Systeme

2025-02-14
Aufbau eines robusten Bewertungsrahmens für RAG-Systeme

Qodo hat einen KI-Codierungsassistenten auf Basis von Retrieval Augmented Generation (RAG) entwickelt und einen robusten Bewertungsrahmen geschaffen, um Genauigkeit und Vollständigkeit zu gewährleisten. Herausforderungen bestanden darin, die Richtigkeit von RAG-Ausgaben zu überprüfen, die von großen, privaten Datensätzen abgeleitet wurden. Der Rahmen bewertet die endgültig abgerufenen Dokumente und die endgültige generierte Ausgabe, wobei der Fokus auf „Antwortkorrektheit“ und „Abrufakkuratesse“ liegt. Um die Herausforderungen von Ausgaben in natürlicher Sprache zu bewältigen, wurde ein „LLM als Beurteiler“-Ansatz verwendet und ein Ground-Truth-Datensatz mit realen Fragen, Antworten und Kontext erstellt. Für mehr Effizienz wurden LLMs zur Unterstützung der Datensatzerstellung eingesetzt, und LLMs und RAGAS wurden verwendet, um die Antwortkorrektheit zu bewerten. Schließlich wurde ein eigener LLM-Beurteiler entwickelt und mit RAGAS kombiniert, um die Zuverlässigkeit zu verbessern und ihn mit Regressionstests in den Workflow zu integrieren, wodurch der Aufwand zur Überprüfung der Auswirkungen von Codeänderungen auf die Qualität drastisch reduziert wurde.

Mehr lesen

Qodo Merge 1.0: KI-gestützte Code-Review verbessert

2025-02-02
Qodo Merge 1.0: KI-gestützte Code-Review verbessert

Qodo Merge 1.0, ein KI-basiertes Code-Review-Tool, behebt nach über einem Jahr Entwicklung die in der KI-unterstützten Codierung innewohnenden Herausforderungen. Die neue Version bietet einen Fokus-Modus, der kritische Probleme wie Bugs und Sicherheitslücken priorisiert; dynamisches Lernen, das Vorschläge basierend auf akzeptierten Änderungen verfeinert; Echtzeit-Ticket-Kontextintegration; und einen `/implement`-Befehl, um Feedback in umsetzbare Codeänderungen umzuwandeln. Qodo Merge 1.0 macht Code-Reviews präziser, anpassungsfähiger und effizienter.

Mehr lesen

Effektive KI-Code-Vorschläge: Weniger ist mehr

2025-01-29
Effektive KI-Code-Vorschläge: Weniger ist mehr

Qodo (vormals Codium) hat mit seinem KI-gestützten Tool Qodo Merge eine wichtige Lektion beim Einsatz von LLMs für die Code-Review gelernt. Anfangs erwies sich die Priorisierung der Fehlererkennung gegenüber Stilvorschlägen als ineffektiv; das Modell wurde von den leichter zu findenden Stilproblemen überfordert, was zu einer „Suggestion Fatigue“ bei den Entwicklern führte. Der Durchbruch gelang durch die Vereinfachung der Aufgabe des Modells: Konzentration ausschließlich auf das Auffinden bedeutender Fehler und Probleme. Dieser laserfokussierte Ansatz erhöhte die Fehlererkennungsraten und das Signal-Rausch-Verhältnis, was zu einem Anstieg der Akzeptanzrate von Vorschlägen um 50 % und einer Steigerung der Gesamtwirkung um 11 % führte. Die wichtigste Erkenntnis: Manchmal ist das Eliminieren von Ablenkungen effektiver als komplexe Priorisierung.

Mehr lesen
Entwicklung

Open-Source LLM DeepSeek-R1 in Qodo Gen integriert

2025-01-27
Open-Source LLM DeepSeek-R1 in Qodo Gen integriert

Qodo (vormals Codium) hat die Integration von DeepSeek-R1, einem leistungsstarken Open-Source Large Language Model, vergleichbar mit OpenAIs o1, in seinen KI-gestützten Coding-Assistenten Qodo Gen bekannt gegeben. DeepSeek-R1 ist bekannt für seine starken Fähigkeiten im logischen Denken und seine Kosteneffizienz. Es bewältigt komplexe Coding-Herausforderungen und generiert Antworten schneller und kostengünstiger als viele proprietäre Modelle. Qodo Gen unterstützt mehrere Top-Tier LLMs und bietet Entwicklern ein sicheres und zuverlässiges KI-gestütztes Coding-Erlebnis.

Mehr lesen
Entwicklung

VS Code Python-Debugger: Mehr als nur print-Anweisungen

2025-01-10
VS Code Python-Debugger: Mehr als nur print-Anweisungen

Müde davon, Ihren Python-Code mit print-Anweisungen zu füllen? Die leistungsstarken Debugging-Funktionen von Visual Studio Code werden Ihren Workflow revolutionieren. Dieses Tutorial behandelt das Einrichten des Python-Debuggers von VS Code, das Verwalten von Breakpoints, das Untersuchen von Variablen und erweiterte Techniken wie die Ausnahmebehandlung, Remote-Debugging und die Leistungsanalyse. Lernen Sie, Ihren Python-Code effizient zu debuggen, lassen Sie die ineffiziente Ära der print-Anweisungen hinter sich und steigern Sie Ihre Entwicklungseffizienz.

Mehr lesen
Entwicklung Python Debugging