代码库问答基准数据集:Deep Code Bench
Qodo团队发布了Deep Code Bench,一个基于大型复杂代码库中真实问题的全新基准数据集。该数据集包含从代码拉取请求中提取的真实问题和答案,旨在更好地评估代码检索系统的性能。与现有基准不同,Deep Code Bench 的问题需要跨多个文件进行检索,更贴近真实的开发场景。研究人员使用了大型语言模型生成问题和答案,并采用了事实召回机制进行评估,最终结果表明Qodo的深度研究代理在事实召回率上表现最佳。
阅读更多
Qodo团队发布了Deep Code Bench,一个基于大型复杂代码库中真实问题的全新基准数据集。该数据集包含从代码拉取请求中提取的真实问题和答案,旨在更好地评估代码检索系统的性能。与现有基准不同,Deep Code Bench 的问题需要跨多个文件进行检索,更贴近真实的开发场景。研究人员使用了大型语言模型生成问题和答案,并采用了事实召回机制进行评估,最终结果表明Qodo的深度研究代理在事实召回率上表现最佳。
阅读更多
Qodo Command,一款命令行AI代码助手,在SWE-bench Verified基准测试中取得了71.2%的令人印象深刻的成绩。该测试模拟真实的软件工程场景,评估AI代理在代码审查、测试编写、bug修复和特性生成等方面的能力。Qodo Command凭借其上下文总结、执行规划、重试和回退机制以及LangGraph框架等特性,在无需微调的情况下实现了这一成绩。它支持多种大型语言模型,目前与Anthropic的Claude 4合作,致力于构建更具适应性和学习能力的代码代理。
阅读更多
Qodo公司使用其私有的PR基准测试对包括GPT-5在内的多个顶级语言模型进行了评估,该基准测试模拟真实的代码审查工作流程。结果显示,GPT-5在理解代码差异、识别bug和提出改进建议方面表现突出,其“最小”版本在速度和质量之间取得了良好的平衡。虽然GPT-5也存在一些不足,例如误报和标记不一致,但其在代码审查方面的整体表现令人印象深刻,标志着AI辅助代码审查领域的一个重要进步。
阅读更多
Qodo Gen CLI是一个强大的命令行界面工具,用于构建、管理和运行AI代理。它允许开发者创建自定义代理,自动化软件开发生命周期(SDLC)中的工作流程,并将AI能力集成到任何IDE中。Qodo Gen CLI支持多种LLM、灵活的部署方式,并提供终端和浏览器交互界面。它可以自动化代码审查、文档生成、测试覆盖率等任务,提高开发效率,让开发者专注于核心功能开发。
阅读更多
只有3.8%的开发者同时体验到AI生成的代码幻觉低且信心高,他们才是真正从AI生产力中受益的团队。他们信任AI的建议,加快了交付速度,并通过高质量的反馈闭环改进。在低幻觉的群体中,那些充满信心的开发者(17%)更有可能看到代码质量提升(44% vs 35%),并且对交付AI代码更有信心(24% vs 9%)。这部分开发者构成了“最佳状态”,其中一半以上(53%)报告代码质量得到明显改善,这表明准确性、质量和信心之间存在强关联。当开发者看到更少的错误和更高质量的输出时,他们更有可能信任AI并在生产中使用它。即使输出准确,多数开发者仍然犹豫,这时自动化质量检查就能弥合差距。
阅读更多
Java开发中常见的逻辑错误难以通过传统调试方法解决。文章介绍了一种测试驱动调试方法,通过编写单元测试来发现并定位逻辑错误。文章详细解释了多种测试技巧,例如假设测试、状态推进测试和回归测试,并阐述了如何利用测试结果理解代码行为,最终改进代码逻辑。此外,文章还提到了AI辅助单元测试工具,可以帮助开发者更有效地发现潜在的逻辑漏洞。
阅读更多
Qodo公司利用LangGraph框架构建了一个AI编码助手,该助手在灵活性和遵循编码最佳实践之间取得了平衡。最初,他们使用预定义流程处理编码任务,但随着Claude Sonnet 3.5等更强大的LLM出现,他们转向了LangGraph的图模型方法。LangGraph允许构建从完全开放式到完全结构化确定性流程的代理,这使得Qodo能够根据LLM能力调整其流程的结构化程度。该框架的简洁API、可重用组件和内置状态管理功能简化了开发流程,并支持持久性、检查点和分支点。虽然文档和测试方面存在一些挑战,但LangGraph为Qodo构建强大的AI编码助手提供了坚实的基础。
阅读更多
Qodo Gen 1.0版本发布,其AI编码和测试IDE插件引入了代理工作流,允许AI动态决策以处理复杂的编码任务。为了实现代理功能,Qodo Gen 使用LangGraph构建结构化代理工作流,并使用Anthropic的模型上下文协议(MCP)进行外部工具的标准化集成。该架构支持异步通信,按需上下文检索,以及增强的错误处理和可靠性,实现了AI自主操作、实时数据获取和基于工具执行结果的策略调整。LangGraph的图结构提供了灵活性和控制性,而MCP则简化了外部工具集成。Qodo Gen通过这种方式,实现了更智能的自动化、可扩展的系统和结构化的AI自主性。
阅读更多
Qodo发布了新的代码嵌入模型家族Qodo-Embed-1,其在保持小模型体积的同时,实现了最先进的性能。在CoIR基准测试中,1.5B参数的模型得分高达68.53,超越了更大的7B参数模型。该模型通过合成数据生成方法进行训练,解决了现有代码嵌入模型难以准确检索代码片段的问题,有效提升了代码检索的准确性和效率。1.5B参数模型已开源,7B参数模型则提供商业版本。
阅读更多
Qodo公司构建了一个基于检索增强生成(RAG)的AI代码助手,并开发了一个强大的评估框架来确保其准确性和全面性。评估面临的挑战包括验证基于大型私有数据集的RAG输出的正确性。该框架评估最终检索到的文档和最终生成的输出,关注“答案正确性”和“检索准确性”两个方面。为了应对自然语言输出的挑战,他们采用了“LLM作为评判者”的方法,并构建了一个包含真实问题、答案和上下文的ground truth数据集。为了提高效率,他们利用LLM辅助构建数据集,并使用LLM和RAGAS来评估答案的正确性。最终,他们构建了自己的LLM评判者,并将其与RAGAS结合使用,以提高评估的可靠性,并将其集成到工作流程中,实现了回归测试,显著降低了验证代码更改是否导致质量问题的难度。
阅读更多
Qodo Merge 1.0 作为一款 AI 代码审查工具,在一年多的发展中,解决了 AI 辅助编码中固有的挑战。新版本重点关注问题模式,优先处理错误、安全漏洞和可维护性等关键问题;动态学习功能通过分析已接受的建议来改进未来的建议;实时工单上下文功能将工单要求无缝集成到代码审查中;`/implement` 命令可将代码审查讨论和反馈转化为可操作的代码更改。Qodo Merge 1.0 使代码审查过程更精确、更具适应性和效率。
阅读更多
Qodo(前身为Codium)的AI代码审查工具Qodo Merge最初尝试让模型优先处理代码中的bug和问题,但结果却事与愿违。模型被更容易发现的风格问题淹没,导致开发者被大量低优先级建议困扰。后来,Qodo改变策略,只让模型专注于寻找有意义的bug和问题。这一策略显著提升了bug检测率和信噪比,建议采纳率提高了50%,整体影响力提升了11%。这表明,对于大型语言模型,有时最佳策略不是添加复杂的指令,而是消除干扰。
阅读更多
Qodo(前身为Codium)宣布其AI代码助手Qodo Gen集成DeepSeek-R1,这是一个与OpenAI o1性能相当的开源大型语言模型。DeepSeek-R1以其强大的推理能力和成本效益而闻名,能够处理复杂的编码挑战,并以更低的成本和更高的速度生成响应。Qodo Gen支持多种顶级LLM,为开发者提供安全可靠的AI辅助编码体验。
阅读更多
还在用print语句调试Python代码吗?Visual Studio Code强大的调试功能将彻底改变你的开发体验!本文介绍了VS Code的Python调试配置、断点管理、变量监控、以及高级调试技巧,例如异常处理、远程调试和性能分析。通过学习本文,你可以掌握如何高效地调试Python代码,告别低效的print调试时代,提升开发效率。
阅读更多
Qodo Merge 宣布支持 Jira 工单集成,旨在提升代码质量和项目合规性。该功能自动提取 Jira 工单信息并在拉取请求中显示,使开发者无需切换工具即可查看需求、验收标准等关键信息。这有助于减少手动验证的工作量、避免人为错误和沟通偏差,最终提高代码审查效率和项目交付质量。
阅读更多
Qodo(原Codium)宣布其平台新增支持四种模型:Anthropic的Claude Sonnet 3.5、OpenAI的o1-preview和o1-mini以及Google Gemini 1.5 Pro,并将于下周向所有用户发布。这些新模型在代码理解、问题推理和自然语言理解方面都有显著提升,能更好地处理复杂的编码任务。Qodo平台提供灵活的模型选择,方便开发者根据任务需求和成本控制选择合适的模型,并在不同模型之间轻松切换,保持上下文连续性。
阅读更多
本文介绍了 Qodo 公司开发的代码生成工具 AlphaCodium 如何提高 OpenAI 的 o1 模型在解决编程问题方面的性能。AlphaCodium 采用多阶段流程,强调通过迭代持续改进,生成代码、运行、测试并修复问题,最终获得完全验证的解决方案。实验证明,AlphaCodium 与 o1 配合使用时,准确率显著提高,表明 AlphaCodium 可以将 o1 的性能提升到“系统 1.5”思维,即介于快速推理和深度推理之间。
阅读更多