Webtagr - 科技资讯摘要

Gemini 2.5 Pro：代码生成领域的新霸主？

2025-03-31

Google Gemini 2.5 Pro横空出世，其编码、推理和整体性能均被宣称优于其他模型。本文重点对比了Gemini 2.5 Pro与另一款强大的编码模型Claude 3.7 Sonnet。通过四个编码问题的测试，Gemini 2.5 Pro在准确性和效率上都展现出显著优势，特别是其百万级上下文窗口使其能够处理更复杂的任务。虽然Claude 3.7 Sonnet的表现也不俗，但在与Gemini 2.5 Pro的直接对比中，其优势不再明显。Gemini 2.5 Pro的免费使用也使其更具吸引力。

(composio.dev)

AI

Deepseek v3：607B参数的开源LLM巨头，以低成本超越GPT-4？

2025-01-02

Deepseek发布了其旗舰模型v3，这是一个拥有6070亿参数的混合专家模型，其中370亿参数处于活跃状态。该模型在基准测试中与OpenAI GPT-4o和Claude 3.5 Sonnet不相上下，甚至在某些任务上表现更好，成为目前最佳的开源模型，超越了Llama 3.1 403b、Qwen和Mistral。Deepseek v3的训练成本仅为600万美元，却取得了令人瞩目的性能，这得益于其突破性的工程技术：混合专家架构、FP8混合精度训练和定制的HAI-LLM框架。在推理和数学方面，它甚至超越了GPT-4和Claude 3.5 Sonnet，但在写作和编码方面略逊一筹。其性价比极高，对于希望部署面向用户的AI应用程序的开发者来说，是一个极具吸引力的选择。

(composio.dev)

AI 混合专家模型

Anthropic 的计算机使用能力测评

2024-10-25

Anthropic 发布了 Haiku 3.5 和 Sonnet 3.5，其中 Sonnet 3.5 具备名为“计算机使用”的开创性功能，允许其理解图像、移动光标、点击和输入文本，像人类一样与计算机交互。作者测试了该模型在互联网搜索、创建电子表格、根据天气查找餐厅等真实场景下的应用。结果表明，Sonnet 3.5 能成功执行简单任务，但在处理涉及关键信息的任务时会拒绝操作。虽然该模型在计算机交互方面表现出色，但其高昂的成本和较慢的速度限制了实际应用。

(composio.dev)

25

未分类 AI Agent Sonnet 3.5