Webtagr - 科技资讯摘要

OpenAI发布开源大型语言模型gpt-oss：本地运行的强大推理引擎

2025-08-10

OpenAI本周发布了其首个自2019年GPT-2以来重量级开源大型语言模型gpt-oss-120b和gpt-oss-20b。令人惊喜的是，通过巧妙的优化，它们可以在本地运行。文章深入探讨了gpt-oss模型架构，包括其与GPT-2和Qwen3等模型的比较，重点分析了其独特的架构设计选择，如混合专家(MoE)、分组查询注意力(GQA)和滑动窗口注意力等。尽管在某些基准测试中，gpt-oss的表现与闭源模型持平，但其本地运行能力和开源属性使其成为研究和应用的宝贵资源。

(magazine.sebastianraschka.com)

AI

2025年大型语言模型架构演进：DeepSeek、OLMo、Gemma、Mistral与Qwen的创新

2025-07-20

本文回顾了2025年大型语言模型（LLM）的架构发展，重点关注DeepSeek、OLMo、Gemma、Mistral和Qwen等开源模型。DeepSeek V3/R1通过多头潜在注意力（MLA）和混合专家（MoE）技术提升计算效率；OLMo 2则注重规范化层（RMSNorm）的放置，采用后规范化（Post-Norm）和QK-Norm；Gemma 3利用滑动窗口注意力降低内存需求；Mistral Small 3.1在性能和速度上取得平衡；Qwen 3提供密集型和MoE两种模型，满足不同需求；SmolLM3以其30亿参数规模和NoPE技术（无位置嵌入）而引人注目；最后，Kimi 2凭借其万亿参数规模和Muon优化器成为亮点。这些模型在注意力机制、规范化、MoE和优化器等方面进行了创新，展现了LLM架构的多样性和持续演进。

(magazine.sebastianraschka.com)

AI 架构创新

LLM推理模型的四种构建方法

2025-02-06

本文探讨了增强大型语言模型（LLM）推理能力的四种主要方法：推理时间扩展、纯强化学习、监督微调加强化学习以及模型蒸馏。DeepSeek R1模型的研发过程被用作案例研究，展示了如何通过这些方法构建强大的推理模型，即使在预算有限的情况下也能通过蒸馏技术获得令人印象深刻的结果。文章还比较了DeepSeek R1与OpenAI的o1模型，并讨论了构建经济高效的推理模型的策略。

(magazine.sebastianraschka.com)

AI

从零构建大型语言模型：3小时编码研讨会

2024-09-01

本文介绍了作者Sebastian Raschka博士创建的一个时长3小时的编码研讨会，该研讨会旨在帮助开发者理解和构建大型语言模型（LLM）。研讨会涵盖了LLM的输入数据、架构、预训练、微调和评估等方面，并提供了相应的代码示例和资源。

(magazine.sebastianraschka.com)

55

未分类编码研讨会