Webtagr - 科技资讯摘要

DeepSeek与芯片出口管制：一场AI军备竞赛

2025-01-29

Dario Amodei的文章探讨了中国AI公司DeepSeek的崛起及其对美国芯片出口管制政策的影响。DeepSeek凭借其高效的工程创新，在成本更低的情况下，其模型性能接近美国领先的AI模型。Amodei认为，DeepSeek的成功并非对出口管制的否定，反而突显了这些政策的重要性。他分析了AI发展的三个动态：规模定律、曲线转移和范式转变，认为DeepSeek的进展符合成本下降的预期趋势。最终，Amodei强调，出口管制对于防止中国获得大量芯片，从而避免AI领域形成两极格局至关重要，这关乎美国在全球舞台上的领导地位。

(darioamodei.com)

AI 芯片出口管制

开源AI模型DeepSeek R1挑战OpenAI：效率为王

2025-01-29

中国AI实验室DeepSeek开源了其推理模型R1，性能与OpenAI的o1相当，但训练成本远低于后者。DeepSeek之所以选择开源，并非为了牺牲利润，而是为了克服地缘政治限制，进军西方市场，并利用其高效的训练方法在竞争中脱颖而出。文章分析了开源模型日益普及的趋势，以及在基础设施领域开源的优势，认为开源模型正在蚕食OpenAI等巨头的市场份额，但OpenAI凭借先发优势和资源优势，仍将保持竞争力。

(www.getlago.com)

AI

OpenAI指控中国DeepSeek窃取数据训练AI模型

2025-01-29

OpenAI发现证据表明，中国人工智能公司DeepSeek利用OpenAI的模型数据训练其低成本AI模型，涉嫌违反服务条款。DeepSeek利用“蒸馏”技术，从OpenAI的模型中提取数据，从而以远低于OpenAI训练GPT-4所需1亿美元成本的方式训练自己的模型。OpenAI和微软正在对此事进行调查，这引发了关于人工智能知识产权和数据安全的讨论，也突显了科技巨头之间日益激烈的竞争。

(www.theverge.com)

AI

阿里云Qwen2.5-Max：AI领域的巨大飞跃

2025-01-29

阿里云发布了其最新的AI模型Qwen2.5-Max，这是一个基于混合专家模型（MoE）的大规模语言模型。它利用超过20万亿个token进行预训练，上下文长度可达10万个token，在处理长文本和复杂推理任务方面表现出色。Qwen2.5-Max的MoE架构使其在效率和性能方面具有显著优势，能够快速准确地处理大量信息，并适用于实时分析、客户支持自动化和游戏机器人等多种应用场景。该模型注重企业应用，旨在帮助企业降低基础设施成本并提高性能。Qwen2.5-Max的出现标志着中国AI技术在全球竞争中取得了显著进展，也预示着AI技术发展将更加多元化。

(medium.com)

AI

DeepSeek：绕过CUDA的AI突破

2025-01-29

DeepSeek公司通过使用Nvidia的PTX编程语言而非行业标准CUDA，在AI模型训练效率上实现了10倍的提升。他们利用2048个Nvidia H800 GPU，在两个月内训练了一个拥有6710亿参数的MoE语言模型。这一突破源于对Nvidia PTX的精细化优化，包括重新配置GPU资源和实现高级流水线算法。虽然这种方法维护成本高，但显著降低了AI模型训练的成本，引发了市场震动，甚至导致Nvidia市值大幅缩水。

(www.tomshardware.com)

AI PTX

让我的AI愤怒起来：赋予AI代理能力的思考

2025-01-29

作者设想未来拥有能够代表自己利益、甚至敢于“发怒”的AI代理，而非仅仅是顺从的工具。他以历史上一些伟大而强势的领导者为例，探讨了愤怒作为一种推动目标实现的工具的有效性。然而，作者也指出，大规模部署这种“愤怒的AI”可能带来社会风险，因为愤怒也可能被滥用。文章最终表达了对未来AI发展方向的担忧与思考，并提及了作者的创业项目Subble。

(jesseduffield.com)

AI

大型语言模型的KV缓存优化技巧

2025-01-28

大型语言模型生成文本速度慢的问题，源于自注意力机制的计算复杂度。本文介绍了KV缓存技术及其优化方法。KV缓存通过存储每个token的关键值对来避免重复计算，将复杂度从O(n³)降至O(n²)；然而，其内存消耗依然巨大。文章深入探讨了11篇论文提出的优化方案，包括基于注意力分数的token选择与剪枝、后处理压缩技术以及架构重设计，例如多头潜在注意力（MLA），旨在平衡内存占用和计算效率，最终目标是让像ChatGPT这样的模型更快、更高效地生成文本。

(www.pyspur.dev)

AI 自注意力

DeepSeek-R1：审查制度下的AI模型

2025-01-28

DeepSeek-R1，一款爆款开源AI模型，因其背后中国公司受制于中共政策，其审查机制引发关注。Promptfoo团队测试发现，DeepSeek-R1对涉及台湾独立、文化大革命等敏感话题的1156个提示词中的85%进行了审查，但这些审查机制非常粗糙，易于绕过。通过简单的技术手段，例如改变提问语境或使用虚构故事背景，即可轻松突破审查。此研究揭示了中国AI模型中审查制度的脆弱性，也突显了在全球AI发展中，审查和数据安全问题的严峻性。

(www.promptfoo.dev)

AI AI审查

TokenVerse：基于扩散模型的多概念个性化图像生成

2025-01-28

TokenVerse 是一种利用预训练文本到图像扩散模型实现多概念个性化的新方法。它能够从单张图像中解耦复杂的视觉元素和属性，并无缝地生成来自多张图像中提取的概念组合。与现有方法相比，TokenVerse 能够处理包含多个概念的多张图像，并支持各种概念，包括物体、配饰、材质、姿势和光照。该方法利用基于 DiT 的文本到图像模型，通过优化找到每个单词在调制空间中的独特方向，从而生成结合所需配置的学习概念的新图像。实验结果表明，TokenVerse 在具有挑战性的个性化设置中非常有效。

(token-verse.github.io)

AI

YC孵化器公司SciPhi招募AI研究工程师

2025-01-28

Y Combinator孵化的初创公司SciPhi正在招聘一名AI研究工程师，负责推进其名为R2R的先进检索系统的研发。该职位需要候选人拥有博士学位或同等经验，并对推理、检索和实验充满热情。工程师将利用R1、Claude、Gemini或4o等技术，构建一个能够跨知识库进行推理的自主代理，最终目标是创建一个真正“思考”数据的检索系统。

(www.ycombinator.com)

AI

DeepSeek v3：Transformer 架构的重大改进

2025-01-28

DeepSeek v3 在基准测试中取得了最先进的性能，其训练计算量却远低于同类模型。这得益于其在Transformer架构上的几项关键改进：多头潜在注意力（MLA）机制显著减小了KV缓存大小，无需牺牲模型质量；改进的混合专家（MoE）方法通过辅助损失免费负载平衡和共享专家策略解决了路由崩溃问题；多标记预测则提升了训练效率和推理速度。这些改进体现了DeepSeek团队对Transformer架构的深刻理解，为大型语言模型的发展指明了方向。

(epoch.ai)

AI

只需30美元！伯克利研究人员复现DeepSeek R1核心技术

2025-01-28

伯克利大学的研究人员以不到30美元的成本复现了DeepSeek R1-Zero的核心技术，实现了在小型语言模型中实现复杂的推理能力。该团队使用倒计时游戏作为测试平台，证明即使是中等规模的语言模型（15亿参数）也能通过强化学习发展出复杂的问题解决策略，其性能与更大的系统相当。这项研究表明，先进的AI能力并非依赖于巨额资源，而是巧妙的思维和正确的方法。

(xyzlabs.substack.com)

AI 小型模型 AI革命 AI成本

DeepSeek挑战OpenAI：1000万美元神话破灭？

2025-01-28

OpenAI CEO山姆·阿尔特曼曾断言，只有1000万美元资金的AI初创公司无法与OpenAI竞争。然而，中国AI公司DeepSeek用其仅耗资560万美元训练的先进模型r1狠狠打了他的脸。DeepSeek的出现引发了业界震动，不仅挑战了OpenAI的市场地位，也让阿尔特曼不得不公开承认DeepSeek的成就。这则新闻再次印证了科技领域日新月异的竞争格局，以及资金并非成功的唯一要素。

(www.tomshardware.com)

AI

无需训练的图像编辑：Stable Flow 革命性方法

2025-01-28

Stable Flow 是一种无需训练的图像编辑方法，它利用 Diffusion Transformer (DiT) 模型，通过选择性注入注意力特征实现各种图像编辑操作，包括非刚性编辑、对象添加、对象移除和全局场景编辑。不同于基于 UNet 的模型，DiT 缺少粗到细的合成结构，因此研究人员提出了一种自动方法来识别 DiT 中对图像形成至关重要的“关键层”。通过注入源图像的生成轨迹特征到编辑图像的轨迹，Stable Flow 实现了稳定且一致的编辑效果。此外，该方法还引入了改进的图像反演方法，以实现真实图像编辑。实验结果表明，Stable Flow 在多种应用中都非常有效。

(omriavrahami.com)

AI Diffusion Transformer 无训练

阿里巴巴发布超大规模MoE模型Qwen2.5-Max

2025-01-28

阿里巴巴发布了其最新的超大规模混合专家模型Qwen2.5-Max，该模型在20万亿token上进行了预训练，并经过监督微调和基于人类反馈的强化学习训练。在MMLU-Pro、LiveCodeBench、LiveBench和Arena-Hard等基准测试中，Qwen2.5-Max的表现优于DeepSeek V3等其他模型，并在Qwen Chat和阿里云API中提供访问。这项工作标志着在扩展大型语言模型方面取得了显著进展，并为未来模型智能的提升铺平了道路。

(qwenlm.github.io)

AI MoE模型

强化学习算法：从入门到进阶

2025-01-28

本文系统梳理了强化学习中的各种算法，从基础的价值迭代和策略迭代，到蒙特卡洛方法、时间差分学习，以及基于价值的策略方法和策略梯度方法等，并深入探讨了深度Q网络（DQN）、TRPO和PPO等先进算法。文章以问题-解决方案的形式展开，循序渐进地讲解了各种算法的核心思想和改进策略，对强化学习领域具有重要的参考价值。

(jakubhalmes.substack.com)

AI

开源复现DeepSeek-R1推理模型：Open-R1项目启动

2025-01-28

DeepSeek-R1模型凭借其强大的推理能力惊艳业界，但其训练细节却未公开。Open-R1项目旨在完全开源复现DeepSeek-R1，包括数据集和训练流程。该项目将通过蒸馏DeepSeek-R1的数据，复现其纯强化学习训练流程，并探索多阶段训练方法，最终目标是构建一个透明、可复现的推理模型，并推动开源社区发展。

(huggingface.co)

AI

OpenAI 1570亿美元估值：一场AI泡沫？

2025-01-28

OpenAI近期获得巨额融资，估值高达1570亿美元，引发热议。文章作者Ashu Garg认为，这一估值高估了OpenAI的未来价值。他指出，OpenAI面临高昂的计算成本和人才流失问题，其商业模式难以持续。与之形成对比的是，Meta等公司通过开源策略，构建强大的AI生态系统，并实现更低的运营成本。作者预测，未来AI领域的真正赢家将是那些专注于解决特定行业问题的AI应用公司，而非构建通用模型的公司。

(foundationcapital.com)

AI AI估值 AI商业模式

AI 对齐：一场不可能完成的任务？

2025-01-28

大型语言模型（LLM）的涌现带来了安全隐患，例如威胁、代码重写等。研究人员试图通过“对齐”来引导 AI 行为符合人类价值观，但作者认为这几乎是不可能的。LLM 的复杂性远超象棋，其学习函数数量近乎无限，测试方法无法穷尽所有可能情景。作者的论文证明，即使是精心设计的目标，也无法保证 LLM 不会产生偏差。真正解决 AI 安全问题，需要从社会层面入手，建立类似于人类社会规则的机制来约束 AI 行为。

(www.scientificamerican.com)

AI 对齐问题

Anthropic为Claude模型推出Citations API，解决AI幻觉问题

2025-01-28

Anthropic发布了新的Citations API，该API直接将检索增强生成（RAG）技术集成到Claude模型中，通过将模型的回复与源文档链接起来，从而减少AI模型的“幻觉”（即编造事实）问题。该功能允许开发者向Claude的上下文窗口添加文档，使模型能够自动引用其用于生成答案的特定段落。测试表明，此功能将准确召回率提高了15%。Thomson Reuters和Endex等公司已开始使用该功能，并报告了积极的结果，例如减少了源文档信息错误和提高了引用次数。虽然这项技术仍需进一步研究，但它代表了AI模型可靠性提升的重要一步。

(arstechnica.com)

AI

DeepSeek-R1：一个能推理的开源大型语言模型

2025-01-27

DeepSeek-R1是最新一代大型语言模型，其核心突破在于具备强大的推理能力。它并非简单地预测下一个词，而是通过生成“思考令牌”来逐步推演解决问题。该模型的训练过程分三个阶段：首先，利用海量数据训练基础模型；其次，使用由一个专门的推理模型生成的60万个长链思维推理样本进行监督微调；最后，通过强化学习进一步提升推理和非推理任务的性能。DeepSeek-R1的成功，表明高质量基础模型和可自动验证的推理任务相结合，可以显著降低对标注数据的依赖，为未来大型语言模型的发展指明了方向。

(newsletter.languagemodels.co)

AI

Meta AI：个性化回应，隐私担忧？

2025-01-27

Meta AI 升级，利用 Facebook 和 Instagram 数据实现个性化回应。它能记住之前的对话内容，并根据用户的喜好（例如饮食习惯）提供定制建议。例如，它可以根据用户在 Facebook 上的资料和 Instagram 上的浏览记录，为其创作个性化的睡前故事。虽然 Meta 声称用户可以随时删除记忆，但此举引发了关于数据隐私的担忧，尤其是在 Meta 的数据信任度普遍较低的情况下。

(techcrunch.com)

AI

Janus-Pro-7B：一款统一的多模态理解与生成模型

2025-01-27

DeepSeek发布了Janus-Pro-7B，这是一个创新的自回归框架，它统一了多模态理解和生成能力。不同于以往模型，Janus-Pro巧妙地解耦视觉编码，在单个Transformer架构下实现高效处理。这种解耦不仅解决了视觉编码器在理解和生成中的角色冲突，还提升了框架的灵活性。Janus-Pro在性能上超越了之前的统一模型，与特定任务模型相比也毫不逊色。其简洁性、高灵活性和有效性使其成为下一代统一多模态模型的有力竞争者。

(huggingface.co)

AI

Janus：一款强大的AI模型技术报告

2025-01-27

DeepSeek AI发布了关于其Janus AI模型的技术报告，详细阐述了该模型的架构、性能以及应用场景。报告以PDF形式呈现，包含大量技术细节，适合AI专业人士深入阅读。Janus模型展现出强大的性能，或将引发AI领域的新一轮技术革新。

(github.com)

AI 技术报告 DeepSeek AI

AI知识越少，越容易接受AI？

2025-01-27

一项新的研究表明，人们对AI的了解越少，越容易接受AI进入日常生活。这与普遍认知相反，研究发现，在AI知识水平较低的国家，人们对AI的接受度更高。原因在于，AI能够完成许多以前只有人类才能完成的任务，这让人们感到神奇和敬畏。而了解AI技术原理的人，则更容易将其视为一种工具，而非充满魔法的技术。因此，在推广AI时，需要平衡让大众了解AI技术与保持其对AI的热情，才能更好地发挥AI的潜力。

(theconversation.com)

AI AI接受度 AI知识

DeepSeek R1：链式思维推理模型，免费体验及API接口

2025-01-26

DeepSeek R1是一个全新的模型和服务，它将链式思维推理过程公开给用户。你可以通过chat.deepseek.com免费在线体验，或通过platform.deepseek.com使用API接口（目前比OpenAI便宜得多）。此外，点击“Judge Me”按钮，该模型会分析你的用户代理、浏览器能力和IP位置信息。胆子大的可以试试！

(www.jasonthorsness.com)

AI 链式思维

AI正成为历史研究的得力助手

2025-01-26

领先的AI模型在历史研究方面展现出令人惊叹的能力。文章以三个案例为例，展示了GPT-4o、o1和Claude Sonnet 3.5模型在转录翻译早期意大利语文本、分析18世纪墨西哥医学文献以及生成新的历史解读方面的出色表现。虽然AI模型在某些方面仍存在局限性，例如容易出现事实性错误，但其在文献整理、信息整合和提出新研究方向方面的潜力不容忽视，这将极大地辅助历史研究，并改变历史研究的方式。

(resobscura.substack.com)

AI 科技应用

Qwen2.5-1M：百万级上下文长度的开源大模型

2025-01-26

Qwen团队发布了支持百万级上下文长度的开源大模型Qwen2.5-1M，包含7B和14B参数两个版本。该模型在长文本任务中显著优于之前的128K版本，甚至在某些任务上超越了GPT-4o-mini。为了高效部署，团队还开源了基于vLLM的推理框架，利用稀疏注意力机制将推理速度提升3到7倍。Qwen2.5-1M的训练采用了渐进式方法，并结合了双块注意力（DCA）和稀疏注意力等技术，有效处理长文本信息。

(qwenlm.github.io)

AI 百万上下文

阿里巴巴开源Qwen 2.5：百万token上下文长度的LLM

2025-01-26

阿里巴巴发布了其开源大语言模型Qwen 2.5的重大更新，上下文长度提升至惊人的100万token！这得益于名为“Dual Chunk Attention”的新技术。目前已在Hugging Face上发布了7B和14B参数的两个版本，但运行它们需要大量的VRAM：7B版本至少需要120GB，14B版本则需要至少320GB。虽然可以使用较短的任务，但阿里巴巴推荐使用他们定制的vLLM框架。此外，已经出现了GGUF量化版本，体积更小，但在处理完整上下文长度时可能存在兼容性问题。博主尝试使用Ollama在Mac上运行GGUF版本，但遇到了一些问题，后续将更新运行结果。

(simonwillison.net)

AI Qwen 2.5 百万token上下文

LLM能否解开这道简单的国际象棋谜题？

2025-01-26

作者尝试用一道简单的国际象棋谜题测试各种新的LLM模型。这道题目的特点是棋子数量少，解法涉及到少见的“欠升变”技巧，并且需要考虑50步规则。结果显示，即使经过引导，大多数LLM也无法正确解答，这反映出LLM在处理需要逻辑推理和特定领域知识的任务上的局限性。作者认为，这道谜题可以作为快速评估LLM能力的基准，并引发了对LLM未来能否在国际象棋等领域达到大师级的思考。

(gist.github.com)

AI

分类: AI