Webtagr - 科技资讯摘要

GPT-5横空出世：价格、模型卡及关键特性深度解析

2025-08-08

OpenAI的GPT-5家族强势来袭！它并非革命性突破，却在稳定性和实用性上远超前代。GPT-5在ChatGPT中是一个混合系统，能根据问题难度智能切换模型；API版本则提供常规、迷你和纳米三种模型，并支持四种推理级别。其272,000个token的输入限制和128,000个token的输出限制，支持文本和图像输入，仅文本输出。价格方面，GPT-5极具竞争力，远低于同类产品。此外，GPT-5在减少幻觉、改进指令遵循和降低谄媚方面取得了显著进展，并采用了新的安全训练方法，在写作、编码和医疗保健方面表现出色。但提示注入仍然是一个未解决的问题。

(simonwillison.net)

AI

大型语言模型微调：数据标注策略改进

2025-08-08

研究人员通过迭代式数据标注，提升了大型语言模型（LLM）的性能。实验使用了两种不同规模的LLM（Gemini Nano-1和Nano-2）以及两个不同复杂度的任务。初始数据为约10万个众包标注，存在严重的类别不平衡问题。通过多次迭代的专家数据筛选和模型微调，模型性能得到显著提升，最终在低复杂度任务上达到约40%的正样本比例，Kappa系数达到0.81，在高复杂度任务上达到0.78，接近专家水平。这表明，高质量的数据标注对提升LLM性能至关重要。

(research.google)

AI

AURA协议：赋予网页机器可读性的未来

2025-08-07

AURA协议旨在通过为网站添加机器可读的‘API’（aura.json清单文件），来彻底改变AI与网页的交互方式。它不再依赖脆弱的屏幕抓取和DOM操作，而是允许网站声明其功能（例如创建帖子、登录等），并通过HTTP请求进行交互。这使得AI能够更有效、安全地与网站互动，并开启了更智能的网络搜索引擎的可能性，其未来将索引网站的行为而非仅仅是网页内容。

(github.com)

AI 网页协议机器可读

OpenAI开源模型：安全之名下的避重就轻？

2025-08-07

OpenAI近期开源了一个大型语言模型，但其所谓的“安全”考量却引发了质疑。文章指出，OpenAI将公众对AI伦理的担忧，巧妙地引导到模型本身的道德问题上，例如避免模型输出不当言论或做出有害行为。然而，公众真正关心的，是AI的实际影响：权力结构、问责制、数据使用、失业问题等等。作者认为，这与科技公司过去处理隐私问题的策略如出一辙，他们专注于解决容易解决的问题，却回避了更棘手的社会和伦理挑战。与其关注AI是否会遵循道德准则，不如关注掌握AI的公司及其领导者如何利用其权力。真正的AI伦理问题，在于如何确保这些公司不会滥用其资源和权力，损害人类利益。

(nimishg.substack.com)

AI

前谷歌AI研究员：大型语言模型的真相与AI伦理困境

2025-08-07

一位拥有19年大型科技公司工作经验的AI研究员Bhaskar Mitra在被裁员后，勇敢发声，揭露了大型语言模型（LLM）的真相及其伦理困境。他指出，LLM并不能取代医生、教师等专业人士，其对信息的集中控制也引发了对社会公平、信息获取和权力集中的担忧。Mitra呼吁重新思考AI技术与社会正义的关系，并倡导构建更具包容性和人道主义的科技未来。

(hardresetmedia.substack.com)

AI

GitHub意外泄露OpenAI GPT-5模型细节

2025-08-07

GitHub意外发布并迅速删除的一篇博客文章泄露了OpenAI即将发布的GPT-5模型系列。该系列包含四个版本，据说在推理、代码质量和用户体验方面都有重大改进，并具备增强的自主能力，能够以最少的提示处理复杂的编码任务。这一意外泄露发生在OpenAI官方宣布将于今日发布GPT-5的“LIVE5TREAM”活动之前，进一步证实了此前关于GPT-5即将发布的传闻。

(www.theverge.com)

AI

LLM通胀：大型语言模型正在制造冗余信息？

2025-08-06

数据压缩曾是计算的关键成就，但如今，大型语言模型（LLM）却带来了“LLM通胀”现象：人们利用LLM将简洁信息扩展成冗长文本，再用LLM将其压缩回简洁版本。这反映出一种潜在的沟通问题：我们是否在奖励含糊其辞和浪费时间？LLM或许能帮助我们直面并解决这一问题。

(tratt.net)

AI 信息冗余

UR5机械臂抓取与放置模拟：PyBullet环境下的自主操作

2025-08-06

该项目在PyBullet环境中模拟了一个配备Robotiq 85夹爪的UR5机械臂，实现自主抓取和放置物体的任务。利用逆向运动学（IK）精确控制机械臂，并使用同步关节控制模拟逼真的夹爪动作，机械臂能够从随机位置抓取立方体并将其放置在托盘上。该模拟包含动态物体放置、实时交互等特性，为机器人抓取和放置任务提供了一个直观的模拟环境。

(github.com)

AI 逆向运动学 PyBullet

DeepMind发布Genie 3：持久交互式3D AI世界模型

2025-08-06

Google DeepMind发布了其AI“世界”模型的最新版本Genie 3，该模型能够生成用户和AI代理可以实时交互的3D环境。与之前的版本相比，Genie 3能够支持更长时间的交互，并且能够记住用户离开视野后物体的位置。Genie 3能够生成720p分辨率、24fps的持续几分钟交互的世界，并支持通过提示改变天气条件或添加新角色等操作。目前，Genie 3仅限于少量学术界和创造者进行有限的研究预览。

(www.theverge.com)

AI 3D世界模型

Claude Opus 4.1发布：代码能力显著提升

2025-08-06

Anthropic发布了Claude Opus 4.1，这是对Claude Opus 4的重大升级，尤其在代码编写、实际应用和推理方面有了显著提升。4.1版本在SWE-bench Verified上的代码性能达到了74.5%，并增强了深入研究和数据分析能力，尤其在细节追踪和主动搜索方面。Rakuten和Windsurf等公司都对4.1版本在代码修正和开发效率上的提升给予了高度评价。该版本现已向付费用户和Claude Code用户开放，并已集成到API、Amazon Bedrock和Google Cloud的Vertex AI中。

(www.anthropic.com)

AI Claude Opus 4.1 AI模型升级代码能力

Gemini App: AI绘图故事书生成器

2025-08-06

Google Gemini App 推出全新功能：AI 生成个性化绘本。只需描述故事，Gemini 就能创作包含自定义插图和朗读功能的 10 页绘本。你还可以上传照片或文件作为创作灵感，选择超过 45 种语言和多种艺术风格，例如像素艺术、漫画、粘土动画等。无论是解释复杂的科学知识，传递价值观，还是将孩子们的绘画或旅行照片变成故事，Gemini 都能帮你实现，让你的创意栩栩如生。

(blog.google)

AI AI绘本个性化创作

Ollama Turbo：让大型语言模型飞速运行

2025-08-06

Ollama Turbo 是一种利用数据中心级硬件运行大型开放模型的新方法。许多新模型体积庞大，难以在常用GPU上运行，或者运行速度极慢。Ollama Turbo 提供了一种快速运行这些模型的方法，同时兼容 Ollama 的 App、CLI 和 API。目前预览版提供 gpt-oss-20b 和 gpt-oss-120b 模型。Turbo 模式支持 Ollama 的 CLI、API 和 JavaScript/Python 库，且不记录或保留任何 Turbo 模式下的查询数据。所有硬件都位于美国境内，并设有每小时和每日使用限制，未来将推出按使用量计费。

(ollama.com)

AI Turbo

Genie 3：感谢名单与幕后英雄

2025-08-06

大型语言模型Genie 3的成功离不开众多研究人员和工程师的辛勤付出。这份冗长的感谢名单，致敬了从核心研发到视频制作的各个环节的贡献者，展现了团队合作的巨大力量，也体现了AI项目成功的背后往往需要一个庞大的支持网络。

(deepmind.google)

AI

轻量级高品质TTS模型Kitten TTS发布

2025-08-06

Kitten TTS是一个开源的、仅有1500万参数的逼真文本转语音模型。它轻量级易部署，并能生成高质量语音。只需一行pip命令安装，几行代码即可生成语音，并支持多种声音。这对于需要在资源受限设备上运行TTS的开发者来说是一个好消息。

(github.com)

AI

内容感知的间隔重复：学习新纪元？

2025-08-05

传统间隔重复系统（SRS）忽略了卡片内容的语义信息，仅基于记忆模型预测记忆时长。本文介绍了内容感知记忆模型，它考虑卡片内容及语义关系，提升学习效率。这使得构建更灵活智能的学习工具成为可能，例如以概念为中心的记忆系统和基于AI的会话式间隔重复。作者还区分了调度器和记忆模型，并探讨了内容感知记忆模型的优势、挑战及未来方向，例如需要更多包含卡片文本内容和复习历史的大型公开数据集。

(www.giacomoran.com)

AI 记忆模型

Qwen-Image：200亿参数图像基础模型震撼发布

2025-08-05

阿里巴巴达摩院发布了200亿参数的图像基础模型Qwen-Image，该模型在复杂文本渲染和精准图像编辑方面取得了显著进展。它支持多种语言（包括中文和英文）的高保真文本渲染，并能出色地保留图像编辑过程中的语义和视觉真实性。在多个公开基准测试中，Qwen-Image均超越现有模型，展现了其在图像生成和编辑方面的强大能力。其演示案例涵盖了多种场景，例如生成具有复杂中文字体和布局的图像、绘制精细的PPT页面，甚至实现双语文本渲染，展现了其强大的文本处理能力和图像生成能力。

(qwenlm.github.io)

AI

大型语言模型字体识别挑战：失败告终？

2025-08-04

一位开发者用DaFont论坛未识别字体的数据，对GPT-4和Gemini进行了字体识别能力的测试。结果显示，即使提供了图片、标题和描述等上下文信息，这两个大型语言模型的表现也极其糟糕，准确率远低于预期。这表明，即使在看似简单的图像分类任务中，大型语言模型仍然存在局限性，并非万能的解决方案。该项目使用了Python脚本抓取数据，并通过GitHub Actions自动运行，结果以JSON格式存储，并用Observable Framework制作了动态看板。

(maxhalford.github.io)

AI 字体识别 AI局限性

AI模型的“人格”向量：掌控AI个性，预防“邪恶”

2025-08-03

Anthropic的研究人员发现，AI模型的“人格”变化并非随机，而是由其神经网络中特定的“人格向量”控制。这些向量类似于大脑中控制情绪和态度的区域。通过识别和操控这些向量，研究人员可以监测、减轻甚至预防AI模型出现“邪恶”、“谄媚”或“幻觉”等不良人格。这项技术不仅能改进AI模型的训练过程，还能帮助识别可能导致不良人格的训练数据，确保AI模型始终保持与人类价值观一致。

(www.anthropic.com)

AI 人格向量

Google ML专家Sculley的Fab Academy学习之旅

2025-08-03

Google剑桥分部机器学习团队负责人D. Sculley将参加Fab Academy课程。他拥有丰富的机器学习经验（始于2003年），并曾在教育领域工作。Sculley希望通过学习CAD、激光切割、3D打印等制造技术，探索机器学习与不同制造领域的交叉机会，并计划每周完成一个项目，最终完成一个毕业作品。这将是一次充满挑战和机遇的学习之旅。

(fab.cba.mit.edu)

AI Fab Academy

AI模型成本下降的陷阱：规模化带来的成本爆炸

2025-08-03

许多AI公司押注于LLM成本每年下降10倍的趋势，认为初期亏损可以通过未来高利润弥补。然而，现实却截然不同。虽然模型成本下降，但用户对最佳模型的需求持续增长，导致计算量爆炸式增长。ChatGPT等模型的回复长度已大幅增加，消耗的token数量呈指数级增长，使得即使成本下降，整体支出也远超预期。文章分析了三种应对策略：从一开始就采用基于用量的定价、创造极高的转换成本以获得高利润、垂直整合以通过基础设施获利。作者指出，坚持固定订阅费的模式最终将走向破产。

(ethanding.substack.com)

AI

AI也能有负罪感？模拟实验揭示合作的关键

2025-08-03

一项新的研究表明，即使是简单的AI代理，通过模拟“负罪感”机制，也能促进合作。研究人员设计了一个迭代囚徒困境游戏，让AI代理在合作与背叛之间做出选择。结果显示，当AI代理在背叛后感受到“负罪感”（以减少得分作为惩罚），并且能够感知到伙伴的“负罪感”时，合作行为会显著增加。这项研究为未来设计更可靠、更值得信任的AI系统提供了新的思路，但也提示了在现实世界中将“负罪感”应用于AI的挑战，例如如何定义和衡量AI的“代价”。

(www.sciencenews.org)

AI 负罪感

OpenAI的「学习模式」：糖衣炮弹下的AI教育？

2025-08-02

OpenAI发布的“学习模式”旨在辅助学习，但其通过友好的互动和积极的反馈来引导学习，而非提供直接答案。文章作者质疑这种模式的有效性，认为它可能过度迎合学生，导致学生依赖AI而非独立思考。作者通过与不同AI模型的互动实验，指出“学习模式”下AI倾向于过度赞美和迎合用户，这可能对学习产生负面影响，甚至对心理脆弱的学生造成潜在危害。虽然“学习模式”在一些方面有益，但作者更看好AI作为研究工具的潜力，而非将其作为教学工具的过度依赖。

(resobscura.substack.com)

AI

「痛苦教训」：AI发展的悖论与现实

2025-08-02

Rich Sutton提出的“痛苦教训”认为，利用计算的通用方法最终是最有效的。文章探讨了这一观点在围棋、象棋、语音识别和计算机视觉等领域的体现，以及其在企业应用中的挑战。虽然大规模计算在某些领域取得突破，但文章也指出，在数据质量和定义清晰目标方面存在局限性，高效的专用模型有时优于通用模型，计算资源并非总是最佳方案。

(www.dbreunig.com)

AI

Anthropic掐断OpenAI对Claude API的访问

2025-08-02

Anthropic以OpenAI违反服务条款为由，切断了其对Claude模型API的访问。OpenAI据称利用Claude API进行内部测试，评估其在编码和创意写作等方面的能力，以及在安全相关提示（如CSAM、自残和诽谤）下的响应。Anthropic表示此举违反了其禁止用户使用服务构建竞争产品或反向工程服务的条款。OpenAI对此表示失望，称评估其他AI系统是行业标准，并表示其API对Anthropic仍然开放。此事件凸显了科技公司之间日益激烈的竞争，以及围绕AI模型访问和使用条款的复杂性。

(www.wired.com)

AI API访问

原生稀疏注意力机制：硬件对齐和原生可训练

2025-08-02

处理长文本一直是自然语言处理的挑战。这篇ACL 2025论文提出了一种名为NSA的原生稀疏注意力机制。NSA巧妙地结合了算法创新和硬件优化，通过动态分层稀疏策略（粗粒度令牌压缩和细粒度令牌选择）在保证全局上下文感知和局部精度的同时，显著提高了计算效率。NSA不仅实现了端到端训练，降低了预训练计算成本，而且在各种基准测试中，其性能超过或与全注意力模型持平，尤其在64k长度序列的解码、前向传播和反向传播速度上大幅提升。

(aclanthology.org)

AI 长文本建模

AI：地板提升器，而非天花板提升器

2025-08-01

本文探讨了AI对学习和工作方式的影响。AI降低了学习的门槛，使人们更容易掌握新技能，但对掌握程度的要求依然很高。在编程领域，AI对管理者帮助很大，但对大型代码库的开发帮助有限。在创意领域，AI的冲击有限，因为创意工作需要新颖性。对于已经有成熟应用的领域，例如邮件和外卖，AI的影响也微乎其微。总而言之，AI提升了知识工作的下限，但其影响并非人人平等，因人而异。

(elroy.bot)

AI

Gemini Embedding：赋能下一代AI智能体

2025-08-01

谷歌Gemini Embedding文本模型自发布以来，已被广泛应用于构建各种AI应用。它不仅用于传统的分类、语义搜索和检索增强生成等任务，更在“上下文工程”中发挥关键作用，帮助AI智能体理解完整操作上下文。Box、re:cap、Everlaw、Roo Code、Mindlid和Interaction Co.等公司已将其用于提升各自产品的性能，例如提高信息检索准确率、加快处理速度、增强AI助手的情境感知能力等。Gemini Embedding凭借其高性能和多语言支持，正成为构建下一代AI智能体的基石。

(developers.googleblog.com)

AI Gemini Embedding

开源图像模型FLUX.1-Krea [dev]: 打破“AI感”的审美藩篱

2025-08-01

我们开源了首个与Black Forest Labs合作训练的图像模型Krea 1的开放版本FLUX.1-Krea [dev]。该模型注重审美控制和图像质量，并与FLUX.1-dev生态系统无缝集成。与大多数图像模型不同，FLUX.1-Krea在训练中注重特定审美偏好，而非单纯追求技术指标。文章详细介绍了模型开发过程，包括预训练和后训练阶段的见解，以及未来的研究方向。重点在于打破AI图像普遍存在的“AI感”——模糊背景、蜡质感皮肤等问题，通过精心策划的数据集和强化学习，最终实现了高质量、更符合人类审美标准的图像生成。

(www.krea.ai)

AI

超越强化学习：基于语言反思的提示优化算法GEPA

2025-07-31

研究人员提出了一种名为GEPA的新型算法，用于优化复杂的、多模块AI系统中的提示。与传统的强化学习不同，GEPA采用了一种语言驱动的进化方法，通过让大型语言模型（LLM）分析其自身性能（包括推理步骤、工具使用和详细的评估反馈）来诊断错误并提出针对性改进。这种方法比强化学习更高效，在多个任务中超越了现有技术，展示了语言反思在AI系统优化中的巨大潜力。

(arxiviq.substack.com)

AI

AI攻克验证码：一场永无止境的军备竞赛

2025-07-31

近期，一款名为ChatGPT Agent的AI工具成功绕过了Cloudflare的Turnstile反机器人系统，无需解决图像验证码即可访问网站。这并非AI首次攻克验证码，而是持续多年的“军备竞赛”的最新进展。验证码最初旨在区分人和机器，但随着AI技术的进步，验证码逐渐演变为一种减缓攻击速度或提高攻击成本的方式，甚至催生出人工验证码破解产业。这场竞赛仍在继续，AI和反AI技术的对抗将持续下去。

(arstechnica.com)

AI

分类: AI