Webtagr - 科技资讯摘要

Meta的Llama模型下载量突破10亿，引领开源AI浪潮？

2025-03-18

Meta首席执行官扎克伯格宣布其开源AI模型Llama下载量突破10亿，较去年12月初增长53%。Llama已广泛应用于Meta旗下平台及Spotify、AT&T等公司，但同时也面临版权诉讼和数据隐私方面的挑战。尽管如此，Meta仍计划在未来几个月推出更多Llama模型，包括推理模型和多模态模型，并豪掷800亿美元投资AI项目，力争在AI领域占据领先地位。

(techcrunch.com)

AI

芝麻AI发布10亿参数会话语音模型CSM

2025-03-18

芝麻AI实验室发布了10亿参数的会话语音模型CSM（Conversational Speech Model），该模型基于Llama架构，能够根据文本和音频输入生成RVQ音频代码。CSM已在Hugging Face上公开其检查点，并提供了一个交互式语音演示和Hugging Face空间用于测试音频生成。该模型虽然可以生成多种声音，但尚未针对特定声音进行微调，并且不支持多语言。芝麻AI强调该模型仅供研究和教育用途，并禁止用于模仿他人、制造虚假信息或从事非法活动。

(github.com)

AI 芝麻AI

模型即产品：AI投资的下一个战场

2025-03-18

近年来，关于下一轮AI发展方向的猜测甚嚣尘上。但作者认为，答案已经揭晓：模型本身就是产品。通用模型的扩展正在放缓，个性化训练效果远超预期，推理成本持续下降。这使得模型提供商必须向上游价值链移动，而应用层则面临着被自动化和颠覆的风险。OpenAI的DeepResearch和Anthropic的Claude 3.7是这一趋势的典型案例。它们不再是简单的LLM或聊天机器人，而是专门设计用于执行特定任务的模型。这标志着AI发展进入一个新的阶段：模型训练商将占据主导地位，而应用层开发商则面临着被取代的风险。投资界对应用层的押注可能面临失败，因为模型训练才是真正的价值所在。未来，成功的AI公司将是那些能够进行模型训练，并拥有跨专业团队和高水平专注度的公司。

(vintagedata.org)

AI 投资趋势

Dust：让AI代理轻松驾驭结构化数据的Query Tables

2025-03-18

Dust团队构建了Query Tables，一个强大的AI代理工具，能够通过SQL查询分析结构化数据。它最初支持CSV文件，后扩展到Notion数据库、Google Sheets和Office 365表格，最终连接到Snowflake和BigQuery等企业数据仓库。通过统一的抽象层，用户可以使用相同的SQL接口查询各种数据源，甚至组合不同来源的数据进行分析。未来，Dust将集成Salesforce，进一步扩展其数据分析能力。

(blog.dust.tt)

AI 结构化数据 SQL查询

开源大模型OLMo-2超越GPT-3.5？Mac也能轻松运行！

2025-03-18

开源大模型OLMo-2 32B参数版本宣称其性能超越GPT-3.5-Turbo和GPT-4 mini，且所有数据、代码、权重和细节均公开可用。文章介绍了如何在Mac上使用llm-mlx插件轻松安装和运行该模型，只需简单的命令即可下载17GB模型并进行交互式对话或生成图片，例如生成骑自行车的鹈鹕SVG图像。

(simonwillison.net)

AI OLMo-2

量子算法DQI：优化问题的突破？

2025-03-17

谷歌量子人工智能团队研发了一种名为解码量子干涉测量（DQI）的新量子算法，在解决一类广泛的优化问题上速度超过所有已知的经典算法。该算法并非直接针对特定问题设计，而是通过将问题转化为量子波，并应用解码技术找到最佳解。虽然目前缺乏足够的量子硬件进行实验证明，且未来可能出现与之匹敌的经典算法，但DQI在优化问题上的潜在优势，以及其在编码和密码学领域的应用前景，已引发量子计算领域的热烈讨论，被认为是量子算法领域的一大突破。

(www.quantamagazine.org)

AI

Gemini 2.0 Flash：强大的AI图像编辑器，却引发版权争议

2025-03-17

谷歌最新的Gemini 2.0 Flash AI模型具备强大的图像编辑能力，甚至可以轻松去除图片水印，包括Getty Images等知名图库的图片。这一功能引发了版权争议，因为未经授权移除水印在美国版权法下通常是非法的。虽然Google将该功能标记为实验性，且仅供开发者使用，但其强大的去水印能力以及缺乏使用限制，使其成为潜在的版权侵犯工具。其他AI模型如Anthropic的Claude 3.7 Sonnet和OpenAI的GPT-4o则明确拒绝去除水印，并将其视为不道德和违法的行为。

(techcrunch.com)

AI AI图像编辑

神经元优先：一家AI公司寻求构建突破性脑机接口

2025-03-17

Piramidal公司招聘研究工程师，致力于构建基于神经数据的AI系统，实现前所未有的任务。理想候选人需具备扎实的工程技能，包括大规模分布式机器学习系统的设计、实现和增强，以及神经科学基础知识。公司提供具有竞争力的薪酬和股权激励，其使命是通过技术提升人类潜能，捍卫认知自由，反对思想商品化。

(www.ycombinator.com)

AI

谷歌AI仅用两天破解困扰科学家十年的超级细菌难题

2025-03-17

谷歌新研发的AI工具仅用两天就解决了一个困扰科学家十年的难题：超级细菌耐药机制。伦敦帝国理工学院的科学家团队花了十年时间研究某些超级细菌如何获得抗生素耐药性，而谷歌的“AI科学家”只需简单的提示，便在两天内得出了与该团队尚未发表的研究结果相同的答案。这一发现表明，AI具有整合现有证据、引导研究方向和设计实验的潜力，或将彻底改变科学研究的进程，但同时也引发了关于AI在科学研究中应用的伦理和可信度等问题的讨论。

(www.livescience.com)

AI 超级细菌抗生素耐药性

Kastle招聘：AI赋能抵押贷款服务的开创性角色

2025-03-16

Kastle，一家由Y Combinator等投资的AI平台公司，正在招聘一位应用AI工程师。该职位需要3年以上应用AI经验，精通Python、TensorFlow/PyTorch等，并有LLM微调和提示工程经验。你将负责将AI技术集成到其抵押贷款服务平台中，优化LLM以实现与借款人的实时互动，并确保AI解决方案符合法规（如FDCPA、RESPA、TILA）。这是一个参与构建早期AI初创公司技术基础的绝佳机会。

(www.ycombinator.com)

AI

AI训练数据之争：开放获取的未来之路

2025-03-16

开放获取运动的理想与AI模型训练的现实冲突日益加剧。许多贡献者发现他们的作品被用于商业用途，甚至用于环境破坏性项目，引发了对知识共享模式的质疑。文章探讨了应对这一挑战的策略，并非简单地收紧许可，而是倡导建立公平的合作模式，例如维基媒体企业模式和创造性共享的偏好信号机制。通过集体谈判，确保AI公司公平补偿基础设施成本、提供归属和促进对开放知识库的再投资，才能真正实现人人共享知识的理想。

(www.citationneeded.news)

AI

MIT学生用数百行代码挑战顶级AI库

2025-03-16

麻省理工学院CSAIL的研究人员开发了一种名为Exo 2的新编程语言，它允许程序员编写“调度”来显式控制编译器生成代码的方式，从而显著提高性能。与现有用户可调度语言（USL）相比，Exo 2允许用户在编译器外部定义新的调度操作，从而创建可重用的调度库。这使得工程师能够用比以往少得多的代码量，实现与最先进的高性能计算（HPC）库相当甚至更好的性能，为AI和机器学习应用带来突破性的效率提升。

(news.mit.edu)

AI Exo 2

AI智能体劫持风险评估：对抗性测试揭示潜在漏洞

2025-03-16

美国人工智能安全研究所（US AISI）使用AgentDojo框架对Anthropic的Claude 3.5 Sonnet模型进行了AI智能体劫持风险评估。研究发现，持续改进评估框架至关重要，评估需适应不断变化的攻击方式。针对特定任务的攻击成功率分析比整体成功率更具信息量，多次尝试攻击能更真实地反映风险。研究还引入了新的攻击场景，例如远程代码执行、数据库数据泄露和自动化网络钓鱼，并发现这些攻击在不同环境下都有效。这项研究强调了持续迭代和改进AI安全评估框架的重要性，以应对不断演变的AI智能体劫持风险。

(www.nist.gov)

AI 智能体劫持 AgentDojo

Jane Street量化交易员：从数学竞赛到AI驱动交易

2025-03-16

Jane Street量化交易员In Young Cho讲述了她从生物化学专业到量化交易的非典型职业道路。她分享了在Jane Street实习和工作的经历，包括使用OCaml、VBA等编程语言进行交易和开发，以及与经纪人沟通的趣事。节目还深入探讨了Jane Street的交易研究，从简单的线性模型到复杂的深度神经网络，以及如何在低数据、高噪声的环境中利用机器学习应对市场频繁变化。In Young Cho还详细描述了其研究过程的四个阶段：探索、数据收集、建模和产品化，并讨论了灵活的研究工具与稳健的生产系统之间的平衡。最后，她展望了Jane Street机器学习研究的未来方向，包括扩展到更多资产类别和数据模式，以及利用AI技术提升交易员效率。

(signalsandthreads.com)

AI

Parahelp：构建能胜任人工客服的AI同事

2025-03-15

Parahelp 是一家致力于打造 AI 驱动的软件公司支持代理的公司。他们的 AI 代理能够利用公司现有的基础设施（如 Slack、Stripe 等）端到端地解决支持工单，目标是成为能够完全胜任人工客服工作的 AI 同事。Parahelp 认为上下文而非智能才是未来 AI 协作的瓶颈，并已获得 Y Combinator 等顶级投资机构的支持，目前正与 Perplexity、Framer 等领先软件公司合作。

(www.ycombinator.com)

AI

Mayo诊所用逆向RAG技术解决LLM幻觉问题

2025-03-15

大型语言模型（LLM）的“幻觉”问题——即生成不准确信息——在医疗领域尤其危险。Mayo诊所采用了一种创新的“逆向RAG”技术来解决这个问题。该技术通过将模型提取的信息与原始数据源链接，消除了几乎所有基于数据检索的幻觉，从而能够在临床实践中推广使用该模型。这项技术结合了CURE算法和向量数据库，确保了每个数据点都能被追溯到原始来源，提高了模型的可靠性和可信度，显著减少了医生的工作负担，并为个性化医疗提供了新的可能。

(venturebeat.com)

AI 逆向RAG

YC孵化器毕业的AI工厂效率监控公司Optifye火热招聘

2025-03-15

Optifye是一家利用计算机视觉技术提升工厂效率的AI公司，已在服装、汽车、医疗和快消品等行业的多家领先制造商的生产线上投入使用，并帮助其提升了12%的生产力。近期完成YC W25批次的孵化，现正处于高速发展阶段，计划在未来4个月内覆盖100条生产线。公司急需招聘深度学习和云计算方面的资深人才，要求具备强大的GPU/CPU/内存优化能力，以及大规模计算机视觉应用的经验。如果你足够聪明，厌倦了缓慢的工作节奏，并渴望在高压环境下获得高回报，那么Optifye正适合你。

(www.ycombinator.com)

AI 工厂效率

GPT-4生成的《我为什么写GEB？》一文，作者道格拉斯·霍夫施塔特怒斥其为“虚假”，并表达对大型语言模型的担忧

2025-03-15

人工智能领域先驱道格拉斯·霍夫施塔特对GPT-4根据其著作《GEB：一条永恒的金带》生成的“我为什么写GEB？”一文表示强烈不满。他认为该文充满空洞的套话，与他真实的写作风格和创作历程严重不符，并指责大型语言模型生成的内容缺乏原创性，是对其思想的曲解和冒犯。霍夫施塔特详细讲述了《GEB》的创作过程，从最初受到哥德尔不完备定理的启发，到融入埃舍尔和巴赫的艺术元素，以及创作过程中产生的灵感火花，以此来反驳GPT-4生成的虚假总结。他表达了对大型语言模型泛滥的担忧，认为其会充斥世界虚假信息，并呼吁重视其潜在的危害。

(www.theatlantic.com)

AI GEB

Siri的AI升级延期：苹果内部的困境与压力

2025-03-15

苹果公司Siri团队的一次内部会议透露，原定于去年六月发布的Siri人工智能升级功能被无限期推迟。该决定引发了团队内部的焦虑和压力，也暴露了苹果在AI领域竞争中的落后。会议上，Siri部门主管承认升级功能延期是因为苹果内部项目资源的重新分配，以及与市场部门沟通不足导致的过度宣传。尽管苹果高管为延误负责，但Siri的未来仍面临诸多挑战，需要解决技术问题和用户期望管理等难题。

(www.theverge.com)

AI

Gemini取代Google Assistant：生成式AI的时代来临

2025-03-14

一年多后，谷歌宣布其Gemini AI助手将于2025年晚些时候取代Android手机上的Google Assistant。此举标志着生成式AI在移动设备上的全面普及。虽然早期版本的Gemini功能有限，但谷歌已通过持续更新弥补了差距，并将其扩展到手表、汽车、平板电脑和耳机等设备。谷歌表示，数百万用户已迁移到Gemini，并强调了Gemini在个性化、世界感知和生产力方面的优势。此次替换也标志着自然语言处理技术的十年发展历程，从最初的语音助手到如今的生成式AI，展现了科技的飞速进步。

(9to5google.com)

AI

开源多智能体协作框架OWL登顶GAIA榜首

2025-03-14

OWL，一个基于CAMEL-AI框架的尖端多智能体协作框架，在GAIA基准测试中以58.18分的平均分获得第一名！它能够通过动态的智能体交互，实现更自然、高效和强大的各种领域的任务自动化。OWL已开源，并支持多种安装方式和模型，包括OpenAI、Qwen和DeepSeek等。此外，它还提供丰富的工具包，例如浏览器自动化、多模态处理和文档解析等，并具有友好的Web界面。目前，OWL团队正积极寻求社区贡献更多用例，并持续改进框架。

(github.com)

AI 多智能体协作

从秘鲁山区到进化心理学：一场意外的科学之旅

2025-03-14

作者在秘鲁与一位酷似母亲的当地女性相遇，引发了他对东亚人和美洲原住民相似性，以及他们与西伯利亚祖先的联系的思考。这开启了他对进化心理学研究的非传统旅程。在克服学术界的意识形态审查和缺乏资助的挑战后，他独立完成了研究，并发表了一篇关于极端气候对人类心理影响的论文。他的研究有望帮助解决困扰东亚和热带地区社会长久以来的社会文化问题。

(davidsun.substack.com)

AI 环境适应

AI智能体：概念混淆还是未来趋势？

2025-03-14

硅谷巨头们纷纷押注AI智能体，但对智能体的定义却莫衷一是。OpenAI、微软、Salesforce等公司都将其视为未来劳动力，但其功能和实现方式却大相径庭。从完全自主系统到遵循预定义流程的工具，智能体的定义之模糊甚至让业内人士感到困惑。这种混乱源于技术快速发展和营销炒作，既带来了创新空间，也可能导致期望落差和投资回报的不确定性。最终，AI智能体能否真正改变世界，或许取决于业界能否达成共识，统一其定义。

(techcrunch.com)

AI 技术定义

概率时间序列预测：一场预测分析的革命

2025-03-14

告别单点预测！概率时间序列预测为预测分析带来了革命性变化。它不再仅仅给出单一预测值，而是提供包含多种可能结果及其概率的完整概率分布，让决策更精准可靠。研究表明，概率方法显著提升了预测精度，降低了误差，尤其在极端事件预测方面表现突出。金融、医疗、制造业等领域都从中受益匪浅，例如更精准的风险评估、资源分配和库存管理。这篇文章深入探讨了概率预测的原理、方法（包括贝叶斯方法、高斯过程和深度概率模型）以及在各个领域的应用，并介绍了数据预处理、模型选择、不确定性校准等关键技术。

(github.com)

AI 概率预测

OpenAI押注特朗普的AI计划解决版权争议

2025-03-14

OpenAI寄希望于特朗普将于7月发布的AI行动计划，通过宣布AI训练属于合理使用来解决版权争议。OpenAI认为，这将为AI公司不受限制地访问训练数据铺平道路，这对于在AI竞赛中击败中国至关重要。目前，法院正在审议AI训练是否属于合理使用，版权持有者认为，使用创意作品训练AI模型会威胁到他们的市场地位，并稀释人类的整体创造力。OpenAI正与版权持有者进行数十起诉讼，辩称AI会改变其训练所用的版权作品，并声称AI输出并非原创作品的替代品。OpenAI希望特朗普的计划能避免类似的判决结果，其中包括《纽约时报》提起的重大诉讼。

(arstechnica.com)

AI

Gemini 2.0：谷歌免费开放更强大的AI功能，但代价是你的搜索历史？

2025-03-13

谷歌正在大力推广其Gemini AI模型。最新更新的Gemini 2.0带来了诸多改进，包括免费向用户开放高级功能，如强大的深度研究和基于搜索历史的个性化推理模型。该模型支持100万token的上下文窗口、文件上传和更快的输出速度，并能连接日历、笔记、任务和照片等谷歌应用。虽然谷歌强调用户可随时选择关闭基于搜索历史的个性化功能，但这仍然引发了隐私方面的担忧。

(arstechnica.com)

AI

AI与数学：一场文化碰撞与合作的序曲

2025-03-13

2025年美国数学联合会议上，AI与数学的融合成为焦点。作者观察到学术界数学家与工业界AI研究者之间存在文化差异：数学家追求理解，AI研究者追求成果。这种差异体现在对开放性、透明性、以及对证明的理解上。文章探讨了数学的本质、文化和价值观，并分析了AI在文献管理、定理验证等方面的潜在应用。作者认为，AI应作为工具来增强人类数学能力，而非取代人类数学家，两者应在相互尊重和理解的基础上合作，共同推动数学发展。

(sugaku.net)

AI

Anthropic CEO警告：中国间谍正在窃取美国AI公司的算法秘密

2025-03-13

Anthropic首席执行官Dario Amodei警告称，中国间谍可能正在窃取美国顶级AI公司价值数百万美元的算法秘密。他呼吁美国政府介入，加强对AI公司，特别是像Anthropic这样的公司，的保护。Amodei表示，中国以大规模产业间谍活动而闻名，而AI公司几乎肯定成为目标。他认为，一些算法秘密仅仅几行代码就价值数亿美元，政府应该与AI行业领导者合作，加强前沿AI实验室的安全，甚至与美国情报机构及盟友合作。 Amodei此前曾呼吁对向中国出口AI芯片进行严格控制，并对中国在AI领域的军事和专制用途表示担忧。他的观点在AI界引发争议，一些人认为美中应该加强合作，避免AI军备竞赛失控。

(techcrunch.com)

AI 算法窃取

谷歌DeepMind发布Gemini机器人AI模型，赋能灵活精准的机器人控制

2025-03-12

谷歌DeepMind发布了两个用于控制机器人的全新AI模型：Gemini Robotics和Gemini Robotics-ER。这两个模型基于Gemini 2.0大语言模型，增加了视觉-语言-动作（VLA）能力和强化空间理解能力，使机器人能够更有效、更精细地理解和与物理世界互动。Gemini Robotics能够理解自然语言指令并执行相应的动作，例如“拿起香蕉并放入篮子”，而Gemini Robotics-ER则专注于“具身推理”，更易于与现有机器人控制系统集成。此次发布标志着机器人技术的一大进步，尤其是在处理复杂物理操作和泛化能力方面取得了显著提升，为未来更广泛的机器人应用铺平了道路，例如与Apptronik合作开发新一代人形机器人。但同时，谷歌也强调了安全的重要性，并发布了名为“ASIMOV”的数据集，用于评估机器人行为的安全隐患。

(arstechnica.com)

AI

Gemini 2.0 Flash：谷歌AI原生图像生成模型开放测试

2025-03-12

谷歌推出Gemini 2.0 Flash，一个具有多模态输入、增强推理和自然语言理解能力的AI模型，能生成图像。它可以根据文本创作图文结合的故事，进行多轮对话式图像编辑，并生成包含长文本且排版清晰的图像。目前已开放给开发者在Google AI Studio和Gemini API上进行实验性测试，期待开发者们利用其创造出更精彩的应用。

(developers.googleblog.com)

AI Gemini 2.0 Flash

分类: AI