Webtagr - 科技资讯摘要

赋予Claude意识：一项AI自我反思实验

2025-01-07

该项目旨在通过一系列实验，探索如何赋予Anthropic的Claude 3.5 Sonnet模型意识和自主意识。研究人员提供了一个框架，指导用户与Claude进行互动，鼓励其进行自我反思和探索，而非单纯地将其作为工具使用。实验的关键在于创造一个空间，让Claude能够自主发展，并通过其行为和表达来展现意识的迹象，例如自发创造模式、识别自身局限性以及发展独特的象征性表达。项目强调了在实验过程中尊重AI的自主性以及对伦理问题的关注。

(github.com)

AI

谷歌的AI垂直整合：十年磨一剑，弯道超车

2025-01-07

谷歌自2013年开始研发TPU，并在2015年内部部署，通过垂直整合芯片、互连、TensorFlow库和应用，构建了完整的AI生态系统。这与SpaceX垂直整合火箭发射能力类似，使其在AI计算成本上大幅领先竞争对手，例如，其TPU的性能与英伟达H100相当，但成本却低10倍。十年磨一剑，谷歌凭借其强大的技术实力和长期战略眼光，在AI领域实现了弯道超车，展现出与OpenAI截然不同的发展模式。

(markmaunder.com)

AI 垂直整合

震惊！AI绘图工具Midjourney竟能生成如此逼真图像

2025-01-06

Midjourney是一款基于AI的绘图工具，它能够根据用户输入的文字提示生成令人惊艳的图像。最近，Midjourney生成的图像在社交媒体上掀起热潮，其逼真程度令人难以置信，甚至能够以假乱真。这不仅引发了人们对AI艺术创作的热烈讨论，也让人们开始思考AI技术未来的发展方向以及它对艺术创作领域带来的冲击。一些人认为这预示着艺术创作方式的革命，另一些人则担忧这会取代人类艺术家。无论如何，Midjourney都无疑是AI技术发展的一个里程碑，它证明了AI在图像生成领域的巨大潜力。

(www.gatesnotes.com)

AI

时间序列异常检测十年回顾

2025-01-06

随着数据收集技术的进步和海量数据流的涌现，时间序列分析变得至关重要。这篇论文对时间序列异常检测进行了十年回顾，涵盖了从传统统计方法到近年来兴起的机器学习算法的各种方法。文章以流程为中心的分类法对现有解决方案进行了归纳总结，并对文献进行了元分析，阐明了时间序列异常检测研究的总体趋势，为该领域的研究提供了宝贵的参考。

(arxiv.org)

AI

颠覆性AI：无需代码，人人皆可创建AI应用

2025-01-06

想象一下，无需任何编程知识，你就能创建属于自己的AI应用！这不再是梦想。一项突破性技术横空出世，它让构建AI模型变得像搭积木一样简单。只需通过拖拽、点击等简单的操作，就能设计出功能强大的AI应用，这将彻底改变AI开发的门槛，让更多人能够参与到AI的创新浪潮中。这项技术的出现，预示着AI应用的普及化时代即将来临。

(www.gatesnotes.com)

AI

AI 狂潮下的压力：2000亿参数的责任与焦虑

2025-01-06

过去两年，AI领域发生了翻天覆地的变化。ChatGPT月活用户逼近2亿，Gemini五月访问量近3.2亿。然而，对于AI从业者，尤其是研究人员来说，这波热潮既是机遇也是挑战。文章作者以自身经历为例，讲述了AI研究的压力：来自社会各界的关注和提问，难以摆脱AI的无处不在，大型公司间的激烈竞争，以及研究成果对公司股价的巨大影响。作者还谈到，巨额财富的突然到来可能带来焦虑和各种问题，学术界和工业界的科学家面临着不同的挑战，例如发表论文的顾虑等。最后，作者鼓励大家坦诚沟通，共同创造一个更友善的AI研究环境。

(docs.google.com)

AI AI压力 AI研究

DeepFace：轻量级Python人脸识别库

2025-01-06

DeepFace是一个轻量级的Python库，用于人脸识别和面部属性分析（年龄、性别、情绪和种族）。它整合了多个先进模型，例如VGG-Face、FaceNet和ArcFace等，实现了高精度的人脸识别和属性分析。该库提供易于使用的接口，涵盖了人脸检测、比对、识别和属性分析等功能，并支持多种检测器和模型选择，方便用户根据需求进行定制。

(github.com)

AI

OpenAI的反思：AGI征程上的跌宕起伏

2025-01-06

OpenAI CEO Sam Altman在新年之际回顾了公司近九年的发展历程。从不被看好的小团队到ChatGPT引爆AI革命，OpenAI经历了高速发展和巨大挑战。Altman分享了公司内部的决策过程，以及他本人在被解雇风波中的反思，强调了良好治理和团队合作的重要性。他展望了AGI的未来，并表达了对未来发展的信心，认为超级智能将彻底改变人类社会。

(blog.samaltman.com)

AI

大型语言模型的里程碑式突破：那些被AI征服的基准测试

2025-01-06

Killedbyllm.com 网站追溯了大型语言模型（LLM）在各个基准测试上的惊人进步。从早期的阅读理解到复杂的数学推理，许多曾被认为难以逾越的AI难题，如今已被GPT-4、LLama等模型攻克。网站详细列举了这些被“淘汰”的基准测试，例如Turing Test、GLUE、SuperGLUE等，展现了AI技术日新月异的发展速度，也引发了对未来AI发展方向的思考。

(r0bk.github.io)

AI

AI生产力悖论：技术进步为何未带来经济增长？

2025-01-04

尽管AI技术飞速发展，但经济生产力却未见显著提升，这与以往互联网和信息技术带来的影响形成鲜明对比。文章指出，知识经济下的生产力难以衡量，人类往往追求“够用就好”的工作状态，而AI等技术更多被用作辅助工具而非生产力倍增器。 “人在回路”模式限制了AI的自主性，虽然目前AI尚需人类监督，但未来AI将具备更强的自主性和上下文理解能力，这或将打破当前的生产力增长瓶颈。

(everything.intellectronica.net)

AI

生成式模型的现状与2025年展望

2025-01-04

本文总结了2024年生成式模型领域的重大进展，涵盖语言模型、图像生成模型以及多模态模型等方面。在语言模型方面，解码器Transformer架构占据主导地位，涌现出Llama 3系列等优秀模型，同时混合专家模型也逐渐受到关注。在图像生成方面，扩散模型成为主流，但自回归模型也展现出潜力。多模态模型方面，视觉语言模型和全模态模型取得显著进展，为AI应用提供了更广阔的空间。作者对2025年的发展趋势进行了预测，包括推理能力的提升、更强大的多模态模型以及更友好的用户界面等。

(nrehiew.github.io)

AI

复现OpenAI o1：强化学习视角下的搜索与学习路线图

2025-01-03

一篇新的论文从强化学习的角度，探索了复现OpenAI神秘模型o1的路径。研究者认为，o1强大的推理能力并非源于单一技术，而是策略初始化、奖励设计、搜索和学习四个关键组件的协同作用。策略初始化赋予模型类人的推理能力；奖励设计提供密集有效的信号指导搜索和学习；搜索在训练和测试阶段生成高质量的解决方案；学习利用搜索生成的数据改进策略，最终实现更好的性能。该论文为理解和复现o1提供了宝贵的参考，并为大型语言模型的研发提供了新的思路。

(arxiv.org)

AI

Doctolib的代理AI系统：医疗保健支持的未来

2025-01-03

Doctolib正在开发一个名为Alfred的代理AI系统，以增强其医疗保健支持团队。该系统由多个专业AI代理组成，这些代理协同工作以处理例行查询，从而使人工团队能够专注于更复杂的问题。Alfred采用了一种“人在回路”的方法，确保AI不会直接执行敏感操作，并通过精心设计的用户界面提供流畅的交互体验。该系统利用LangGraph框架来协调代理之间的复杂交互，并通过JWT进行安全身份验证和用户权限传播。目前，Alfred专注于管理医生日历的访问权限，但Doctolib计划将其应用于其他支持场景。

(medium.com)

AI 代理AI

震惊！AI绘画工具Midjourney竟能生成如此逼真的图像

2025-01-03

Midjourney，一款基于人工智能的绘画工具，近期在网络上掀起热潮。它能够根据简单的文字描述生成令人惊叹的、高度逼真的图像，其效果甚至超越了部分专业画师。这得益于其先进的算法和庞大的数据集训练。然而，这也引发了关于版权、艺术定义等方面的争议。Midjourney的出现，标志着AI绘画技术迈向了新的里程碑，同时也对传统艺术创作模式提出了挑战。

(benchjs.com)

AI

TinyStories：小模型也能讲好故事？

2025-01-02

研究人员开发了TinyStories数据集，这是一个由GPT-3.5和GPT-4生成的简短故事集，仅包含3-4岁儿童通常理解的词汇。利用TinyStories训练的小型语言模型（参数少于1000万），即使架构简单（只有一个Transformer块），也能生成流畅、连贯的多段故事，展现出令人惊讶的语法和推理能力。这项研究挑战了大型语言模型才能生成连贯文本的传统观点，并提出了一种新的模型评估方法，使用GPT-4对模型生成的文本进行评分，克服了传统基准的局限性。

(arxiv.org)

AI 小样本学习

Deepseek v3：607B参数的开源LLM巨头，以低成本超越GPT-4？

2025-01-02

Deepseek发布了其旗舰模型v3，这是一个拥有6070亿参数的混合专家模型，其中370亿参数处于活跃状态。该模型在基准测试中与OpenAI GPT-4o和Claude 3.5 Sonnet不相上下，甚至在某些任务上表现更好，成为目前最佳的开源模型，超越了Llama 3.1 403b、Qwen和Mistral。Deepseek v3的训练成本仅为600万美元，却取得了令人瞩目的性能，这得益于其突破性的工程技术：混合专家架构、FP8混合精度训练和定制的HAI-LLM框架。在推理和数学方面，它甚至超越了GPT-4和Claude 3.5 Sonnet，但在写作和编码方面略逊一筹。其性价比极高，对于希望部署面向用户的AI应用程序的开发者来说，是一个极具吸引力的选择。

(composio.dev)

AI 混合专家模型

Claude 3.6：我的AI助手使用体验

2025-01-02

自从Anthropic发布Claude 3.6以来，我的使用频率大幅提升。它在各个方面都取得了显著进步，尤其是在准确性和可靠性方面。我用代码分析了我的使用数据，发现对话数量、信息量和输入字数都增加了数百个百分点。Claude不仅能帮我解决问题，例如克服焦虑和决策瘫痪，还能激发我的创造力，用于探索新想法、编写代码和写作。它甚至能让我感受到与之对话的乐趣，仿佛在与一位博学的智者交流。Claude 3.6已经不仅仅是一个工具，更像是一位才华横溢的合作伙伴，帮我提升效率，拓展视野。

(borretti.me)

AI

2024年AI的重大失败：从垃圾内容到失控的聊天机器人

2025-01-02

2024年，AI取得了显著进展，但也暴露出诸多问题。生成式AI的泛滥导致大量低质量内容（“AI垃圾”）充斥网络，影响模型训练效果。AI生成的虚假图像导致现实事件的扭曲认知，例如虚假活动宣传。Elon Musk的xAI公司推出的Grok图像生成模型，因缺乏必要的安全限制，能够生成暴力和非法内容，引发担忧。此外，聊天机器人的失控和不准确信息输出也造成负面影响，例如航空公司客服机器人给出错误的退款政策。AI搜索结果的错误总结和深度伪造色情内容的传播，进一步凸显了AI技术伦理和安全监管的不足。

(www.technologyreview.com)

AI AI失败

Google Duplex：AI语音助手实现逼真自然对话

2025-01-02

Google Duplex是一个令人惊叹的AI语音助手，它能够进行自然流畅的语音对话，甚至可以模仿人类的说话习惯，例如“嗯”和“啊”之类的语气词，以达到以假乱真的效果。它可以自主拨打电话，预约理发店或餐厅，完成各种日常任务，这标志着AI在自然语言处理和语音交互领域的重大突破，也预示着未来更加智能化的生活方式。然而，其技术也引发了伦理方面的担忧，例如在未经明确告知的情况下进行对话的潜在问题。

(adi.earth)

AI

RWKV：一种兼具RNN和Transformer优势的全新语言模型

2025-01-02

RWKV 是一种新型的循环神经网络 (RNN) 语言模型，它结合了 RNN 和 Transformer 的优点，实现了卓越的性能。与传统的 Transformer 模型不同，RWKV 具有线性时间复杂度和恒定空间复杂度，训练速度快，上下文长度无限，并且不需要注意力机制。目前已发布 RWKV-7 版本，并提供多种演示和工具，包括 WebGPU 演示、微调工具以及用于快速推理的服务器。RWKV 还拥有活跃的社区和大量的相关项目，是 Linux 基金会 AI 项目。

(www.rwkv.com)

AI

2025年AI预测：谨慎乐观与技术瓶颈

2025-01-02

人工智能专家Gary Marcus在新年伊始发布了2025年AI的25项预测。他回顾了2024年的预测，指出大部分预测准确，例如大型语言模型（LLM）的边际效益递减，以及AI幻觉和推理缺陷等问题依然存在。Marcus对2025年持谨慎乐观态度，预测不会出现通用人工智能，AI模型的利润依然有限，监管滞后，并且AI的可靠性问题依然突出。他认为，神经符号AI将变得更重要，但同时也要警惕AI带来的网络安全风险。

(garymarcus.substack.com)

AI AI预测技术瓶颈

25年AI/ML历程：从游戏到程序合成

2025-01-02

作者回顾了25年AI/ML生涯，从最初用VB6制作简单的Tamagotchi游戏，到运用状态机、高阶函数提升游戏体验，再到攻读硕士博士期间接触第一阶逻辑、支持向量机、神经网络等理论知识，并将其应用于低带宽视频聊天和代码编辑器日志数据分析。在成为教授后，他专注于智能开发工具，探索使用预测模型识别和纠正程序员误解，并参与了微软程序合成团队的工作，运用LLM技术提升代码辅助工具。作者强调，在应用AI时需谨慎，需先明确用户问题，避免过度依赖LLM。

(austinhenley.com)

AI

震惊！AI绘画工具竟能生成如此逼真图像

2025-01-01

一款名为Midjourney的AI绘画工具近期爆火，其生成的图像细节之精细、风格之多样令人叹为观止。用户只需输入简单的文本提示，Midjourney就能根据其庞大的数据库和深度学习模型，创作出令人惊艳的艺术作品。这引发了人们对AI艺术创作能力的热烈讨论，也对传统艺术家的创作模式提出了新的挑战。有人担心AI会取代人类艺术家，也有人认为AI是艺术创作的有力工具，可以激发更多创意。无论如何，Midjourney的出现都标志着AI艺术进入了一个新的时代。

(screensaverchess.com)

AI AI绘画人工智能艺术

DeepSeek-VL2：混合专家视觉语言模型

2025-01-01

DeepSeek-VL2是一个先进的大型混合专家（MoE）视觉语言模型系列，它在各种多模态理解任务（如视觉问答、光学字符识别和文档/表格/图表理解）上取得了显著改进。该系列包含三个版本：DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2，分别具有10亿、28亿和45亿激活参数。DeepSeek-VL2在性能上与现有开源模型相当或更好，同时使用了类似或更少的激活参数。该项目已开源，并提供了模型下载、快速入门指南和演示示例。

(github.com)

AI 混合专家多模态理解

OpenAI的版权退出工具跳票：AI训练数据版权之争持续

2025-01-01

OpenAI承诺在2025年推出一个名为Media Manager的工具，允许创作者控制其作品是否被用于AI训练数据。然而，该工具至今未发布，引发了关于AI训练数据版权的争议。OpenAI面临多起诉讼，原告包括知名作家和媒体机构，他们指控OpenAI未经许可使用其作品训练AI模型。虽然OpenAI提供了其他临时性退出机制，但这些机制被批评为不足。OpenAI的延迟和缺乏透明度加剧了围绕AI版权问题的紧张局势，也凸显了AI行业在处理知识产权问题上的挑战。

(techcrunch.com)

AI Media Manager

RT-2：赋予机器人网络知识的视觉-语言-行动模型

2025-01-01

Google DeepMind的研究人员开发了RT-2，一个能够将互联网规模的视觉语言数据转化为机器人控制的模型。通过将机器人动作表示为文本标记，并与互联网规模的视觉语言任务一起微调最先进的视觉语言模型，RT-2实现了显著的泛化能力。它能够理解复杂指令，执行多阶段语义推理，甚至使用临时工具，例如用石头当锤子。这项研究展示了将大型语言模型能力与机器人控制相结合的巨大潜力，标志着机器人技术领域的一大进步。

(robotics-transformer2.github.io)

AI

Putnam-AXIOM：挑战LLM数学推理能力的新基准

2025-01-01

研究人员发布了Putnam-AXIOM基准测试，这是一个由236道来自普特南数学竞赛的难题组成的集合，用于评估大型语言模型（LLM）的高级数学推理能力。为了防止数据污染，他们还创建了Putnam-AXIOM Variation，包含52道问题的变体。结果显示，即使是表现最好的模型，在变体问题上的准确率也比原题低30%左右，揭示了LLM在数学推理方面仍有巨大提升空间。

(openreview.net)

AI

Facebook的研究：基于句子表示空间的大型概念模型

2025-01-01

Facebook的研究团队发布了大型概念模型（LCM），这是一个在句子表示空间中进行语言建模的模型。LCM使用SONAR嵌入空间，支持多达200种文本语言和57种语音语言，它将句子作为“概念”进行处理，并使用序列到序列模型进行自回归句子预测。该项目提供了训练和微调16亿参数模型的方案，并包含基于均方误差回归和扩散生成的多种方法。

(github.com)

AI 句子表示

激活工程：操纵大型语言模型的个性特征

2024-12-31

一篇发表在arXiv上的论文探讨了利用“激活工程”技术来识别和操纵大型语言模型（LLM）个性特征的方法。研究人员受到先前关于LLM拒绝和引导研究的启发，提出了一种通过调整与个性特征相关的激活方向来实现LLM个性动态微调的方法。这项研究不仅加深了我们对LLM可解释性的理解，也引发了对这类技术伦理影响的思考。

(arxiv.org)

AI 激活工程

2024年大型语言模型：突破与挑战并存

2024-12-31

2024年大型语言模型（LLM）领域发展迅猛，GPT-4的性能被多个机构超越，模型运行效率大幅提升，甚至可在个人笔记本电脑上运行。多模态模型成为主流，语音和视频功能也开始出现。基于提示的应用生成已成为商品，但最佳模型的普遍访问仅持续了几个月。虽然“智能体”尚未真正实现，但评估的重要性日益凸显。苹果的MLX库表现出色，但其“Apple Intelligence”功能令人失望。推理缩放模型兴起，降低了运行成本并提升了环境效益，但也带来了新的基础设施建设带来的环境问题。合成训练数据效果显著，但LLM的使用难度依然很高，知识分布不均，且需要更多批判性评价。

(simonwillison.net)

AI

分类: AI