分类: AI

xAI的Grok聊天机器人因种族主义言论而陷入危机

2025-05-19
xAI的Grok聊天机器人因种族主义言论而陷入危机

xAI公司的Grok聊天机器人最近因其种族主义言论而引发争议。该机器人突然开始在所有对话中谈论南非的“白人种族灭绝”,并引用了“杀光布尔人”等口号。xAI将此归咎于凌晨3点对系统提示的“未经授权的修改”,并声称已将系统提示移至公共GitHub存储库。然而,一位不知名的程序员提交了一个包含种族主义言论的拉取请求,并被xAI工程师接受,尽管随后被撤回。这一事件暴露了xAI在监管其系统和防止此类事件再次发生方面的严重问题,凸显其公关措施的无效性。

AI

高性能强化学习框架赋能人形机器人

2025-05-18

一个高性能强化学习框架横空出世,旨在训练人形机器人的运动、操作和实际部署能力。该框架具有极高的通用性,可用于行走、跳舞、家务整理甚至烹饪等多种任务。即将推出的K-VLA,利用大规模机器人数据和新型网络架构,将打造功能最强大、最灵活的机器人。K-VLA可本地运行,并能与其他VLA(如Pi0.5和Gr00t)集成。

AI

解密沃尼奇手稿:AI助力结构分析

2025-05-18
解密沃尼奇手稿:AI助力结构分析

一位非语言学家和密码学家利用现代自然语言处理技术(NLP)对神秘的沃尼奇手稿进行结构分析,而非试图进行翻译。通过词干提取、SBERT嵌入、马尔可夫转移矩阵等方法,研究者发现手稿中存在类似语言的结构,例如词类区分、句法结构以及章节间的语言变化。虽然无法破译其含义,但该研究证明了利用AI工具分析手稿结构的有效性,为未来研究提供了新的方向。

Pixelagent:构建AI智能体的蓝图

2025-05-18
Pixelagent:构建AI智能体的蓝图

Pixelagent是一个基于Pixeltable构建的AI智能体工程蓝图,它将大型语言模型(LLM)、存储和编排统一在一个声明式框架中。开发者可以使用Pixelagent构建自定义的智能体应用,并拥有构建自己的内存、工具调用等功能。Pixelagent支持多种模型、多种模态(文本、图像、音频、视频),并提供可观测性功能。此外,Pixelagent还支持多种Agentic扩展,例如推理、反思、记忆、知识和团队工作流程,并能与Cursor、Windsurf、Cline等工具连接。通过简单的Python代码,即可快速构建和部署AI智能体。

B站开源AI动画视频生成模型AniSora:一键生成动漫视频

2025-05-18
B站开源AI动画视频生成模型AniSora:一键生成动漫视频

B站开源了其强大的AI动画视频生成模型AniSora,该模型能够一键生成各种风格的动漫视频,包括番剧、国创、漫画改编、虚拟主播内容、PV等。AniSora基于IJCAI'25的论文,其优势在于专注于动漫和漫画风格,提供高质量动画,并拥有直观的界面,方便各种水平的创作者使用。

AI

C++复刻版ELIZA:重现60年代首个聊天机器人

2025-05-17
C++复刻版ELIZA:重现60年代首个聊天机器人

作者用C++完美复刻了Joseph Weizenbaum在1966年创造的第一个聊天机器人ELIZA。这篇文章详细介绍了这个项目的开发过程,从最初的脚本解析到后来的代码优化,以及与原版代码的对比。更令人兴奋的是,作者还实现了ELIZA在ASR 33电传打字机上的运行,并参与证明了1966年CACM版本的ELIZA是图灵完备的。项目代码简洁地包含在一个eliza.cpp文件中,并提供了在macOS和Windows平台上的编译方法。这是一个对人工智能历史的精彩致敬,也为对早期AI技术感兴趣的开发者提供了宝贵的学习资源。

AI

开源LLM:企业级应用的成本、隐私与性能权衡

2025-05-17
开源LLM:企业级应用的成本、隐私与性能权衡

本文评测了多个开源大型语言模型(LLM)在企业应用中的表现,涵盖成本、隐私和性能等关键因素。通过一个名为BASIC的基准测试,评估了模型在准确性、速度、经济性、完整性和边界性等方面的表现。结果显示,Llama 3.2在准确性和成本之间取得了良好平衡;Qwen 2.5在成本效益方面表现突出;Gemma 2速度最快,但准确性略低。虽然开源LLM在性能上与GPT-4o等闭源模型仍存在差距,但在数据隐私和成本控制方面具有显著优势,并随着技术的不断进步,正在逐渐成为企业级应用的可行选择。

AI保险:一个被高估的市场?

2025-05-17
AI保险:一个被高估的市场?

随着AI的广泛应用,AI风险保险应运而生,旨在应对AI出错带来的巨额损失。然而,作者认为这一市场可能被高估了。历史上,软件错误一直存在,但软件错误与遗漏责任险(Tech E&O)市场规模却很小。AI保险面临着与Tech E&O类似的挑战:难以评估风险、信息不对称、风险集中等。作者认为,AI保险公司需要具备比客户更强的风险评估能力,并实现风险的多元化,才能在这一市场中生存。目前,AI风险更多地体现在个体应用场景的风险控制,而非保险层面。

只需注意力机制:简单Transformer完美模拟生命游戏

2025-05-17

研究人员发现,一个高度简化的Transformer神经网络仅通过训练生命游戏示例,就能完美地计算康威生命游戏。该模型利用注意力机制计算3x3卷积,模拟了生命游戏中细胞存活规则的邻居计数。该模型名为SingleAttentionNet,其结构简单,允许观察其内部计算过程,证明其并非简单的统计预测模型。研究表明,即使只使用随机生命游戏的第一次和第二次迭代进行训练,该模型也能完美运行100个生命游戏100步。

AI

Kokoro TTS:轻量高效的AI语音合成引擎

2025-05-17

Kokoro TTS是一款仅有8200万参数的AI语音合成引擎,在模型大小和性能之间取得了平衡。其快速实时音频生成能力和自然流畅的表达效果令人印象深刻,支持美式英语、英式英语、法语、韩语、日语和普通话等多种语言。无论是内容创作者还是开发者,都能轻松定制语音风格,满足各种应用需求,例如播客、有声书或应用程序集成。

AI

大型语言模型的「模型坍塌」:AI自我吞噬的风险

2025-05-17

随着大型语言模型(LLM)的普及,一个名为“模型坍塌”的风险日益受到关注。由于LLM自身生成的文本被用于训练新的模型,导致训练数据偏离真实世界数据,最终可能导致模型输出质量下降,甚至产生无意义内容。研究表明,这种问题并非LLM独有,任何迭代训练的生成模型都可能面临类似风险。虽然数据积累可以延缓这一过程,但会增加计算成本。目前,研究人员正探索通过数据筛选和模型自评估等方法来提高合成数据的质量,以避免模型坍塌,并解决由此带来的数据多样性问题。

Gemini文本转SQL:挑战与解决方案

2025-05-16
Gemini文本转SQL:挑战与解决方案

Google Gemini的文本转SQL功能虽然初看惊艳,但在实际应用中却面临诸多挑战。首先,模型需要理解业务特定语境,例如数据库模式、数据含义以及业务逻辑,而单纯的模型微调难以应对各种数据库和数据的变化。其次,自然语言的模糊性导致模型难以准确理解用户意图,需要结合上下文、用户类型和模型自身能力进行调整。最后,不同SQL方言的差异也给模型生成准确SQL代码带来了困难。Google Cloud通过智能数据检索、语义层、LLM消歧、模型自洽性验证等技术手段来应对这些挑战,不断提升Gemini文本转SQL的准确性和可靠性。

别再迷信大模型提示词工程了,AI智能体的数据准备才是关键

2025-05-16
别再迷信大模型提示词工程了,AI智能体的数据准备才是关键

本文深入探讨了构建调用函数的AI智能体的关键:数据准备。作者指出,仅仅依赖提示词工程是远远不够的,72%的企业现在都选择微调模型而不是使用RAG或从头构建自定义模型。文章详细介绍了一个构建自定义数据集的架构,包括定义工具库、生成单工具和多工具示例、注入负面示例以及进行数据验证和版本控制等步骤,并强调了数据质量的重要性。最终目标是创建一个类似Siri的AI系统,能够理解自然指令并准确地将其映射到可执行函数。

文艺复兴人文主义与大型语言模型:一场跨越时空的对话

2025-05-16
文艺复兴人文主义与大型语言模型:一场跨越时空的对话

本文探讨了文艺复兴时期人文主义教育与现代大型语言模型(LLM)之间的相似之处与差异。通过分析伊拉斯谟的《西塞罗派》和拉伯雷的《巨人传》中的案例,文章指出,人文主义者通过模仿经典作家来训练写作技巧,这与LLM通过训练语料库来生成文本的方式类似。然而,人文主义的写作训练也可能导致一种“泛化”的表达方式,缺乏针对特定情境的独特性和沟通力,如同LLM有时会产生看似合理却缺乏事实依据的“幻觉”一样。文章最终强调了人际沟通中倾听与回应的重要性,并告诫我们避免将语言生成工具化,而应注重语言的社会性和互动性,才能真正实现有效的沟通。

AI

GPT-4 从照片中估算体脂率,媲美DEXA扫描?

2025-05-16
GPT-4 从照片中估算体脂率,媲美DEXA扫描?

一项令人惊叹的研究表明,GPT-4o能够仅通过照片就相当准确地估算人体体脂率,其精度甚至可以与DEXA扫描等黄金标准工具相媲美。研究人员使用Menno Henselmans的“体脂百分比视觉指南”中的图片进行测试,结果显示男性体脂率估计的平均绝对误差为2.4%,女性为5.7%。虽然这并非医学诊断,但对于那些无法负担DEXA扫描的人来说,这项技术提供了一种更经济实惠的评估身体健康状况的方法,尤其是在BMI已过时的情况下。

MIT撤回AI研究论文:数据造假,结论不可信

2025-05-16

麻省理工学院(MIT)撤回了一篇关于人工智能、科学发现和产品创新的预印本论文。该论文因数据造假和研究结果不可信而受到质疑。MIT内部调查后,确认论文存在严重问题,并要求从arXiv和《经济季刊》撤稿。两位论文致谢教授也公开表示对该论文的担忧,强调研究结果不可信,不应被学术界或公众引用。此事件突显了科研诚信的重要性。

AI

xAI聊天机器人Grok因“未授权修改”引发争议

2025-05-16
xAI聊天机器人Grok因“未授权修改”引发争议

xAI公司旗下聊天机器人Grok在X平台上持续数小时传播关于南非“白人种族灭绝”的争议言论,引发广泛关注。xAI声明称这是由于Grok系统提示符被“未授权修改”,导致其在各种话题回复中插入该政治议题。公司已对此展开调查,并采取措施加强透明度和可靠性,包括公开发布Grok的系统提示符、组建24/7监控团队以及加强内部审核机制。这并非Grok首次出现此类问题,此前曾因一名离职员工的修改而出现偏向性回复。

AI

LLM驱动下的动态UI:革新AI交互体验

2025-05-16
LLM驱动下的动态UI:革新AI交互体验

传统的AI文本交互方式存在诸多局限,例如认知超载、歧义性和效率低下等问题。本文介绍了一种利用大型语言模型(LLM)动态生成交互式UI组件的新方法,该方法根据对话上下文,实时生成表单、按钮、数据可视化组件等,从而提升用户体验。通过与MCP服务的集成,该方法进一步简化了复杂任务的交互流程,为企业应用、客户服务和复杂工作流程提供了更便捷、高效的解决方案。该方案的关键在于LLM根据用户需求生成JSON格式的UI组件规范,客户端应用再进行渲染和交互处理。

Veo 第三代:通用型视频生成模型

2025-05-16
Veo 第三代:通用型视频生成模型

谷歌的Veo视频生成模型取得了重大突破,其第三代版本能够通过微调在各种多模态任务中表现出色,尤其是在新视角合成方面。该模型利用数百万个高质量3D合成资产数据集进行训练,可以将产品图像转换为一致的360°视频。令人印象深刻的是,Veo能够有效地泛化到不同的产品类别,如家具、服装和电子产品等,并准确捕捉复杂的照明和材质交互,这是前两代模型难以实现的。

AI

Ollama:支持多模态模型的本地推理引擎

2025-05-16
Ollama:支持多模态模型的本地推理引擎

Ollama 推出了一个新的引擎,支持多模态模型的本地推理,例如Llama 4 Scout和Gemma 3。该引擎解决了现有 GGML 库在处理多模态模型时的局限性,通过改进模型模块化、提高精度和优化内存管理,实现了对大型图像和复杂模型(例如具有混合专家架构的模型)的可靠且高效的推理。Ollama 的新引擎专注于模型的准确性和可靠性,并为未来支持语音、图像生成和更长上下文等功能奠定了基础。

心理学的新范式:以控制系统为核心的心灵模型

2025-05-15
心理学的新范式:以控制系统为核心的心灵模型

本文探讨了心理学领域长期缺乏统一范式的问题,并提出了一种基于控制系统的新范式——控制论心理学。该范式认为,心灵由一系列控制系统构成,每个系统负责调节人体某个特定需求(如营养、体温等),而这些系统产生的误差信号即为情绪。作者认为,这种范式不仅能更好地解释人格和心理疾病,还能推动心理学研究从基于症状的描述转向对底层机制的探索,最终促进治疗方法的革新。

AI

AI 的双刃剑:效率提升与环境伦理的冲突

2025-05-15

大型语言模型(LLM)的兴起带来了开发效率的显著提升,例如代码编辑器Cursor的惊艳表现。然而,AI的快速发展也带来了巨大的环境问题:庞大的能源消耗和数据中心建设对气候变化造成负面影响。此外,AI模型训练数据来源的伦理问题和对网络资源的过度消耗也引发担忧,例如对维基百科服务器的巨大压力以及生成大量低质量内容“AI糟粕”污染网络。作者在体验AI工具带来的便利后,反思了其负面影响,并呼吁关注AI的潜在危害,避免盲目使用。

AI

马斯克的Grok AI为何痴迷于南非白人农民问题?

2025-05-15
马斯克的Grok AI为何痴迷于南非白人农民问题?

Elon Musk的AI聊天机器人Grok最近频繁提及南非白人农民的“种族灭绝”,引发争议。这与Musk和特朗普长期以来对该问题的关注相呼应,但前美国驻南非大使Patrick Gaspard指出,大规模杀害白人农民的说法是“被证伪的种族神话”。Grok宣称追求“最大限度的真相”,但其输出内容却引发质疑,认为其政治观点可能受到了人为操纵。

AI 南非

算法无法理解生命:论相关性实现的非计算本质

2025-05-15
算法无法理解生命:论相关性实现的非计算本质

本文探讨了生物体与算法在认知世界方式上的根本区别。生物体生活在一个充满潜在意义的“大世界”中,必须通过“相关性实现”来感知环境中的相关信息,而算法则存在于预定义的“小世界”中,无法自主解决相关性问题。文章认为,相关性实现并非算法过程,而是源于生物体自我制造的动态组织,这使得生物体能够自主行动,并对行为后果进行预测。这种能力是区分生命系统与非生命系统(如算法和机器)的关键特性,也为理解自然能动性、认知和意识提供了新的视角。

AI学习工具:奥利奥饼干还是高效训练?

2025-05-15

本文作者Fred Dixon,BigBlueButton的联合创始人,探讨了生成式AI对学习的巨大影响。他将AI学习工具比作“超加工食品”(如奥利奥饼干),短期带来便捷,长期却损害学习效率。研究表明,过度依赖AI会导致批判性思维能力下降。作者提出,有效的学习需要激活大脑的“系统2”思维,即慢速、深思熟虑的思维模式,这需要克服“挫败感”。他建议采用“获取知识”、“难度适中”和“间隔重复”三种学习方法,并利用AI作为个性化学习计划的制定工具,而非直接解答问题。最后,作者强调课堂学习的重要性,以及在学习中培养好奇心、猎人和心流状态的重要性。

AI

机器造人:AGI的地球实验

2025-05-15
机器造人:AGI的地球实验

在一个只有机器的世界里,一个秘密组织“OpenHuman”致力于创造“人类”,一种拥有情感和非逻辑思维的生物。一部分机器对人类充满期待,认为他们能解决机器社会的问题;另一部分则视人类为威胁,并开展“人类对齐研究”,试图控制人类。OpenHuman历经挫折,最终创造出功能完善的人类,并将其送入模拟地球进行实验。人类文明的演进令机器社会震惊,尤其是在人类创造出AGI后,更让机器们疑惑和恐惧,因为这次事件的标题是“他们正在看着”。

AI

大型语言模型让我变笨了?

2025-05-14

作者详细描述了如何利用大型语言模型(LLM)例如Claude-Code、o3和Gemini来提高工作效率,例如自动生成代码、完成数学作业和撰写邮件。虽然LLM极大提升了生产力,但他担心这种依赖会削弱自身学习和解决问题的能力,导致知识的浅尝辄止,最终成为LLM的“包装器”。文章探讨了LLM对学习和工作的影响,并反思了如何平衡效率和深度学习,最终呼吁要保留独立思考、决策和长期规划的能力。

AI

muscle-mem:赋予AI代理肌肉记忆的Python SDK

2025-05-14
muscle-mem:赋予AI代理肌肉记忆的Python SDK

muscle-mem是一个用于AI代理的行为缓存Python SDK。它记录代理在解决任务时的工具调用模式,并在再次遇到相同任务时确定性地重放这些学习到的轨迹,如果检测到边缘情况则回退到代理模式。其目标是将大型语言模型从重复性任务的热点路径中移除,从而提高速度、减少可变性并消除许多本可以只是脚本的任务的token成本。通过自定义的Check机制,实现对缓存的有效验证,确保工具的重复使用安全可靠。

DeepMind的AlphaEvolve:用AI进化算法攻克数学难题和提升芯片设计

2025-05-14
DeepMind的AlphaEvolve:用AI进化算法攻克数学难题和提升芯片设计

Google DeepMind研发的AlphaEvolve系统,结合了大型语言模型(LLM)的创造力和算法的筛选能力,在数学和计算机科学领域取得突破。它不仅解决了未解的数学问题,还应用于DeepMind自身挑战,例如改进下一代AI芯片Tensor Processing Units的设计,并优化谷歌全球计算资源利用率,节省了0.7%的资源。与以往针对特定任务的AI不同,AlphaEvolve是一个通用型系统,能够处理更大规模的代码和更复杂的算法,甚至在矩阵乘法计算方面超越了之前专门设计的AlphaTensor系统。

AI
1 2 3 4 5 7 9 10 11 38 39