分类: AI

ViT 比 CNN 快?高分辨率图像处理的效率之战

2025-05-04

本文挑战了关于Vision Transformer (ViT)在高分辨率图像处理中效率低的普遍观点。作者通过基准测试,在多种GPU上比较了ViT和卷积神经网络(CNN)的推理速度、FLOPs和内存使用情况,结果表明ViT在1024x1024像素及以下分辨率上表现出色,甚至在现代GPU上比CNN更快、更省内存。作者还论证了人们过于关注高分辨率,并建议根据任务需求选择合适的分辨率,大多数情况下,较低分辨率已足够。最后,作者介绍了局部注意力机制,进一步提升了ViT在高分辨率图像处理中的效率。

AI

Codd 细胞自动机:简化冯·诺依曼的自我复制机器

2025-05-04
Codd 细胞自动机:简化冯·诺依曼的自我复制机器

1968年,英国计算机科学家Edgar F. Codd设计了一种仅用8个状态的细胞自动机,简化了冯·诺依曼29个状态的自我复制机器。Codd证明了其细胞自动机能够构建自我复制的机器,但完整的实现直到2009年才由Tim Hutton完成。Codd的成果推动了对自动机自我复制所需逻辑组织的研究,并启发了后续研究者如Devore和Langton对规则的改进,从而降低了自我复制机器的复杂度。

AI

TScale:家用级大模型训练框架

2025-05-04
TScale:家用级大模型训练框架

TScale是一个用C++和CUDA编写的变压器模型训练和推理框架,旨在在消费级硬件上运行大型语言模型(LLM)。它通过优化的架构、低精度计算(fp8和int8)、CPU卸载、同步和异步分布式训练等技术,显著降低了训练成本和时间。即使是1T参数规模的模型,通过巧妙的索引技术,TScale也能在普通家用电脑上进行训练,展现了其在降低LLM训练门槛方面的巨大潜力。

AI能力预测图表的谬误:病毒式传播的危险

2025-05-04
AI能力预测图表的谬误:病毒式传播的危险

METR发布了一份关于大型语言模型软件能力的报告,其图表预测AI进步速度惊人,引发病毒式传播。然而,该图表基于一个有缺陷的前提:用人类解决问题所需时间来衡量问题难度,并用AI解决一半问题所需时间来衡量其能力。这种方法忽略了问题复杂性的多样性,导致结果任意且无法用于预测。文章指出,虽然METR的数据集和对当前AI局限性的讨论很有价值,但将图表用于预测未来AI能力是误导性的,其病毒式传播反映了人们倾向于相信自己想相信的东西。

AI

AI 沟通新时代:十个你必须知道的术语

2025-05-03
AI 沟通新时代:十个你必须知道的术语

随着AI的普及,我们的沟通方式发生了翻天覆地的变化。文章创造性地提出了十个新词语来描述这种变化,例如“chatjacked”(AI劫持对话),“prasted”(直接粘贴AI输出),“prompt ponged”(AI来回互怼),“AI’m a Writer Now”(AI赋能的写作)等,生动地展现了AI如何影响我们的沟通方式,并引发了我们对创作、真实性和沟通意义的思考。这篇文章既有趣又发人深省,值得我们反思在AI时代如何保持真实的自我沟通。

AI

AI写作:偏见与流畅性

2025-05-03
AI写作:偏见与流畅性

本文探讨了人们对人工智能生成的文学作品的偏见,这种偏见类似于历史上对女性作家的偏见。作者认为,将AI写作视为“有缺陷的”仅仅因为它并非人类创作是不合理的。文章深入分析了语言流畅性与思考的关系,指出许多人类的语言表达也是习惯性的、非思考性的,与AI写作并无本质区别。最终,作者主张应该以开放的心态阅读AI作品,因为它们可能展现出人类无法想象的语言表达方式。

AI对科学与数学的冲击:百位专家预测未来十年

2025-05-03
AI对科学与数学的冲击:百位专家预测未来十年

《量子杂志》采访了近百位科学家和数学家,探讨人工智能对其领域的影响。几乎所有人都感受到AI带来的冲击,有人参与AI技术研发,有人因AI潜力而改变职业方向,例如调整实验方法、寻求新合作或提出新问题。文章最后提出一个挑战性问题:未来5-10年,AI将如何发展?专家们认为,AI的快速发展难以预测,其影响将持续多年。

AI

谷歌Family Link将允许儿童访问Gemini AI

2025-05-03
谷歌Family Link将允许儿童访问Gemini AI

谷歌将通过Family Link家长控制功能允许儿童在其监控的Android设备上访问Gemini AI应用。谷歌表示,儿童可以使用Gemini来完成作业或听故事,并保证不会使用儿童数据来训练AI。然而,谷歌也警告家长,Gemini可能会出错,儿童可能会看到不合适的内容。家长应与孩子沟通,解释AI并非人类,不应与聊天机器人分享敏感信息。家长可以通过Family Link关闭访问权限,并在孩子首次访问Gemini时收到通知。

DeepMind机器人战胜人类乒乓球高手

2025-05-02
DeepMind机器人战胜人类乒乓球高手

Google DeepMind团队开发的机器人,在乒乓球比赛中达到了人类专业水平的竞争力。这项研究成果发表的论文和视频展示了机器人在复杂、动态环境下的出色表现,标志着人工智能在机器人控制领域取得了重大突破。多位DeepMind研究人员共同参与了这项历时多年的项目,展现了团队协作的力量。

基于WebGL2的GPT-2浏览器端推理演示

2025-05-02
基于WebGL2的GPT-2浏览器端推理演示

这是一个令人惊叹的项目,它将GPT-2小型模型(1.17亿参数)的完整前向传播过程搬上了浏览器端的WebGL2。通过巧妙地利用WebGL2着色器在GPU上进行计算,并使用js-tiktoken进行BPE分词(无需WASM),该项目实现了在浏览器中直接运行GPT-2模型。开发者提供了Python脚本下载预训练权重,并使用Vite构建前端,支持热模块替换。这是一个将先进AI模型带入浏览器端的绝佳案例,展现了Web技术的前沿能力。

AI

AI音乐流派生成器:超过500种音乐风格的惊人组合

2025-05-02
AI音乐流派生成器:超过500种音乐风格的惊人组合

一个神秘的AI程序生成了超过500种奇特的音乐流派组合,例如“哥特式阿拉伯雷鬼”和“萨克斯管图阿雷格”。这些组合大胆地融合了各种文化和音乐风格,展现了AI在音乐创作领域的无限可能性。这引发了人们对未来音乐创作的思考,也为音乐家提供了新的创作灵感。

AI 流派

AI写作助手:文化同质化隐忧

2025-05-02
AI写作助手:文化同质化隐忧

一项康奈尔大学的研究发现,AI写作助手可能导致全球南方数十亿用户的写作风格趋同于美国英语,造成文化刻板印象和语言同质化。研究显示,印度用户在使用AI写作助手时,其写作风格更接近美国人,虽然效率有所提升,但提升幅度小于美国用户,因为他们需要频繁纠正AI的建议。AI常常建议西式食物和节日,甚至将印度宝莱坞明星替换成西方名人。研究人员认为,这体现了AI的“殖民主义”,呼吁科技公司关注文化差异,开发更具包容性的AI工具。

AI

多巴胺:恐惧消退的关键信号

2025-05-01

MIT神经科学家的一项新研究发现,多巴胺在特定脑部区域间的释放是帮助大脑“清除”恐惧、停止恐惧反应的关键信号。研究人员在小鼠实验中发现,多巴胺作用于杏仁核的不同神经元群体,从而编码恐惧的消退记忆。当该机制正常运作时,有助于恢复平静;而当其失效时,则可能导致焦虑甚至创伤后应激障碍。这项研究为理解和治疗与恐惧相关的疾病提供了新的途径,例如通过操纵多巴胺受体或特定神经元来干预恐惧记忆的形成和消退。

谷歌AI模式搜索引擎即将公测

2025-05-01
谷歌AI模式搜索引擎即将公测

谷歌即将向美国部分用户推出其AI模式搜索引擎。这款搜索引擎将以AI生成答案取代传统的URL链接结果,并提供比AI概述更全面的信息。AI模式将位于搜索标签栏的第一个位置,与Perplexity和ChatGPT等竞品竞争。此次公测取消了之前的等待名单,并增加了保存历史搜索和可点击卡片等新功能,方便用户快速回顾和查询信息。

AI

AI赋能城市规划:初创公司Waypoint招募首位工程师

2025-05-01
AI赋能城市规划:初创公司Waypoint招募首位工程师

Waypoint公司致力于利用AI自动化城市规划,解决当前城市规划中依赖咨询公司、成本高昂且效率低下的问题。他们正招聘首位工程师,参与从零构建工程系统,例如微调YOLO模型进行人行道分割、开发城市规划文档处理系统、自动生成交通安全建议等。该职位要求具备扎实的编程能力、快速的学习能力和解决问题的能力,以及对城市规划的热情。

AI

Claude 集成与高级研究功能升级

2025-05-01
Claude 集成与高级研究功能升级

Anthropic 宣布 Claude 迎来重大更新:推出集成功能,允许开发者连接各种应用和工具,并扩展了其研究能力。高级研究模式下,Claude 可搜索网页、Google Workspace 以及集成应用,最多可进行 45 分钟的研究,并提供完整引用。付费用户现已可在全球范围内使用网页搜索功能。此次更新极大地增强了 Claude 的功能和效率,使其成为更强大的协作工具。

AI

大型语言模型的“理解战争”:一场关于规模与意义的辩论

2025-05-01
大型语言模型的“理解战争”:一场关于规模与意义的辩论

随着Transformer模型在NLP基准测试中超越人类水平,一场关于其能力解释的“理解战争”爆发了。2020年,Bender等学者提出的“章鱼测试”认为,仅通过统计模式模仿语言形式的模型无法理解其意义。GPT-3的出现加剧了争议,其强大的能力令许多研究者震惊,但也引发了关于其安全性及伦理问题的担忧。这场辩论不仅涉及模型的理解能力,也反映了学术界和工业界在研究方法和发展方向上的分歧,最终导致NLP领域内部出现“内战”。

AI

AI寒冬?年轻大学毕业生的就业市场遇冷

2025-05-01
AI寒冬?年轻大学毕业生的就业市场遇冷

近几个月,美国年轻大学毕业生的就业市场急剧恶化,失业率高达5.8%。这引发了人们对经济未来和人工智能(AI)影响的担忧。三种可能的解释:一是疫情和金融危机后遗症,就业市场复苏缓慢;二是大学文凭的价值下降,不再像15年前那样具有优势;三是AI的兴起,开始取代年轻白领的工作,例如信息分析、报告撰写等。虽然目前AI对就业的影响尚不明确,但年轻毕业生的就业困境值得关注,它可能预示着短期经济低迷、大学文凭价值变化或AI长期影响的到来。

AI模型中的“数字化化石”:虚假学术术语的传播与挑战

2025-05-01
AI模型中的“数字化化石”:虚假学术术语的传播与挑战

科学家发现一个名为“营养电子显微镜”的无稽术语,竟在AI模型中广泛传播。这源于上世纪50年代论文数字化过程中的错误,并通过翻译错误在伊朗论文中出现,最终被大型语言模型学习并永久保存。这揭示了AI模型训练数据规模巨大、缺乏透明度以及错误自我复制的难题,对学术研究和出版带来严峻挑战,也促使我们反思如何维护知识体系的可靠性。

AI 编码新趋势:真正的“氛围编程”是什么?

2025-05-01
AI 编码新趋势:真正的“氛围编程”是什么?

最近,两家出版社和三位作者误解了“氛围编程”(vibe coding)的含义,将之与AI辅助编程混为一谈。文章作者指出,真正的氛围编程是指利用AI生成代码,而不关注代码本身,是为非程序员提供的一种便捷的软件开发方式。作者对出版社和作者未能理解Andrej Karpathy对“氛围编程”的原意感到失望,并认为一本关于真正氛围编程的书籍将会大受欢迎,因为它能帮助非程序员利用AI工具解决问题,而无需学习编程。

AI

Hyperparam:浏览器端的AI数据处理利器

2025-05-01

Hyperparam 致力于解决机器学习领域数据处理的痛点:缺乏用户友好、可扩展的界面来探索和管理海量数据集。它通过一系列开源工具(Hyparquet、Hyparquet-Writer、HighTable、Icebird、Hyllama和Hyperparam CLI),实现了在浏览器中直接交互式地探索和管理TB级数据集,无需复杂的服务器端基础设施。这些工具支持Parquet和Iceberg等主流数据格式,并利用WebAssembly优化性能。Hyperparam 的本地优先设计确保数据隐私和合规性,为数据科学家和工程师提供更便捷高效的数据处理体验。

AI

Chatbot Arena 评比造假?AI 公司暗中操控排名引发争议

2025-05-01
Chatbot Arena 评比造假?AI 公司暗中操控排名引发争议

一篇来自Cohere、斯坦福、MIT和Ai2的研究论文指控流行的AI基准测试平台Chatbot Arena(其背后的组织为LM Arena)偏袒头部AI公司,允许Meta、OpenAI、Google和亚马逊等公司进行秘密测试,并隐瞒低分模型的结果,从而操纵排行榜排名。研究人员分析了超过280万场模型对战,发现这些公司获得了更高的采样率,从而获得了不公平的优势。LM Arena回应称研究存在不准确之处,并表示将改进采样算法,但否认了故意操纵排名的指控。这一事件引发了人们对AI基准测试平台公平性和透明性的担忧,也凸显了大型科技公司在AI竞赛中的竞争策略。

在Mac上免费运行Qwen3大模型并结合Localforge构建智能体

2025-05-01
在Mac上免费运行Qwen3大模型并结合Localforge构建智能体

本文介绍了如何在Mac上免费运行Qwen3大语言模型,并利用Localforge将其集成到一个智能体中。作者详细介绍了安装MLX库、运行模型服务器以及配置Localforge的过程,包括使用Ollama和MLX两种不同方式运行Qwen3模型。最终,作者成功地使用Qwen3智能体执行了文件列表等操作,并展示了Qwen3生成的网站示例,证明了在本地免费运行强大LLM并构建智能体的可行性。

AI

Windows 11 Copilot+ PC 的高效小型语言模型 Phi Silica

2025-05-01
Windows 11 Copilot+ PC 的高效小型语言模型 Phi Silica

微软应用科学团队通过多学科方法,在Windows 11 Copilot+ PC(搭载骁龙X系列处理器)上实现了突破性的AI效率提升。他们开发的小型语言模型Phi Silica,显著提高了能效、推理速度和内存效率。Phi Silica驱动了Copilot+ PC的诸多功能,例如Word和Outlook中的点击即做、设备端重写和总结功能,并为开发者提供预优化SLM。Phi Silica采用4位权重量化、内存映射嵌入等技术,大幅降低内存占用,并通过QuaRot技术实现了高精度4位量化推理。其在短提示下的首个标记生成时间仅为230毫秒,吞吐量高达20个标记/秒。

AI

微软发布Phi-4推理系列小型语言模型,挑战大型模型性能

2025-05-01
微软发布Phi-4推理系列小型语言模型,挑战大型模型性能

微软发布了新的Phi-4推理系列小型语言模型,包括Phi-4-reasoning、Phi-4-reasoning-plus和Phi-4-mini-reasoning。这些模型在推理能力方面表现出色,尤其在数学推理方面,甚至超越了一些更大的模型。Phi-4-mini-reasoning特别适合资源受限的环境,例如移动设备和边缘计算。微软强调了其对负责任AI的承诺,并采取了多种安全措施来减轻模型的潜在风险。这些模型已经在Azure AI Foundry和Hugging Face上提供,部分模型也已集成到Windows 11的Copilot+ PC中。

AI

DeepSeek-Prover-V2:强化学习赋能的定理证明模型

2025-04-30
DeepSeek-Prover-V2:强化学习赋能的定理证明模型

DeepSeek-Prover-V2是一个开源大型语言模型,用于在Lean 4中进行形式化定理证明。它通过结合DeepSeek-V3的递归定理证明流水线和强化学习,将非形式化和形式化数学推理结合起来。该模型首先利用DeepSeek-V3将复杂问题分解成子目标,然后合成子目标的证明,创建强化学习的初始数据。最终,DeepSeek-Prover-V2-671B在MiniF2F-test上达到了88.9%的通过率,并在PutnamBench上解决了49个问题。同时,还发布了ProverBench,一个包含325个问题的基准数据集,涵盖了高中和大学水平的数学问题。

AI

小米MiMo-7B:70亿参数的推理模型,性能超越320亿参数模型

2025-04-30
小米MiMo-7B:70亿参数的推理模型,性能超越320亿参数模型

小米发布了名为MiMo-7B的70亿参数大型语言模型,专注于推理能力。通过优化的预训练数据和策略,以及创新的强化学习训练方法,MiMo-7B在数学和代码推理任务上表现出色,甚至超越了更大的320亿参数模型。该模型开源,包含基座模型、指令微调模型和强化学习模型等多个检查点,为构建强大的推理能力LLM提供了宝贵的资源。

AI

2024-2025年AI模型发展大爆炸:百模大战,群雄逐鹿

2025-04-30

2024年到2025年,AI模型领域经历了前所未有的爆发式发展。从Stable Diffusion 3到GPT-4o,从Gemini到Claude 3,各大科技巨头和初创公司纷纷推出各自的AI模型,在图像生成、视频生成、文本生成、多模态等领域展开激烈竞争。开源模型的崛起也为AI技术的普及和发展注入了新的活力。这场“百模大战”持续演进,模型的参数量不断攀升,能力也不断增强,最终将塑造未来AI的格局。

AI

大型语言模型的随机性测试:意料之外的偏见

2025-04-30

这项实验测试了OpenAI和Anthropic的几种大型语言模型(LLM)的随机性。通过让模型抛硬币和预测0到10之间的随机数,研究人员发现,这些模型并非完全随机,存在明显的偏见。例如,在抛硬币实验中,所有模型都倾向于预测“正面”,其中GPT-o1的偏差最为严重,达到49%。在预测奇偶数的实验中,大多数模型偏向于预测奇数,Claude 3.7 Sonnet的偏差最为显著,达到47%。研究结果表明,即使是先进的LLM,其输出也可能受到训练数据分布的影响,产生非预期的模式。

AI
1 2 19 20 21 23 25 26 27 51 52