苹果发布超快视觉语言模型FastVLM:兼顾精度与效率

2025-07-24
苹果发布超快视觉语言模型FastVLM:兼顾精度与效率

苹果机器学习团队在CVPR 2025上发表论文,介绍了一种新型视觉语言模型FastVLM。该模型通过采用针对高分辨率图像设计的混合架构视觉编码器FastViTHD,显著提升了精度和效率的平衡。FastVLM在处理高分辨率图像时速度更快,精度更高,并支持在iOS和macOS设备上运行,为实时应用和隐私保护的AI体验提供了可能。其核心在于FastViTHD编码器,它生成的视觉token质量更高,数量更少,从而加快了LLM的预填充速度。与现有方法相比,FastVLM在准确性和效率方面均有显著提升,并提供了一个基于MLX的iOS/macOS演示应用程序。

阅读更多

苹果发布新一代多语言多模态基础模型

2025-07-18
苹果发布新一代多语言多模态基础模型

苹果公司发布了两款新的多语言、多模态基础语言模型,用于驱动其设备和服务中的智能功能。一款是针对苹果硅芯片优化的约30亿参数的设备端模型,另一款是基于新型并行轨迹混合专家(PT-MoE)Transformer的可扩展服务器端模型。两者都经过大规模多语言和多模态数据集的训练,并通过监督微调和强化学习进一步改进,支持更多语言、图像理解和工具调用。在公开基准测试和人工评估中,这两款模型均达到或超过了同等规模的开源基线。苹果还推出了一个新的Swift为中心的Foundation Models框架,方便开发者集成这些功能。

阅读更多
AI

TarFlow:基于Transformer的归一化流模型刷新图像密度估计SOTA

2025-06-28
TarFlow:基于Transformer的归一化流模型刷新图像密度估计SOTA

研究人员提出了一种名为TarFlow的新型归一化流模型,它结合了Transformer架构和掩码自回归流的优势。TarFlow通过对图像块进行自回归Transformer处理,并交替改变自回归方向,实现了高效的密度估计和图像生成。此外,研究人员还引入了三种关键技术来提升样本质量:训练过程中的高斯噪声增强、训练后的去噪过程以及有效的引导方法。实验结果表明,TarFlow在图像似然估计方面取得了显著的突破,超越了现有最佳方法,并且生成的样本质量和多样性可与扩散模型媲美,这在独立的归一化流模型中尚属首次。

阅读更多

大型推理模型的局限性:复杂性崩溃与非直觉式扩展

2025-06-08
大型推理模型的局限性:复杂性崩溃与非直觉式扩展

最新一代的大型语言模型(LLM)衍生出了大型推理模型(LRM),它们在给出答案前会生成详细的思考过程。虽然这些模型在推理基准测试中表现有所提升,但其根本能力、扩展特性和局限性仍未被充分理解。本研究通过可控的谜题环境,系统地研究了LRM的推理能力。结果表明,LRM在超过一定复杂度后会完全崩溃,并且表现出一种反直觉的扩展限制:它们的推理努力会随着问题复杂度的增加而增加,直到达到某一点后,即使有足够的令牌预算,也会下降。研究还发现,LRM在精确计算方面存在局限性,它们无法使用显式算法,并且在不同谜题中的推理不一致。这项工作揭示了LRM的优势、局限性和其真正推理能力的关键问题。

阅读更多
AI

苹果如何保护用户隐私的同时改进AI功能

2025-04-14
苹果如何保护用户隐私的同时改进AI功能

苹果公司致力于保护用户隐私,即使在改进其AI功能(如Genmoji、图像生成工具和写作工具)时也不例外。他们利用差分隐私技术,对用户数据进行匿名处理,只收集汇总后的趋势信息,例如流行的Genmoji提示词。对于处理长文本(如邮件)的AI功能,苹果则采用合成数据的方法。该方法生成模拟真实用户数据模式的合成数据,用于训练和测试模型,而无需访问用户的实际邮件内容。通过这些技术,苹果可以在改进产品体验的同时,确保用户隐私安全。

阅读更多

苹果AI新突破:Activation Transport (AcT)实现对生成模型的精细控制

2025-04-10
苹果AI新突破:Activation Transport (AcT)实现对生成模型的精细控制

苹果机器学习研究人员开发了一种名为Activation Transport (AcT) 的新技术,该技术能够对大型生成模型(包括语言模型和图像生成模型)的输出进行精细控制,而无需大量的计算资源或数据。与传统的强化学习或微调方法不同,AcT 通过操纵模型的激活来实现对输出的引导,具有模型无关性和低计算开销的优点。实验结果表明,AcT 在减少模型输出中的毒性、提高生成文本的真实性以及控制图像生成风格等方面都取得了显著成效。这项技术为构建更安全、更可靠的生成模型提供了新的途径。

阅读更多

SeedLM:基于伪随机数生成器的LLM权重压缩方法

2025-04-06
SeedLM:基于伪随机数生成器的LLM权重压缩方法

大型语言模型(LLM)运行成本高昂,限制了其广泛部署。Meta研究人员提出了一种名为SeedLM的新型后训练压缩方法,该方法利用伪随机数生成器的种子来编码和压缩模型权重。SeedLM在推理过程中利用线性反馈移位寄存器(LFSR)高效生成随机矩阵,并将其与压缩系数线性组合来重建权重块,从而减少内存访问并利用空闲计算周期,有效加速内存受限任务。与依赖校准数据的方法不同,SeedLM无需数据,并在不同任务中具有良好的泛化能力。实验表明,SeedLM在Llama 3 70B模型上的4位和3位压缩下,零样本精度与现有最先进方法相当甚至更好,性能也与FP16基线相当。FPGA测试进一步表明,随着模型规模的增加,4位SeedLM的速度提升可达FP16 Llama 2/3基线的4倍。

阅读更多
AI SeedLM

解读苹果设备端和服务器基础模型

2024-06-10
解读苹果设备端和服务器基础模型

本文介绍了苹果公司在2024年WWDC上推出的全新AI系统——Apple Intelligence,它由多个高性能生成模型组成,能够高效准确地执行用户日常任务。文章重点介绍了其中两个基础模型:一个约30亿参数的设备端语言模型和一个更大规模的服务器端语言模型,并详细阐述了苹果在模型预训练、优化、适配和性能评估等方面的技术细节,以及对负责任AI的承诺。

阅读更多
未分类 生成模型