Meta发布字节级大型语言模型BLT:超越分词的效率与鲁棒性

2024-12-14

Meta研究团队近日推出了一种名为“字节级潜在Transformer”(BLT)的新型大型语言模型架构。该模型直接对字节进行编码,而非传统的单词或子词标记,并根据字节的熵动态调整计算资源分配。 BLT在高达80亿参数的规模上实现了与基于标记的模型相当的性能,同时在推理效率和鲁棒性方面取得了显著提升,尤其在处理长尾数据和复杂推理任务时表现出色。这项研究证明了在无需固定词表的情况下,直接训练基于原始字节的模型的可行性,为大型语言模型的未来发展方向提供了新的思路。

阅读更多

Meta FAIR发布多项AI研究成果,推动人工智能发展

2024-12-13

Meta FAIR发布了多项AI研究成果,包括用于控制虚拟具身代理行为的基础模型Meta Motivo、用于视频水印的开源模型Meta Video Seal等。这些成果涵盖了更强大的代理、鲁棒性和安全性以及架构创新等方面,旨在推动先进机器智能的发展。Meta还发布了Flow Matching代码库、用于心智理论推理的Meta Explore Theory-of-Mind程序、大型概念模型LCM以及动态字节潜在变换器等,为研究人员提供了更多工具和资源,并致力于构建一个开放协作的生态系统,共同推动AI的负责任发展。

阅读更多
AI

Meta 推出量化 Llama 模型:速度更快,内存占用更低

2024-10-24

Meta发布了首批轻量级量化 Llama 模型,这些模型体积小、性能高,可以在许多流行的移动设备上运行。这些模型采用与原始 1B 和 3B 模型相同的质量和安全要求,同时速度提高了 2-4 倍,模型大小平均减少了 56%,内存使用量平均减少了 41%。Meta 使用了两种量化技术:注重精度的 LoRA 适配器量化感知训练和注重可移植性的尖端训练后量化方法 SpinQuant。

阅读更多
未分类 量化模型

Meta Movie Gen:用AI创作电影级视频

2024-10-05

Meta Movie Gen 是一款基于AI的视频生成工具,可以根据文字描述生成高质量的视频内容。它支持多种功能,包括根据文字生成视频、编辑现有视频、将个人图像转换为视频以及创建音效和配乐。Movie Gen 的先进模型能够生成长高清视频、实现精确的视频编辑,并保留人物身份和动作,为用户提供全新的AI内容创作体验。

阅读更多
未分类

Llama 3.2:用开放、可定制的模型革新边缘人工智能和视觉

2024-09-25

Meta 发布了 Llama 3.2,包括适用于边缘和移动设备的小型和中型视觉大语言模型(11B 和 90B)以及轻量级纯文本模型(1B 和 3B)。Llama 3.2 支持图像推理,可以理解图表、添加图像说明以及根据自然语言描述精确定位图像中的物体。轻量级模型具有多语言文本生成和工具调用功能,支持离线运行,增强了隐私保护。Llama 3.2 还提供了 Llama Stack,简化了开发人员在不同环境中使用 Llama 模型的方式。

阅读更多
未分类

Meta 发布 Segment Anything 模型二代

2024-07-31

Meta 推出新一代 Segment Anything 模型 (SAM 2),该模型将最先进的视频和图像分割功能整合到一个模型中,同时保持了简单的设计和快速的推理速度。SAM 2 在视频中对目标进行分割方面优于现有的模型,特别是在跟踪部件方面表现出色。它能够实时交互并生成结果,并具有强大的零样本性能,即使在模型训练中未曾见过的物体、图像和视频上也能表现出色。

阅读更多
未分类

Meta 发布新一代 Segment Anything 模型 SAM 2,支持视频和图像分割

2024-07-30

Meta 发布了新一代 Segment Anything 模型 SAM 2,这是一个用于图像和视频中实时可提示对象分割的统一模型,其性能达到最先进水平。SAM 2 在图像分割精度方面超过了之前的水平,并实现了比现有工作更好的视频分割性能,同时交互时间减少了三倍。SAM 2 还可以分割任何视频或图像中的任何对象,这意味着它可以应用于以前从未见过的视觉内容,而无需自定义适配。Meta 还发布了用于构建 SAM 2 的 SA-V 数据集和一个基于 Web 的演示体验,任何人都可以在这里体验该模型的实际应用。

阅读更多
未分类

超越传统个性化图像生成:Meta推出全新模型Imagine Yourself

2024-07-25

Meta 最新推出的Imagine Yourself模型,是一种无需微调的个性化图像生成模型。该模型克服了传统模型在身份保留、复杂指令遵循和图像质量等方面的局限性,通过新的合成配对数据生成机制、全并行注意力架构和多阶段微调方法,实现了身份保留、视觉质量和文本一致性方面的提升,为各种个性化应用奠定了基础。

阅读更多
未分类

Meta 推出 3D Gen:快速生成高质量 3D 资源的新型 AI

2024-07-02

Meta 推出名为 3D Gen 的新型尖端快速生成 3D 资源的 AI 模型。3D Gen 能够在一分钟内根据文本提示生成高保真度、高质量的 3D 形状和纹理,并支持基于物理的渲染(PBR)。它结合了 Meta 3D AssetGen 和 Meta 3D TextureGen 的优势,能够在视图空间、体积空间和 UV 空间中同时表示 3D 对象,实现高效的文本到 3D 资源生成。

阅读更多
未分类

Meta大型语言模型编译器:编译器优化的基础模型

2024-06-30

Meta公司发布了Meta大型语言模型编译器(LLM Compiler),这是一套强大的、开源的、预训练模型,专门用于代码优化任务。该模型基于Code Llama构建,增强了对编译器中间表示(IR)、汇编语言和优化技术的理解。LLM Compiler在包含5460亿个LLVM-IR和汇编代码token的大型语料库上进行了训练,并经过指令微调以解释编译器行为。Meta发布了70亿和130亿参数的LLM Compiler,并根据特定的商业许可授权使用,以允许广泛的重用。

阅读更多
未分类 代码优化

Meta FAIR分享新的研究成果、模型和数据集

2024-06-18

Meta FAIR 公开了六项新的研究成果,包括图像到文本和文本到音乐生成模型、多标记预测模型以及检测AI生成语音的技术。其中,Meta Chameleon模型可以结合文本和图像作为输入和输出,Multi-Token Prediction模型通过预测多个未来单词来提高效率,JASCO模型可以接受和弦或节拍等输入来生成音乐,AudioSeal技术可以检测AI生成的语音。此外,Meta还发布了PRISM数据集,用于评估LLM的社会人口统计学和偏好,并分享了在衡量和改进文本到图像生成系统地理差异方面的研究成果。

阅读更多
未分类

A look at the early impact of Meta Llama 3

2024-04-26

网站提供了关于 Meta LLAMA 3 更新的最新信息,重点介绍了新模型的多模式和可扩展能力,它允许在更广泛的语言和任务上进行联合训练和微调。该更新还提供了 LLAMA 3 的示例及其在问题回答、对话和代码生成方面的能力。此外,网站还讨论了人工智能模型中的负责人工智能和减少偏见的重要性。

阅读更多
未分类

Imagine Flash: Accelerating Emu Diffusion Models with Backward Distillation | Research - AI at Meta

2024-04-19

该网站提供了一篇由 Meta AI 研究团队撰写的研究论文,题为“想象闪光:通过反向蒸馏加速 Emu 扩散模型”。论文探讨了一种新的训练技术,称为“想象闪光”,可以显着加速大规模语言模型的训练。该技术通过利用先前训练过的模型的知识来训练新模型,从而减少了训练时间和计算成本。研究结果表明,想象闪光可以将 Emu 扩散模型的训练时间减少高达 4 倍,同时保持或提高模型的性能。这为大规模语言模型的开发和部署开辟了新的可能性。

阅读更多
未分类