Webtagr - 科技资讯摘要

Meta大规模将Java代码迁移至Kotlin：攻克百万级代码转换难题

2024-12-22

Meta公司历时数年，将庞大的Android代码库从Java迁移到Kotlin。这篇文章详细介绍了Meta如何通过构建名为Kotlinator的自动化工具，克服了构建速度慢、代码检查不足等挑战，最终实现了超过一半代码的转换。Kotlinator包含多个阶段，包括预处理、使用无头模式的J2K转换、后处理和错误修复等。Meta还与JetBrains合作改进J2K，并开源部分转换步骤，以促进社区协作。文章重点阐述了如何处理空安全问题，以及在转换过程中遇到的各种代码问题和解决方案。

(engineering.fb.com)

开发

Meta公开其AI硬件愿景

2024-10-15

Meta在OCP全球峰会上展示了其最新的AI硬件设计，包括新的AI平台Catalina、先进的开放式机架设计Orv3以及网络结构和组件。Catalina基于NVIDIA Blackwell平台，支持最新的NVIDIA GB200 Grace Blackwell超级芯片。Meta还扩展了Grand Teton平台以支持AMD Instinct MI300X，并开发了新的网络结构DSF和51T交换机。Meta致力于开源AI硬件，并与微软合作开发了新的分散式电源机架Mount Diablo。

(engineering.fb.com)

24

未分类 AI硬件

Meta内部的Jupyter Notebooks：Bento

2024-09-19

本文介绍了Meta内部使用的Jupyter Notebooks发行版Bento，它是一个开源的基于Web的计算平台。Bento允许工程师将代码、文本和多媒体混合在一个文档中，并在Meta内部提供从原型设计到复杂机器学习工作流程等多种用例。文章还介绍了Bento的一些功能，包括定时运行笔记本、与同事共享以及利用浏览器中的WebAssembly在没有远程服务器组件的情况下运行笔记本。

(engineering.fb.com)

30

未分类 Jupyter Notebooks

Meta利用人工智能提高事件响应效率

2024-08-23

Meta公司开发了一种新的AI辅助根本原因分析系统，用于简化系统可靠性调查。该系统结合了基于启发式的检索和基于大型语言模型的排序，以在调查过程中加快根本原因的识别。测试表明，这一新系统在识别与其网络代码库相关的调查创建时的根本原因方面达到了42%的准确率。

(engineering.fb.com)

32

未分类根本原因分析

Meta大规模分布式AI训练的RoCE网络

2024-08-06

为了满足大规模分布式AI训练对网络的需求，Meta构建了基于RoCEv2协议的大规模AI网络。该网络采用独立于数据中心网络的专用后端网络，并采用两级Clos拓扑结构，实现了GPU集群的互连。为了应对LLM模型训练对GPU规模的需求，Meta设计了聚合训练交换机(ATSW)层，将多个AI区域互连起来。此外，Meta还对路由、拥塞控制等方面进行了优化，以提升网络性能。

(engineering.fb.com)

41

未分类 RoCE

Meta如何维护大规模AI算力

2024-06-16

为了满足生成式AI模型训练所需的巨大算力，Meta对其GPU训练集群进行了大规模扩容和优化。文章详细介绍了Meta维护这些集群的挑战和解决方案，包括如何确保容量保证、减少中断、安全地进行软件和固件更新等。Meta采用了一种名为“维护列车”的技术，将一小部分服务器从生产环境中移除进行维护和升级，以保证集群的稳定性和可用性。此外，Meta还开发了OpsPlanner工作编排器，用于安全地协调和执行各种维护操作，确保集群的一致性和性能。

(engineering.fb.com)

44

未分类

MLow：Meta 推出的低比特率音频编解码器

2024-06-13

MLow是Meta推出的一种新型音频编解码器，旨在提升低速网络连接下的音频质量。MLow在低比特率下音质优于Opus，在6kbps时POLQA MOS评分为3.9，而Opus仅为1.89。此外，MLow的计算复杂度比Opus低10%，适用于低端设备。MLow已应用于Instagram和Messenger，并正逐步推广到WhatsApp，未来将进一步提升其在丢包网络环境下的音频恢复能力。

(engineering.fb.com)

66

未分类音频编解码器 MLow 低比特率

Meta如何进行大规模语言模型训练

2024-06-13

为了应对生成式AI对算力需求的指数级增长，Meta 对其软硬件和网络基础设施进行了重构，包括提高硬件可靠性和快速恢复能力、优化GPU间的连接、改进训练软件和调度效率、选择合适的硬件配置、优化数据中心部署和网络架构、采用高效的数据存储方案等，并详细介绍了在RoCE和InfiniBand网络技术上的探索以及网络、存储等方面的优化经验。

(engineering.fb.com)

47

未分类大规模训练