Cloud Run 推出 GPU 支持,赋能批量处理和异步任务

2025-06-04
Cloud Run 推出 GPU 支持,赋能批量处理和异步任务

Google Cloud Run 现已支持 GPU 加速的作业,这将极大地扩展其应用场景,尤其是在批量处理和异步任务方面。用户可以轻松地进行模型微调、大规模批量 AI 推理以及批量媒体处理,例如视频转码和图像处理等。 vivo、Wayfair 和 Midjourney 等公司已率先体验了这项功能,并取得了显著的成本降低和效率提升。这项新功能让开发者可以专注于创新,而无需过多关注底层基础设施的管理。

阅读更多
开发 批量处理

Gemini文本转SQL:挑战与解决方案

2025-05-16
Gemini文本转SQL:挑战与解决方案

Google Gemini的文本转SQL功能虽然初看惊艳,但在实际应用中却面临诸多挑战。首先,模型需要理解业务特定语境,例如数据库模式、数据含义以及业务逻辑,而单纯的模型微调难以应对各种数据库和数据的变化。其次,自然语言的模糊性导致模型难以准确理解用户意图,需要结合上下文、用户类型和模型自身能力进行调整。最后,不同SQL方言的差异也给模型生成准确SQL代码带来了困难。Google Cloud通过智能数据检索、语义层、LLM消歧、模型自洽性验证等技术手段来应对这些挑战,不断提升Gemini文本转SQL的准确性和可靠性。

阅读更多

Rapid Storage:基于Colossus的超高速可追加存储

2025-04-10
Rapid Storage:基于Colossus的超高速可追加存储

谷歌的Rapid Storage利用Colossus架构实现了每秒2000万请求的超高吞吐量,并为AI/ML应用提供了亚毫秒级延迟的读写能力。通过gRPC流式传输和状态化协议,Rapid Storage显著提升了数据访问效率,尤其在模型预训练等场景下,避免了存储延迟对加速器的阻塞。其独特的容错机制,即使在客户端或服务器故障的情况下,也能保证数据一致性和连续性,实现了无限追加和断点续传,为大规模数据处理提供了强有力的支持。

阅读更多

谷歌云推出AI超级计算机软件升级,大幅提升训练和推理效率

2025-04-10
谷歌云推出AI超级计算机软件升级,大幅提升训练和推理效率

谷歌云宣布了一系列AI超级计算机软件升级,显著提升了AI模型训练和推理效率。Pathways on Cloud分布式运行时首次登陆谷歌云,支持弹性训练和高效推理;Cluster Director新增Slurm支持和360°可观测性功能,确保高性能和可靠性;GKE集成Inference Gateway和Inference Quickstart,大幅降低推理成本并提升吞吐量;vLLM现已支持TPU,进一步提升了推理速度;Dynamic Workload Scheduler扩展了加速器支持,提升资源利用率。这些升级将帮助开发者更快、更经济地构建和部署AI应用。

阅读更多
科技

微软逆天调试神器TTD:穿越时空的代码调试

2025-03-13
微软逆天调试神器TTD:穿越时空的代码调试

微软的Time Travel Debugging (TTD)是一个强大的用户模式记录和回放框架,允许开发者像在时间线中穿梭一样调试程序。它通过注入DLL,捕获进程执行的每个状态,并存储在一个trace文件中。TTD的核心是Nirvana运行时引擎,它模拟CPU指令,实现细粒度的指令级控制。即使面对浮点运算、内存模型、外设模拟、自修改代码等挑战,Nirvana也能通过动态二进制翻译和代码缓存技术保证效率和精度。文章还描述了一个TTD在调试一个混淆的32位PE文件时遇到的bug,并解释了利用TTD自身的trace文件进行调试的优势。

阅读更多
开发 TTD 代码回放

Go语言代码混淆技术:基于状态机的动态数据解密

2025-03-06
Go语言代码混淆技术:基于状态机的动态数据解密

这段Go代码实现了一种高级代码混淆技术,通过将数据分割成多个块,并使用状态机和随机索引进行动态解密。代码首先将数据随机分割,然后生成随机索引序列,用于控制解密顺序。解密过程利用一个随状态变化的密钥,对每个数据块进行逐一解密,最终重组得到原始数据。这种方法增加了逆向工程的难度,有效保护代码安全。

阅读更多
开发

俄罗斯黑客利用Signal“关联设备”功能进行钓鱼攻击

2025-02-19
俄罗斯黑客利用Signal“关联设备”功能进行钓鱼攻击

近期,俄罗斯支持的黑客组织利用Signal应用的“关联设备”功能进行大规模钓鱼攻击。攻击者伪造Signal群组邀请、安全警报或设备配对指示等,诱导受害者扫描恶意二维码,将账户与攻击者控制的Signal实例关联。这使得攻击者能够实时窃听受害者的安全对话,且难以察觉。更甚者,APT44利用这一技术入侵乌克兰军方人员的Signal账户。此方法隐蔽性高,缺乏有效的防御机制,一旦成功,很可能长期不被发现。

阅读更多

BigQuery管道查询语法:更易读、易写、易维护的SQL

2025-02-13
BigQuery管道查询语法:更易读、易写、易维护的SQL

Google BigQuery推出了一种新的管道查询语法,它以线性结构简化了SQL查询的编写和维护。这种语法允许以任何顺序和次数应用各种操作符,例如选择、聚合、分组、连接和过滤,使得查询逻辑更清晰易懂。它解决了传统SQL语法中语句顺序限制、复杂查询需要CTE或嵌套子查询等问题,并引入了EXTEND、SET、DROP和RENAME等新的管道操作符,增强了数据处理的灵活性。

阅读更多

高级恶意软件Shadowpad及反混淆器ScatterBrain分析

2025-02-02
高级恶意软件Shadowpad及反混淆器ScatterBrain分析

Kaspersky发现的恶意软件家族POISONPLUG.SHADOW(Shadowpad)使用了自定义的混淆编译器ScatterBrain,极大地增加了分析难度。Google威胁情报小组(GTIG)与FLARE团队合作,通过逆向工程技术,对ScatterBrain进行了深入分析,并开发出一个独立的静态反混淆器库。该库能够处理ScatterBrain的三种保护模式(Selective,Complete,Complete "headerless"),去除其控制流图混淆、指令变异和导入表保护等机制,从而还原被混淆的二进制文件。这项研究成果有助于提升对高级恶意软件的防御能力。

阅读更多
安全 反混淆

gRPC vs REST:API 设计中的 RPC 与 HTTP 之争

2025-01-23
gRPC vs REST:API 设计中的 RPC 与 HTTP 之争

本文探讨了 gRPC 和 REST 这两种主要的 API 设计模型,并分析了 OpenAPI 的作用。gRPC 基于 RPC 模型,隐藏数据细节;REST 基于 HTTP,资源导向。许多 API 巧妙地结合两者优点,以实体为中心,但用 gRPC 实现。文章比较了三种使用 HTTP 的 API 方法:REST、gRPC 和 OpenAPI,分别阐述其优缺点,并最终建议根据具体需求选择合适的方案。gRPC 性能优越,但需要特殊软件支持;OpenAPI 灵活,但设计复杂;REST 简单直接,但使用率较低。选择时需权衡项目需求、团队技术栈及可维护性等因素。

阅读更多
开发

Trillium TPU 正式发布

2024-12-11
Trillium TPU 正式发布

谷歌宣布其第六代TPU——Trillium正式发布,并已用于训练Gemini 2.0。Trillium TPU作为AI Hypercomputer的关键组件,在训练、微调和推理方面性能显著提升,能效更高。与上一代相比,Trillium在训练性能、推理吞吐量、能效和每芯片峰值计算性能等方面均有大幅提升,并可扩展至数十万芯片。它在大型语言模型训练、推理、嵌入密集型模型等方面表现出色,并提供更高的性价比。

阅读更多
未分类

谷歌云在 Vertex AI 平台推出 Veo 和 Imagen 3 视频及图像生成模型

2024-12-04
谷歌云在 Vertex AI 平台推出 Veo 和 Imagen 3 视频及图像生成模型

谷歌云宣布在 Vertex AI 平台上推出 Veo 和 Imagen 3,分别是其最先进的视频和图像生成模型。Veo 现已在 Vertex AI 上提供私有预览,可根据文本或图像提示生成高质量视频,是首个超大规模供应商提供的图像到视频模型。Imagen 3 将于下周向所有 Vertex AI 客户提供,可根据文本提示生成高质量图像,在细节、光照和伪影减少方面超越了之前的版本。Vertex AI 提供了一个编排平台,可轻松定制、评估性能并在领先的基础设施上部署这些模型。Veo 和 Imagen 3 的开发和部署优先考虑安全性和责任,并内置了数字水印、安全过滤器和数据治理等预防措施。多家公司如亿滋国际、WPP、Agoda 和 Quora 等已将这些模型用于内容创作、营销和产品设计等方面,显著提高了效率和创造力。

阅读更多

Jupiter:谷歌云数据中心网络规模现已达到每秒 13PB

2024-11-03
Jupiter:谷歌云数据中心网络规模现已达到每秒 13PB

谷歌云的Jupiter数据中心网络架构历经25年发展,现已达到每秒13PB的双向带宽。该网络最初相对简单,但随着用户和服务需求的指数级增长,谷歌进行了多次工程创新,最终实现了Jupiter的第五代架构。Jupiter网络支持在同一网络结构内的10万多台服务器上任意放置大规模作业,并具有可预测的低延迟、软件定义和以系统为中心的特点。该网络的可靠性比之前的版本提高了50倍,并已在全球范围内部署,支持谷歌云客户和大型机器学习基础设施。谷歌还在展望下一代网络基础设施,以支持AI时代的需求,例如为即将推出的A3 Ultra VM提供网络支持。

阅读更多
未分类

关于同步磁盘复制

2024-08-31
关于同步磁盘复制

本文介绍了Google Cloud中区域永久磁盘和Hyperdisk Balanced High Availability(预览版)功能,这些功能允许用户在Compute Engine中实现高可用性(HA)服务。文章详细解释了同步磁盘复制的机制,包括主区域和辅助区域之间的数据同步、副本状态、复制状态以及故障转移过程。此外,还介绍了副本恢复检查点的概念和使用方法,以及复制磁盘的限制和下一步学习资源。

阅读更多

TPU 变革:回顾我们人工智能专用芯片的 10 年

2024-08-04
TPU 变革:回顾我们人工智能专用芯片的 10 年

为了满足人工智能计算日益增长的需求,谷歌开发了专用芯片张量处理单元(TPU)。从2015年第一代TPU v1应用于语音识别功能,到如今第六代TPU Trillium用于训练尖端人工智能模型,TPU不断提升性能和效率,支撑着谷歌几乎所有产品的AI功能。TPU的发展历程与谷歌在机器学习和人工智能方面的创新密切相关,从专注于推理到构建训练超级计算机,TPU不断演进以满足不断变化的需求。

阅读更多

深入理解 Google Cloud Composer 上的 Airflow DAG 和任务并发

2024-07-28
深入理解 Google Cloud Composer 上的 Airflow DAG 和任务并发

本文旨在全面介绍 Google Cloud Composer 上 Airflow 的并发机制,涵盖 Composer 环境、Airflow 安装、DAG 和任务四个层面。文章详细解释了每个层级的并发配置选项,例如 worker 数量、worker_concurrency、parallelism、max_active_runs_per_dag 等,并通过图表和示例代码演示如何调整这些设置以优化资源利用率和任务执行效率。此外,文章还重点讲解了可延迟操作符、触发器以及传感器模式等概念,帮助读者更好地管理空闲时间、提高资源利用率。

阅读更多

谷歌分布式云离线设备正式发布

2024-07-20
谷歌分布式云离线设备正式发布

谷歌宣布推出谷歌分布式云离线设备,该设备为战术边缘环境(如灾区、偏远研究站和长途货运业务)提供云计算和人工智能功能。它获得了国防部 (DoD) 影响级别 5 (IL5) 认证,并提供强大的 AI 功能、坚固耐用的设计、完全隔离、集成云服务和数据安全性。

阅读更多
未分类

谷歌云就GCVE事件发布详细信息

2024-05-24
谷歌云就GCVE事件发布详细信息

本文详细介绍了谷歌云近期发生的一起影响其客户UniSuper的GCVE(Google Cloud VMware Engine)服务事故。事故原因是谷歌运营人员在使用内部工具部署客户GCVE私有云时,由于参数配置错误,导致系统默认在一年后自动删除该私有云。此次事件仅影响了该客户的这一个GCVE私有云,没有其他客户受到影响。谷歌云已采取措施纠正了系统行为,并弃用了相关内部工具,确保此类事件不再发生。

阅读更多
未分类 GCVE 服务事故