谷歌利用卫星图像和机器学习,扩展全球太阳能潜力评估
谷歌的研究人员利用机器学习模型处理卫星图像,创建了高分辨率的数字表面模型和屋顶分割图,从而扩展了谷歌地图平台太阳能API在全球南方的覆盖范围。这项创新克服了传统方法在数据获取和处理上的局限性,为全球12.5亿建筑物提供了太阳能潜力评估数据,加速了全球各地可再生能源的采用。该项目利用卫星数据提高了数据更新频率,并降低了成本,尤其对数据匮乏的地区意义重大。
阅读更多
谷歌的研究人员利用机器学习模型处理卫星图像,创建了高分辨率的数字表面模型和屋顶分割图,从而扩展了谷歌地图平台太阳能API在全球南方的覆盖范围。这项创新克服了传统方法在数据获取和处理上的局限性,为全球12.5亿建筑物提供了太阳能潜力评估数据,加速了全球各地可再生能源的采用。该项目利用卫星数据提高了数据更新频率,并降低了成本,尤其对数据匮乏的地区意义重大。
阅读更多
本文介绍了一种名为Iterative BC-Max的新技术,旨在通过改进内联决策来减小编译后二进制文件的大小。该技术通过解决精心设计的监督学习问题而不是使用不稳定且计算量大的强化学习算法来生成决策策略。与现有的强化学习算法相比,Iterative BC-Max具有多项优势,包括更少的编译器交互、对不可靠奖励信号的鲁棒性,以及只需解决二元分类问题。该技术通过迭代地编译程序语料库和学习新的编译策略,最终实现二进制文件大小的减小。实验结果表明,在搜索应用程序二进制文件上,Iterative BC-Max相比于进化策略基线实现了约1%的大小缩减。
阅读更多
谷歌研究人员提出了一种名为InkSight的模型,可以将手写笔记的照片转换为数字墨水格式,并再现笔画轨迹,无需专用设备。该模型结合了OCR技术和机器学习,通过学习“阅读”识别文字和学习“书写”输出笔画,从而实现更鲁棒的转换,即使在光线条件差或存在遮挡的情况下也能良好工作。该模型将笔记数字化分成三个步骤:OCR提取单词边界框、分别对每个单词进行渲染以及用渲染的笔画替换原始像素表示。这种方法解决了现有方法对专用硬件的依赖以及缺乏配对训练数据的难题,并通过多任务训练设置(包括识别和渲染任务)提高了模型的泛化能力。
阅读更多
本文介绍了PDLP,一种基于一阶方法的大规模线性规划求解器。传统线性规划求解器在处理超大规模问题时,面临内存溢出和硬件挑战。PDLP利用矩阵向量乘法而非矩阵分解,降低了内存需求,更适用于GPU和分布式系统等现代计算技术。PDLP的核心算法是重启的原始对偶混合梯度法(PDHG),并进行了预解、预处理、不可行性检测、自适应重启和自适应步长等改进。PDLP已开源并集成到Google的OR-Tools中,并在数据中心网络流量工程、集装箱运输优化和旅行商问题等方面有广泛应用。
阅读更多
本文介绍了 YouTube Music 如何使用 Transformer 模型改进音乐推荐系统。传统的推荐系统难以理解用户行为的顺序性和上下文关联性,导致推荐结果不精准。YouTube Music 利用 Transformer 模型分析用户的历史行为,例如跳过、喜欢或不喜欢歌曲等,并根据当前场景(如健身、驾驶)调整推荐策略。这种方法有效降低了跳过率,提高了用户听音乐的时间,提升了用户满意度。
阅读更多
StreamVC是一种实时语音转换解决方案,可以保留任何源语音的内容和韵律,同时匹配任何目标语音的音色。与以前的方法不同,StreamVC即使在移动平台上也能从输入信号中以低延迟生成结果波形,使其适用于实时通信场景,如电话和视频会议,并解决了这些场景中的语音匿名化等用例。
阅读更多
本文介绍了谷歌公司提出的一种新的企业安全方法——BeyondCorp。该方法摒弃了传统的基于防火墙的边界安全模型,而是将所有企业应用程序迁移到互联网上,并取消了特权内网的概念。
阅读更多
本文介绍了谷歌内部软件开发工具中人工智能应用的最新进展,并预测了未来五年该领域的趋势。谷歌内部团队成功将人工智能应用于代码补全、代码审查意见解决和代码粘贴适配等方面,显著提高了软件工程师的生产力。未来,人工智能将在软件测试、代码理解和代码维护等更广泛的领域发挥作用,自然语言也将成为软件工程任务和信息获取的主要接口。
阅读更多
文章介绍了谷歌运营研究团队开发的航运网络设计 API,该 API 采用新的解决方案,能够更好地解决货船路线优化问题,在规模、速度和效率方面超越以往的尝试。文章详细介绍了线性航运网络设计和调度问题(LSNDSP)的三大组成部分:网络设计、网络调度和集装箱路由,以及解决这些问题的两种基本方法:双列生成和 CP-SAT。文章还介绍了为提高可扩展性而采用的启发式策略,包括大邻域搜索和可变邻域搜索,并通过与 LINERLIB 基准测试的比较,展示了该解决方案在集装箱吞吐量、船舶数量和利润率方面的显著改进。
阅读更多
谷歌研究院推出了VideoPrism,这是一个用于视频理解的基础视觉编码器。VideoPrism 旨在处理各种视频理解任务,包括分类、定位、检索、字幕和问答。VideoPrism 在包含 3600 万个高质量视频文本对和 5.82 亿个带噪声或机器生成文本的视频片段的大规模多样化数据集上进行预训练。VideoPrism 很容易适应新的视频理解挑战,并使用单个冻结模型实现了最先进的性能。
阅读更多
谷歌宣布在搜索中添加一项新功能,允许英语学习者练习口语。这项新功能利用谷歌的语音识别技术,让学习者可以对着手机或电脑大声朗读文本,并获得即时反馈。反馈包括对发音、流利性和完整性的评估。该功能还提供了一些练习活动,例如重复句子和回答问题。谷歌表示,这项功能旨在为英语学习者提供一种在真实场景中练习口语的便捷方式。
阅读更多
该网站是谷歌研究院博客文章,介绍了如何使用流网络算法解决带权无向图的最小割问题。文中详细介绍了算法的步骤,并给出了一个示例来说明算法的运作方式。
阅读更多