Webtagr - 科技资讯摘要

VibeVoice：开源长篇多说话者语音合成框架

2025-09-03

VibeVoice是一个新颖的开源文本转语音框架，能够生成富有表现力、篇幅较长、多说话者的对话音频，例如播客。它解决了传统TTS系统在可扩展性、说话人一致性和自然轮流对话等方面的挑战。其核心创新在于采用7.5 Hz超低帧率的连续语音分词器（声学和语义），在有效保持音频保真度的同时大幅提高了长序列处理的计算效率。VibeVoice采用下一个标记扩散框架，利用大型语言模型（LLM）理解文本上下文和对话流程，并利用扩散头生成高保真声学细节。该模型可以合成长达90分钟、最多4个不同说话人的语音，超过了许多现有模型通常1-2个说话人的限制。

(microsoft.github.io)

AI

RenderFormer：无需训练的全局光照神经渲染引擎

2025-06-01

RenderFormer 是一种神经渲染管道，它可以直接从三角形表示的场景中渲染图像，并具有完整的全局光照效果，无需针对每个场景进行训练或微调。它将渲染制定为序列到序列的转换，其中表示具有反射特性的三角形的标记序列被转换为表示像素小块的输出标记序列。RenderFormer 包含两个阶段：一个与视角无关的阶段，模拟三角形之间的光传输；一个与视角相关的阶段，根据与视角无关的阶段的三角形序列，将表示光线束的标记转换为相应的像素值。两个阶段都基于 Transformer 架构，并通过最小的先验约束进行学习。无需光栅化，无需光线追踪。

(microsoft.github.io)

AI 全局光照

Python 的无畏并发：Lungfish 项目

2025-05-18

Project Verona 团队正在开发名为 Lungfish 的 Python 新所有权模型，旨在安全高效地管理 Python 程序的内存和并发。他们首先使用 FrankenScript 语言快速原型化了基于区域的所有权概念，并将其经验与 Faster CPython 团队分享。目前，他们正逐步实施深度不变性模型，包括在 CPython 中实现深度不变性、管理循环不变垃圾以及与子解释器间消息传递集成。这将为基于区域的所有权模型在 Python 中的应用奠定基础，最终目标是简化并发编程，并避免并发陷阱。该项目借鉴了 Rust 等语言的经验，但采用了动态检查，以适应 Python 的动态类型特性。

(microsoft.github.io)

开发所有权模型

AI视频内容理解：便利店和家居场景分析

2025-02-20

两个AI片段分别分析了便利店收银台和家居场景的视频。第一个片段描述了顾客在便利店结账，利用“PICK 5 FOR $8.00”优惠购买零食和饮料的过程，重点是顾客和店员的互动。第二个片段则展现了一只手摆放盆栽的过程，背景是家居环境，包括书、碗、水壶等物品，展现了轻松的家居氛围。这两个片段都通过对细节动作的描述，展现了AI对视频内容理解的能力。

(microsoft.github.io)

AI 视频分析场景理解

生成式 AI 脚本工具 GenAIScript 介绍

2024-10-31

GenAIScript是一个使用JavaScript编写LLM提示的脚本工具，它提供了一个 cohesive 的脚本环境，可以方便地构建、调试、运行和测试LLM提示脚本。GenAIScript 支持多种功能，包括 LLM 工具注册、LLM 代理组合、数据模式定义和验证、文件提取和差异预览、文件搜索、浏览器自动化、RAG 内置向量搜索、GitHub 模型和 GitHub Copilot 运行、本地模型运行、代码解释器、容器运行、LLM 组合、Prompty 运行和转换、CLI 自动化、Pull Request 集成、测试和评估以及案例研究等。

(microsoft.github.io)

23

未分类 GenAIScript

OmniParser：用于纯视觉GUI代理

2024-10-26

OmniParser 是一种用于解析用户界面截图的综合方法，旨在提高大型视觉语言模型在不同操作系统和应用程序中的代理系统运行能力。它包含两个专门模型：一个用于解析屏幕上可交互区域的检测模型，以及一个用于提取检测到的元素的功能语义的描述模型。OmniParser 在 ScreenSpot、Mind2Web 和 AITW 基准测试中显著提高了 GPT-4V 的性能，并优于需要截图以外额外信息的 GPT-4V 基线。

(microsoft.github.io)

32

未分类用户界面解析 OmniParser