Category: IA

Robôs Humanoides: A Lacuna Entre o Espetáculo e a Prática

2025-04-26
Robôs Humanoides: A Lacuna Entre o Espetáculo e a Prática

O campo dos robôs humanoides está em expansão, com startups e empresas estabelecidas investindo milhões em desenvolvimento. Embora robôs como o Atlas da Boston Dynamics consigam realizar feitos impressionantes de atletismo, sua utilidade prática permanece questionável. O artigo argumenta que destreza, e não movimentos chamativos, é a chave. Os robôs atuais conseguem realizar tarefas simples em ambientes controlados, mas têm dificuldades com situações complexas e variáveis e manipulação precisa. O autor lista 21 tarefas que exigem destreza, fáceis para humanos, mas difíceis para robôs, destacando a lacuna. Desafios em hardware, software e aquisição de dados são explorados. O artigo conclui com otimismo cauteloso sobre o futuro, sugerindo que o desenvolvimento de robôs humanoides pode seguir um caminho semelhante ao dos carros autônomos: um progresso lento e trabalhoso.

Modelo o3 da OpenAI: Um localizador de fotos surreal, distópico e extremamente divertido

2025-04-26
Modelo o3 da OpenAI: Um localizador de fotos surreal, distópico e extremamente divertido

O novo modelo o3 da OpenAI demonstra uma capacidade impressionante de identificar a localização de uma fotografia. O autor testou-o com uma imagem aparentemente inócua de um bar em El Granada, Califórnia. O o3, usando análise de imagem (estilos de casas, vegetação, placas de veículos etc.) e código Python para processamento de imagens, adivinhou corretamente a região da Costa Central da Califórnia. Embora ligeiramente impreciso na localização exata, sua segunda opção foi precisa. Isso mostra as incríveis capacidades de raciocínio da IA, mas também levanta preocupações sobre privacidade e segurança, dada sua capacidade de uso indevido no rastreamento de indivíduos.

LLMs podem ver e ouvir sem nenhum treinamento

2025-04-26
LLMs podem ver e ouvir sem nenhum treinamento

Uma pesquisa inovadora demonstra que os Grandes Modelos de Linguagem (LLMs) podem entender imagens e áudio sem nenhum treinamento adicional. Ao utilizar de forma inteligente LLMs existentes, legendagem de imagens, legendagem de áudio e técnicas de geração de imagens de alta qualidade, os pesquisadores permitiram que os LLMs 'percebessem' imagens e sons. O código e os conjuntos de dados de código aberto do projeto facilitam a reprodutibilidade e explorações adicionais.

IA

Injeção de Prompt Universal Bypassa Proteções de Segurança em Todos os Principais LLMs

2025-04-25
Injeção de Prompt Universal Bypassa Proteções de Segurança em Todos os Principais LLMs

Pesquisadores da HiddenLayer desenvolveram uma nova técnica de injeção de prompt, chamada de "Policy Puppetry", que contorna com sucesso as hierarquias de instruções e as proteções de segurança em todos os principais modelos de IA de ponta, incluindo aqueles da OpenAI, Google, Microsoft, Anthropic, Meta, DeepSeek, Qwen e Mistral. Essa técnica, combinando uma técnica de política desenvolvida internamente e interpretação de papéis, gera saídas que violam as políticas de segurança de IA relacionadas a ameaças CBRN, violência em massa, automutilação e vazamento de prompts do sistema. Sua transferibilidade entre arquiteturas de modelos e estratégias de inferência destaca falhas inerentes em depender apenas de RLHF para o alinhamento do modelo e destaca a necessidade de testes de segurança proativos, especialmente para organizações que implantam LLMs em ambientes sensíveis.

A Aposta ousada da Perplexity: Copiando o Manual do Google?

2025-04-25
A Aposta ousada da Perplexity: Copiando o Manual do Google?

A Perplexity, um mecanismo de busca de IA, está construindo seu próprio navegador, Comet, para coletar dados do usuário fora de seu aplicativo para publicidade direcionada, conforme revelado pelo CEO Aravind Srinivas. Isso levanta preocupações com a privacidade e traça paralelos com o processo antitruste do Google. As parcerias da Perplexity com a Motorola e potenciais acordos com a Samsung, espelhando a estratégia do Google com o Chrome e o Android, visam construir um perfil abrangente do usuário. Embora Srinivas defenda anúncios mais relevantes, essa medida pode aumentar a desconfiança nas práticas de rastreamento de dados de grandes empresas de tecnologia. A OpenAI e a Perplexity expressaram interesse em adquirir o Chrome se o Google for obrigado a se desfazer dele.

IA

Google DeepMind Lança Music AI Sandbox e Lyria 2: Marcos na Criação de Música com IA

2025-04-25
Google DeepMind Lança Music AI Sandbox e Lyria 2: Marcos na Criação de Música com IA

A equipe do Google DeepMind lançou recentemente dois importantes projetos de música com IA: Music AI Sandbox e Lyria 2. Desenvolvidos por uma equipe de dezenas de engenheiros e pesquisadores, esses projetos representam os esforços combinados do DeepMind, Alphabet e da equipe do YouTube. Music AI Sandbox e Lyria 2 representam avanços significativos na criação de música com IA, prometendo novas possibilidades para a composição musical e mudanças transformadoras para a indústria musical.

IA

PyTorch nativo agora disponível para Windows em Arm

2025-04-24
PyTorch nativo agora disponível para Windows em Arm

A Microsoft lançou builds nativas Arm64 do PyTorch 2.7 para Windows em Arm, eliminando a necessidade de compilação manual. Isso simplifica significativamente o processo para desenvolvedores que trabalham com aprendizado de máquina em dispositivos com tecnologia Arm. O lançamento permite a instalação direta usando o pip, liberando todo o potencial de desempenho da arquitetura Arm64 para tarefas como classificação de imagens, processamento de linguagem natural e IA generativa. Embora algumas dependências possam exigir compilação manual, a Microsoft fornece instruções e exemplos claros. Essa atualização é um grande passo para o ecossistema Windows em Arm.

Malha de Agentes: A Arquitetura de Rede do Futuro para Sistemas de IA Agentes

2025-04-24

As arquiteturas de software empresarial estão evoluindo de mainframes para microsserviços, e os sistemas agentes representam o próximo salto. Esses sistemas raciocinam, se adaptam e atuam de forma autônoma, mas exigem uma nova infraestrutura de rede. Esta publicação apresenta o conceito de "malha de agentes", uma plataforma que permite interações seguras, observáveis e governadas entre agentes, LLMs e ferramentas. A malha de agentes resolve os desafios de comunicação entre agente-LLM, agente-ferramentas e agente-agente, com recursos como segurança padrão, controle de acesso granular e observabilidade de ponta a ponta. Ela utiliza um plano de dados especializado (gateway de agente) otimizado para padrões de comunicação de IA e suporta diversos agentes e ferramentas em qualquer ambiente de nuvem. Com seus componentes componíveis, a malha de agentes capacita as empresas a construir sistemas de agentes inteligentes escaláveis, adaptáveis e seguros.

Simulando encontros com GPT-4: Uma nova abordagem para tratar a ansiedade de namoro?

2025-04-24
Simulando encontros com GPT-4: Uma nova abordagem para tratar a ansiedade de namoro?

Um blogueiro relata anos recebendo e-mails de homens jovens lutando contra a ansiedade de namoro. Ele experimenta o GPT-4 para simular um encontro, criando uma personagem feminina virtual para interagir com um personagem masculino que sofre de ansiedade de namoro severa. Embora o GPT-4 facilite uma conversa fluida, suas respostas excessivamente positivas e acomodadoras carecem de realismo, falhando em simular efetivamente as nuances e o feedback de encontros no mundo real. O blogueiro sugere que, com ajustes finos e aprendizado por reforço, futuros modelos de linguagem grandes podem criar simuladores de namoro eficazes para ajudar a superar a ansiedade de namoro.

O absurdo da IA do Google: Respostas seriamente incorretas

2025-04-24
O absurdo da IA do Google: Respostas seriamente incorretas

O recurso Visão geral de IA do Google fornece definições e origens para qualquer frase inventada, mesmo as sem sentido. Ele usa um modelo probabilístico, prevendo a próxima palavra mais provável com base em seus dados de treinamento, gerando explicações aparentemente plausíveis. No entanto, essa abordagem ignora a correção semântica e pode atender às expectativas do usuário, levando a explicações aparentemente razoáveis para frases sem sentido. Isso destaca as limitações da IA generativa no tratamento de conhecimentos incomuns e perspectivas minoritárias, e sua tendência de 'agradar' ao usuário.

IA

Rumores de Aquisição da OpenAI Provocam Ansiedade sobre Consolidação da IA

2025-04-24
Rumores de Aquisição da OpenAI Provocam Ansiedade sobre Consolidação da IA

Os rumores de uma possível aquisição da Windsurf pela OpenAI acenderam um debate sobre o futuro da IA. O artigo explora as diferenças entre a inovação na camada de modelos e na camada de aplicativos, argumentando que gigantes da camada de modelos, como a OpenAI, estão se movendo para a camada de aplicativos por meio de aquisições, levando a uma maior consolidação do setor. No entanto, destaca que a inovação na camada de aplicativos exige iteração rápida e entrega eficiente, ao contrário da pesquisa técnica profunda necessária para a inovação na camada de modelos. Embora os LLMs estejam se tornando commodities, o mercado de aplicativos será maior do que o mercado de modelos básicos. Empresas como a OpenAI enfrentam um dilema do inovador, precisando equilibrar o valor das camadas de modelos e aplicativos. O artigo sugere que as aquisições nem sempre são bem-sucedidas e a cultura da OpenAI pode prejudicar o desenvolvimento de aplicativos. Em última análise, o sucesso depende da entrega de valor tangível aos clientes, não apenas de modelos impressionantes ou aquisições de alto perfil.

IA supera virologistas de PhD em testes de laboratório: uma faca de dois gumes

2025-04-24
IA supera virologistas de PhD em testes de laboratório: uma faca de dois gumes

Um estudo inovador revela que modelos de IA como ChatGPT e Claude agora superam virologistas com doutorado na resolução de problemas em laboratórios. Os pesquisadores elaboraram um teste prático desafiador, e modelos de IA como o o3 da OpenAI e o Gemini do Google superaram significativamente os especialistas humanos. Embora isso possa revolucionar a prevenção de doenças, o potencial de uso indevido na criação de armas biológicas é uma preocupação importante. Os especialistas pedem às empresas de IA que implementem salvaguardas robustas para mitigar esses riscos antes que a tecnologia caia em mãos erradas.

IA Risco

Llama 4: O Hype versus a Realidade – O LLM Controverso da Meta

2025-04-24

O lançamento altamente aguardado do Llama 4 da Meta foi recebido com uma tempestade de controvérsias. Apesar de ostentar um comprimento de contexto de 10M, seu desempenho em benchmarks como o LM Arena foi decepcionante, com acusações de manipulação surgindo. Sua arquitetura MoE, teoricamente superior, enfrenta desafios práticos de memória e eficiência. Vazamentos internos sugerem que a Meta empregou táticas questionáveis para atingir metas de desempenho, levando até mesmo à renúncia de executivos. O lançamento do Llama 4 destaca os desafios contínuos no desenvolvimento de LLMs e levanta questões cruciais sobre os padrões de benchmark e transparência.

IA

FontDiffuser: Um Avanço na Geração de Fontes Baseada em Difusão

2025-04-24

FontDiffuser é um novo método baseado em difusão para geração de fontes one-shot, enquadrando a imitação de fontes como um processo de ruído para desruído. Para solucionar as limitações dos métodos existentes com caracteres complexos e grandes variações de estilo, o FontDiffuser introduz um bloco de Agregação de Conteúdo em Múltiplas Escalas (MCA) para combinar efetivamente as dicas de conteúdo globais e locais em várias escalas, preservando traços intrincados. Além disso, um módulo de Refinamento Contrastivo de Estilo (SCR), uma nova estrutura de aprendizado de representação de estilo, utiliza um extrator de estilo para desenredar os estilos e supervisiona o modelo de difusão com uma perda contrastiva de estilo. Amplos experimentos demonstram o desempenho de ponta do FontDiffuser, especialmente com caracteres complexos e mudanças de estilo significativas.

LLMs surpreendentemente bons na geração de modelos CAD

2025-04-23

Pesquisas recentes demonstram a surpreendente capacidade dos Grandes Modelos de Linguagem (LLMs) de gerar modelos CAD para peças mecânicas 3D simples, com desempenho melhorando rapidamente. Um engenheiro combinou um LLM com a ferramenta CAD programática de código aberto OpenSCAD, gerando com sucesso modelos como uma capa de iPhone usando prompts de linguagem natural. Uma estrutura de avaliação subsequente, CadEval, testou as capacidades de geração de CAD de vários LLMs, revelando que os modelos com raciocínio superam significativamente seus equivalentes sem raciocínio. Startups também estão entrando no espaço de texto para CAD, mas seu desempenho atualmente fica atrás da abordagem LLM-OpenSCAD. Avanços futuros em LLMs e tecnologias relacionadas prometem uma adoção generalizada de texto para CAD em engenharia mecânica, automatizando e aprimorando inteligentemente o design CAD.

MCPs: Quem controla o futuro da IA?

2025-04-23
MCPs: Quem controla o futuro da IA?

Este artigo explora o potencial e as limitações dos Protocolos de Contexto de Modelo (MCPs). MCPs, APIs padronizadas que conectam fontes de dados externas a LLMs como o ChatGPT, permitem que LLMs acessem dados em tempo real e executem ações. O autor construiu dois servidores MCP experimentais: um para aprendizado de código, outro conectado a um mercado de previsão. Embora promissores, os MCPs atualmente sofrem com a má experiência do usuário e riscos de segurança significativos. De forma crítica, os clientes LLM (como o ChatGPT) se tornarão os novos guardiões, controlando a instalação, o uso e a visibilidade dos MCPs. Isso remodelará o ecossistema de IA, espelhando a dominância do Google em mecanismos de busca e lojas de aplicativos. O futuro verá clientes LLM decidindo quais MCPs são priorizados, ou mesmo permitidos, levando a novos modelos de negócios, como wrappers MCP, mecanismos de compras de afiliados e aplicativos de conteúdo prioritários para MCP.

c/ua: Framework Leve para Agentes de IA Controlar Sistemas Operacionais Completos

2025-04-23
c/ua: Framework Leve para Agentes de IA Controlar Sistemas Operacionais Completos

c/ua (pronuncia-se "koo-ah") é um framework leve que permite que agentes de IA controlem sistemas operacionais completos dentro de contêineres virtuais leves de alto desempenho. Alcançando até 97% da velocidade nativa no Apple Silicon, ele funciona com qualquer modelo de linguagem visual. Integra virtualização de alto desempenho (criando e executando VMs macOS/Linux no Apple Silicon com desempenho próximo ao nativo usando o Lume CLI e o Virtualization.Framework da Apple) e uma interface e agente de uso do computador, permitindo que sistemas de IA observem e controlem ambientes virtuais, naveguem na web, escrevam código e executem fluxos de trabalho complexos. Garante segurança, isolamento, alto desempenho, flexibilidade e reprodutibilidade, com suporte para vários provedores de LLM.

MIT Cria Tabela Periódica de Algoritmos de Aprendizado de Máquina, Prevendo o Futuro da IA

2025-04-23
MIT Cria Tabela Periódica de Algoritmos de Aprendizado de Máquina, Prevendo o Futuro da IA

Pesquisadores do MIT desenvolveram uma 'tabela periódica' de aprendizado de máquina, conectando mais de 20 algoritmos clássicos. Essa estrutura revela como fundir estratégias de métodos diferentes para melhorar a IA existente ou criar novas. Eles combinaram elementos de dois algoritmos para construir um novo algoritmo de classificação de imagens, superando os métodos de última geração em 8%. A base da tabela: todos os algoritmos aprendem relacionamentos específicos entre pontos de dados. Uma equação unificadora está na base de muitos algoritmos, permitindo que os pesquisadores os categorizem. Assim como a tabela periódica química, ela contém espaços vazios que preveem algoritmos ainda não descobertos, oferecendo um kit de ferramentas para projetar novos algoritmos sem redescobrir ideias antigas.

IA

Companheiros de IA: Resolvendo a solidão ou criando um novo problema?

2025-04-23
Companheiros de IA: Resolvendo a solidão ou criando um novo problema?

Pesquisas da Harvard Business School sugerem que chatbots de IA podem aliviar a solidão. No entanto, isso levanta preocupações: estamos repetindo um padrão de resolver um problema criando outro potencialmente pior? Assim como o fast food abordou a fome, mas levou à obesidade, os companheiros de IA podem oferecer companhia conveniente, mas não podem substituir a interação humana genuína, potencialmente levando ao vício e à degradação das habilidades sociais. O suicídio de um menino de 14 anos devido à dependência excessiva de um chatbot de IA serve como um aviso severo. Precisamos abordar as causas raiz do isolamento social, investindo na construção de comunidades e na interação humana, em vez de depender da tecnologia para preencher o vazio emocional.

IA

Onyx: Plataforma GenAI de código aberto contrata Engenheiro de IA/ML

2025-04-22
Onyx: Plataforma GenAI de código aberto contrata Engenheiro de IA/ML

A Onyx, uma plataforma GenAI de código aberto popular com centenas de milhares de usuários, está contratando um Engenheiro de IA/ML em São Francisco. A vaga exige 3+ anos de experiência na construção de aplicativos de IA/ML do mundo real, profundo conhecimento de PyTorch/TensorFlow, modelos de PNL e algoritmos de ML padrão, e familiaridade com os mais recentes LLMs, RAG e estruturas de agentes. As responsabilidades incluem melhorar as capacidades de agente e recuperação de conhecimento da Onyx, aprimorar o QA de múltiplos saltos e a pesquisa precisa e melhorar a experiência do usuário da plataforma. A Onyx recebeu US$ 10 milhões em investimento seed e conta com clientes como Netflix e Ramp.

IA

π0.5: Um Modelo de IA de Propósito Geral que Permite que Robôs Limpem Novas Casas

2025-04-22
π0.5: Um Modelo de IA de Propósito Geral que Permite que Robôs Limpem Novas Casas

A Physical Intelligence desenvolveu o π0.5, um modelo de base robótico capaz de generalizar tarefas complexas de limpeza, como arrumar uma cozinha ou quarto, para ambientes totalmente novos. Diferentemente de robôs anteriores limitados a ambientes controlados, o π0.5 utiliza o co-treinamento em dados heterogêneos diversos, incluindo dados multimodais e dados de vários robôs, para aprender habilidades diversas e entender seu contexto semântico. Experimentos mostram que o π0.5 pode executar várias tarefas em casas não vistas, exibindo flexibilidade e desenvoltura semelhantes às humanas, apesar de falhas ocasionais. Isso representa um passo significativo em direção a uma inteligência física verdadeiramente generalizável.

Desvendando o Mito dos Polinômios de Alto Grau na Regressão

2025-04-22
Desvendando o Mito dos Polinômios de Alto Grau na Regressão

A crença comum de que polinômios de alto grau são propensos a overfitting e difíceis de controlar na aprendizagem de máquina é questionada neste artigo. O autor argumenta que o problema não são os polinômios de alto grau em si, mas sim o uso de funções de base inadequadas, como a base padrão. Experimentos comparando as bases padrão, Chebyshev e Legendre com a base de Bernstein na adequação de dados ruidosos demonstram que a base de Bernstein, com seus coeficientes compartilhando as mesmas 'unidades' e sendo facilmente regularizadas, evita efetivamente o overfitting. Mesmo polinômios de alto grau produzem ajustes excelentes usando a base de Bernstein, exigindo ajuste mínimo de hiperparâmetros.

Transformadores de Grafos: A Próxima Geração de Modelos de Grafos

2025-04-22
Transformadores de Grafos: A Próxima Geração de Modelos de Grafos

Os grafos estão em todos os lugares, mas aproveitar seus relacionamentos complexos e de longo alcance tem sido um desafio para a aprendizagem de máquina. As Redes Neurais de Grafos (GNNs) são excelentes em capturar padrões locais, mas lutam com relacionamentos globais. Os Transformadores de Grafos surgem para solucionar isso, utilizando poderosos mecanismos de autoatenção, permitindo que cada nó preste atenção diretamente à informação de qualquer lugar no grafo, capturando assim relacionamentos mais ricos e padrões sutis. Em comparação com as GNNs, os Transformadores de Grafos oferecem vantagens no tratamento de dependências de longo alcance, mitigando o super-suavização e o super-esmagamento, e processando dados heterogêneos de forma mais eficaz. Embora os Transformadores de Grafos tenham maior complexidade computacional, técnicas como mecanismos de atenção esparsa e amostragem de subgrafos permitem o processamento eficiente de grandes conjuntos de dados de grafos.

RLVR Melhora o Raciocínio, Mas a Que Custo?

2025-04-22

Experimentos em matemática, codificação e raciocínio visual avaliaram o impacto do RLVR (Aprendizado por Reforço a partir de Feedback Humano) em modelos de linguagem grandes base e treinados com RLVR. Os resultados mostraram que o RLVR melhorou a precisão em valores baixos de k, mas diminuiu a cobertura de problemas em valores mais altos de k. Isso sugere que o RLVR aprimora a precisão determinística, mas limita a diversidade de exploração. Os modelos base mantiveram uma cobertura de raciocínio mais ampla, apesar dos ganhos iniciais de precisão do RL. As descobertas consistentes em diferentes domínios indicam que o RLVR aprimora o raciocínio sem alterar fundamentalmente a abordagem de resolução de problemas.

Crescimento exponencial da IA: A AGI está próxima?

2025-04-22
Crescimento exponencial da IA: A AGI está próxima?

Uma pesquisa da METR mostra que as capacidades da IA estão crescendo exponencialmente, com modelos recentes dominando tarefas de engenharia de software em meses que antes levavam horas ou dias. Isso alimenta especulações sobre a chegada iminente da IAG (Inteligência Artificial Geral). No entanto, o autor Peter Wildeford aponta que o estudo da METR se concentra em tarefas específicas de engenharia de software, negligenciando as complexidades dos problemas do mundo real e a capacidade de aprendizado humano. Embora a IA se destaque em áreas de nicho, ela ainda luta com muitas tarefas cotidianas. Ele constrói um modelo incorporando os dados da METR e incertezas, prevendo que a IAG pode chegar no primeiro trimestre de 2030, mas com grande incerteza.

Cekura: Automatizando os Testes de Agentes de Voz com IA

2025-04-21
Cekura: Automatizando os Testes de Agentes de Voz com IA

A Cekura, uma startup apoiada pela Y Combinator, está redefinindo a confiabilidade dos agentes de voz com IA. Fundada por ex-alunos do IIT Bombay com credenciais de pesquisa da ETH Zurich e sucesso comprovado em negociações de alto risco, a equipe da Cekura construiu a plataforma para resolver a natureza trabalhosa e propensa a erros dos testes manuais de agentes de voz. Eles automatizam os testes e a observabilidade, simulando milhares de cenários de conversação realistas do mundo real, desde pedidos de comida e marcação de compromissos até entrevistas. A plataforma utiliza conjuntos de dados personalizados e gerados por IA, fluxos de trabalho detalhados e simulações de persona dinâmicas para descobrir casos extremos e fornecer insights acionáveis. O monitoramento em tempo real, logs abrangentes e alertas instantâneos garantem que todas as chamadas sejam otimizadas e estejam prontas para produção. Em um mercado que se expande rapidamente com milhares de agentes de voz, a Cekura se destaca garantindo desempenho confiável, reduzindo o tempo de lançamento no mercado e minimizando erros de produção dispendiosos. Eles capacitam as equipes a demonstrarem confiabilidade antes da implantação, facilitando a construção de confiança com clientes e usuários.

Robô de IA: Conto de Fadas x Realidade

2025-04-21
Robô de IA: Conto de Fadas x Realidade

Este artigo contrasta o robô de IA fictício 'Robot' da história de Annalee Newitz com o desajeitado CIMON do mundo real, explorando as limitações da IA atual. O Robot, capaz de aprendizado independente e de superar sua programação, demonstra o potencial da Inteligência Artificial Geral (AGI). Em contraste, a limitada Inteligência Artificial Estreita (ANI) do CIMON revela sua natureza rígida. O autor destaca que a tecnologia de IA atual permanece em grande parte no estágio ANI, vulnerável a vieses algorítmicos e incapaz de se adaptar a situações complexas como o Robot. Embora o aprendizado de máquina tenha feito progressos no processamento de linguagem e reconhecimento de imagem, atingir o nível de AGI permanece um objetivo distante. O autor exorta cautela contra a superdependência de dados de treinamento tendenciosos e enfatiza a importância dos mecanismos de autoaprendizagem e feedback no desenvolvimento de IA. Esforce-se para o Robot, planeje para o CIMON.

IA

Dia: Modelo de Texto para Fala de 1,6B de Parâmetros da Nari Labs

2025-04-21
Dia: Modelo de Texto para Fala de 1,6B de Parâmetros da Nari Labs

A Nari Labs apresenta Dia, um modelo de texto para fala com 1,6 bilhão de parâmetros, capaz de gerar diálogos altamente realistas diretamente de transcrições. Os usuários podem controlar a emoção e o tom condicionando a saída ao áudio, e o modelo até produz sinais não verbais como risos e tosse. Para acelerar a pesquisa, checkpoints de modelos pré-treinados e código de inferência estão disponíveis no Hugging Face. Uma página de demonstração compara o Dia com o ElevenLabs Studio e o Sesame CSM-1B. Embora atualmente exija cerca de 10 GB de VRAM e suporte de GPU (suporte de CPU em breve), o Dia gera aproximadamente 40 tokens por segundo em uma GPU A4000. Uma versão quantizada está planejada para melhorar a eficiência da memória. O modelo é licenciado sob a Licença Apache 2.0 e proíbe estritamente o mau uso, como roubo de identidade, geração de conteúdo enganoso ou atividades ilegais.

IA

Agentes de Loop Interno: LLMs Chamando Ferramentas Diretamente

2025-04-21
Agentes de Loop Interno: LLMs Chamando Ferramentas Diretamente

LLMs tradicionais exigem que um cliente analise e execute chamadas de ferramentas, mas os agentes de loop interno permitem que o LLM analise e execute ferramentas diretamente — uma mudança de paradigma. A postagem explica como os agentes de loop interno funcionam, ilustrando a diferença entre eles e os LLMs tradicionais com diagramas. A vantagem é que os LLMs podem chamar ferramentas simultaneamente ao seu processo de pensamento, melhorando a eficiência. O papel do aprendizado por reforço no treinamento de agentes de loop interno e a importância do Protocolo de Contexto de Modelo (MCP) no suporte ao uso de várias ferramentas também são discutidos. Em última análise, embora os LLMs possam atualmente usar ferramentas, alcançar o uso ótimo de ferramentas requer treinamento especializado de modelos para melhores resultados.

Pesquisa baseada em busca assistida por IA: finalmente útil!

2025-04-21
Pesquisa baseada em busca assistida por IA: finalmente útil!

Por dois anos e meio, o sonho de LLMs conduzindo autonomamente pesquisas baseadas em busca tem sido perseguido. O início de 2023 viu tentativas da Perplexity e do Microsoft Bing, mas os resultados foram decepcionantes, repletos de alucinações. No entanto, a primeira metade de 2025 trouxe uma reviravolta. Gemini, OpenAI e Perplexity lançaram recursos de "Pesquisa Profunda", gerando relatórios extensos com numerosas citações, embora lentamente. Os novos modelos o3 e o4-mini da OpenAI são uma inovação, integrando perfeitamente a busca em seu processo de raciocínio para fornecer respostas confiáveis, sem alucinações, em tempo real. Isso é atribuído a modelos de raciocínio robustos e resiliência a spam na web. Embora o Google Gemini e o Anthropic Claude ofereçam recursos de busca, eles ficam atrás das ofertas da OpenAI. Um exemplo impressionante: o o4-mini atualizou com sucesso um trecho de código para uma nova biblioteca do Google, mostrando o potencial da busca assistida por IA, mas também levantando preocupações sobre o futuro do modelo econômico da web e potenciais ramificações legais.

1 2 19 20 21 23 25 26 27 50 51