Category: IA

YuE: Modelo de Fundação Aberto para Geração de Música de Formato Longo

2025-08-08

Pesquisadores apresentam YuE, uma família de modelos de fundação abertos baseados na arquitetura LLaMA2, que abordam o desafiador problema de transformar letras em canções na geração de música de formato longo. O YuE gera até cinco minutos de música, mantendo o alinhamento lírico, estrutura coerente e melodias envolventes com acompanhamento. Isso é alcançado por meio de previsão de próximo token desacoplada por faixa, condicionamento progressivo estrutural e uma receita de pré-treinamento multitarefa e multifásica. O aprendizado em contexto aprimorado permite transferência de estilo versátil (por exemplo, de J-Pop para rap em inglês) e geração bidirecional. As avaliações mostram que o YuE iguala ou mesmo supera sistemas proprietários em musicalidade e agilidade vocal. O ajuste fino adiciona controles e suporte para idiomas minoritários. As representações do YuE também se destacam em tarefas de compreensão musical, alcançando resultados de ponta no benchmark MARBLE.

GPT-5: Mergulho profundo em preços, cartão do modelo e recursos-chave

2025-08-08
GPT-5: Mergulho profundo em preços, cartão do modelo e recursos-chave

A família GPT-5 da OpenAI chegou! Não é um salto revolucionário, mas supera significativamente seus antecessores em confiabilidade e usabilidade. No ChatGPT, o GPT-5 é um sistema híbrido que troca inteligentemente entre modelos com base na dificuldade do problema; a versão da API oferece modelos regular, mini e nano com quatro níveis de raciocínio. Ele possui um limite de entrada de 272.000 tokens e um limite de saída de 128.000 tokens, suportando entrada de texto e imagem, mas apenas saída de texto. O preço é agressivamente competitivo, superando significativamente os rivais. Além disso, o GPT-5 mostra melhorias significativas na redução de alucinações, melhor seguimento de instruções e minimização da bajulação, empregando uma nova abordagem de treinamento de segurança. Ele se destaca na escrita, codificação e saúde. No entanto, a injeção de prompt continua sendo um problema não resolvido.

IA

Aprimorando o Fine-tuning de LLMs por meio da Curadoria Iterativa de Dados

2025-08-08
Aprimorando o Fine-tuning de LLMs por meio da Curadoria Iterativa de Dados

Pesquisadores melhoraram significativamente o desempenho de modelos de linguagem grandes (LLMs) por meio da curadoria iterativa de seus dados de treinamento. Os experimentos envolveram dois LLMs de tamanhos diferentes (Gemini Nano-1 e Nano-2) em tarefas de diferentes complexidades, usando ~100.000 anotações de crowdsourcing, inicialmente sofrendo de um desequilíbrio severo de classes (95% benignas). Por meio da curadoria iterativa de especialistas e ajuste fino do modelo, o desempenho aumentou substancialmente. Os modelos atingiram aproximadamente 40% de exemplos positivos e um Kappa de Cohen de ~0,81 (complexidade inferior) e ~0,78 (complexidade superior), aproximando-se do desempenho de nível de especialista, destacando o papel crucial de dados de alta qualidade no treinamento de LLM.

AURA: Um Protocolo Web Legível por Máquina

2025-08-07
AURA: Um Protocolo Web Legível por Máquina

O protocolo AURA (Agent-Usable Resource Assertion) revoluciona a interação entre IA e a web. Em vez de depender de métodos frágeis de raspagem de tela e manipulação de DOM, a AURA introduz um arquivo de manifesto padronizado `aura.json`, permitindo que sites declarem suas funcionalidades (por exemplo, criar postagens, fazer login) como solicitações HTTP. Isso permite uma interação eficiente e segura entre IA e site, e abre caminho para mecanismos de busca mais inteligentes que indexam ações, não apenas conteúdo. O projeto inclui um servidor e cliente de referência, demonstrando sua funcionalidade.

Modelo de código aberto da OpenAI: Esquivando a bala ética real?

2025-08-07
Modelo de código aberto da OpenAI: Esquivando a bala ética real?

A OpenAI lançou recentemente um modelo de linguagem de grande porte de código aberto, mas suas preocupações declaradas com a 'segurança' levantaram algumas sobrancelhas. O artigo argumenta que a OpenAI redireciona habilmente as preocupações públicas sobre a ética da IA para a moral inerente do modelo — impedindo-o de usar palavrões ou tomar decisões prejudiciais. No entanto, o público está muito mais preocupado com as implicações do mundo real: governança, responsabilização, uso de dados, deslocamento de empregos, etc. Isso reflete estratégias tecnológicas passadas em torno da privacidade, focando em questões facilmente solucionáveis enquanto evita desafios sociais mais difíceis. Em vez de se preocupar se a IA segue diretrizes éticas, devemos nos concentrar nas empresas e líderes que usam essa IA. A verdadeira questão da ética da IA é como garantir que essas empresas não abusem de seus recursos e poder para prejudicar a humanidade.

IA

Pesquisador de IA do Google expõe as preocupações éticas dos LLMs

2025-08-07
Pesquisador de IA do Google expõe as preocupações éticas dos LLMs

Bhaskar Mitra, um veterano de 19 anos em grandes empresas de tecnologia e ex-pesquisador de IA, fala após ser demitido, expondo as realidades e os dilemas éticos dos Grandes Modelos de Linguagem (LLMs). Ele argumenta que os LLMs não substituirão profissionais como médicos e professores, e seu controle centralizado sobre a informação levanta preocupações sobre equidade social, acesso à informação e concentração de poder. Mitra pede uma reavaliação da relação entre a tecnologia de IA e a justiça social, defendendo um futuro tecnológico mais inclusivo e humanista.

IA

GitHub vaza detalhes do GPT-5 da OpenAI

2025-08-07
GitHub vaza detalhes do GPT-5 da OpenAI

Uma postagem de blog do GitHub, agora excluída, revelou acidentalmente detalhes sobre os próximos modelos GPT-5 da OpenAI. As quatro variantes oferecem melhorias significativas no raciocínio, na qualidade do código e na experiência do usuário, com recursos aprimorados e capacidade de lidar com tarefas complexas de codificação com prompts mínimos. Esse vazamento ocorre antes do anúncio oficial da OpenAI de um evento “LIVE5TREAM” para mais tarde hoje, solidificando ainda mais os rumores anteriores sobre o lançamento iminente do GPT-5.

IA

Inflação de LLM: Os Grandes Modelos de Linguagem Estão Criando Informações Redundantes?

2025-08-06

A compressão de dados já foi uma conquista fundamental da computação, mas agora os Grandes Modelos de Linguagem (LLMs) introduziram a 'inflação de LLM': as pessoas usam LLMs para expandir informações concisas em textos longos, apenas para compactá-los novamente usando um LLM. Isso reflete um problema de comunicação subjacente: estamos implicitamente recompensando a ofuscação e o desperdício de tempo? LLMs podem estar nos ajudando a enfrentar e resolver esse problema.

Simulação de Braço Robótico UR5: Agarrando e Colocando Objetos

2025-08-06
Simulação de Braço Robótico UR5: Agarrando e Colocando Objetos

Este projeto simula um braço robótico UR5 com uma garra Robotiq 85, realizando tarefas autônomas de agarre e colocação de objetos no ambiente PyBullet. Usando cinemática inversa (IK) para controle preciso do braço e controle de junta sincronizado para movimento realista da garra, o robô agarra cubos de posições aleatórias e os coloca em uma bandeja. A simulação inclui colocação dinâmica de objetos e interação em tempo real.

Genie 3 do DeepMind: mundos 3D interativos e persistentes

2025-08-06
Genie 3 do DeepMind: mundos 3D interativos e persistentes

O Google DeepMind apresenta o Genie 3, um novo modelo de mundo de IA capaz de gerar ambientes 3D interativos e persistentes. Ao contrário das iterações anteriores, o Genie 3 permite tempos de interação significativamente mais longos e lembra a localização dos objetos mesmo quando o usuário desvia o olhar. Oferecendo resolução de 720p a 24fps, o Genie 3 permite vários minutos de interação contínua e suporta modificações baseadas em prompts, como mudar o clima ou adicionar personagens. Atualmente, o acesso é limitado a um pequeno grupo de acadêmicos e criadores para fins de pré-visualização de pesquisa.

Lançado o Claude Opus 4.1: Melhorias Significativas na Codificação

2025-08-06
Lançado o Claude Opus 4.1: Melhorias Significativas na Codificação

A Anthropic lançou o Claude Opus 4.1, uma atualização importante do Claude Opus 4, com melhorias significativas em codificação, aplicação no mundo real e raciocínio. A versão 4.1 alcança 74,5% no SWE-bench Verified para desempenho de codificação e aprimora as capacidades de pesquisa aprofundada e análise de dados, particularmente no rastreamento de detalhes e pesquisa ativa. Empresas como Rakuten e Windsurf elogiaram suas melhorias na correção de código e eficiência de desenvolvimento. Ele agora está disponível para usuários pagos e usuários do Claude Code e integrado à API, Amazon Bedrock e Vertex AI do Google Cloud.

Aplicativo Gemini: Gerador de Livros de Histórias Personalizados com IA

2025-08-06
Aplicativo Gemini: Gerador de Livros de Histórias Personalizados com IA

O aplicativo Gemini do Google agora permite que você crie livros de histórias ilustrados e personalizados com narração. Basta descrever sua ideia de história, e o Gemini gera um livro exclusivo de 10 páginas com arte e áudio personalizados. Você pode até usar suas próprias fotos e arquivos como inspiração, escolhendo entre mais de 45 idiomas e uma ampla variedade de estilos artísticos, de pixel art e quadrinhos a animação em stop motion. Perfeito para explicar tópicos complexos, ensinar lições valiosas ou transformar desenhos de crianças e fotos de família em histórias mágicas. Dê vida à sua visão!

Ollama Turbo: Executando LLMs de código aberto em velocidade máxima

2025-08-06
Ollama Turbo: Executando LLMs de código aberto em velocidade máxima

O Ollama Turbo é uma nova maneira de executar grandes modelos de linguagem de código aberto usando hardware de nível de data center. Muitos modelos novos são grandes demais para GPUs amplamente disponíveis ou rodam muito lentamente. O Ollama Turbo oferece uma maneira de executar esses modelos rapidamente, sendo compatível com o aplicativo, CLI e API do Ollama. Atualmente em versão prévia, ele oferece suporte aos modelos gpt-oss-20b e gpt-oss-120b. Funciona com a CLI, API e bibliotecas JavaScript/Python do Ollama. O Ollama não registra nem retém nenhuma consulta feita no modo Turbo. Todo o hardware está localizado nos EUA. Existem limites de uso (horários e diários) para evitar problemas de capacidade, com preços baseados no uso em breve.

IA

Genie 3: Reconhecimento e os Heróis por Trás

2025-08-06
Genie 3: Reconhecimento e os Heróis por Trás

O sucesso do modelo de linguagem grande Genie 3 é creditado às contribuições significativas de numerosos pesquisadores e engenheiros. Esta extensa lista de agradecimentos destaca o esforço colaborativo em várias etapas, do desenvolvimento central à produção de vídeo. Isso destaca o imenso trabalho em equipe e a rede de suporte crucial para um projeto de IA tão complexo.

IA

Kitten TTS: Modelo de texto para fala leve e de alta qualidade

2025-08-06
Kitten TTS: Modelo de texto para fala leve e de alta qualidade

Kitten TTS é um novo modelo de texto para fala (TTS) de código aberto e realista com apenas 15 milhões de parâmetros. Projetado para implantação leve, ele oferece síntese de voz de alta qualidade. Uma simples instalação do pip e algumas linhas de código são tudo o que é necessário para gerar fala com várias opções de voz, tornando-o ideal para dispositivos com recursos limitados.

IA

Repetição Espaçada Consciente de Conteúdo: A Próxima Geração de Aprendizado?

2025-08-05
Repetição Espaçada Consciente de Conteúdo: A Próxima Geração de Aprendizado?

Sistemas tradicionais de repetição espaçada (SRS) têm um ponto cego: eles ignoram o significado semântico dos flashcards, confiando apenas em modelos de memória para prever a retenção. Este artigo apresenta modelos de memória conscientes de conteúdo, que utilizam o conteúdo textual e as relações semânticas entre os flashcards para melhorar a eficiência da aprendizagem. Isso libera o potencial para ferramentas de aprendizagem mais fluidas e inteligentes, como sistemas de memória centrados em ideias e repetição espaçada conversacional alimentada por IA. O autor também diferencia entre planejadores e modelos de memória, e explora as vantagens, desafios e direções futuras dos modelos de memória conscientes de conteúdo, como a necessidade de conjuntos de dados maiores e publicamente disponíveis que incluam tanto o texto do cartão quanto o histórico de revisão.

IA

Qwen-Image: Modelo de Fundação de Imagem de 20B Parâmetros Lançado

2025-08-05
Qwen-Image: Modelo de Fundação de Imagem de 20B Parâmetros Lançado

A Alibaba DAMO Academy lançou o Qwen-Image, um modelo de fundação de imagem de 20 bilhões de parâmetros que avança significativamente na renderização de texto complexo e na edição precisa de imagens. Ele possui renderização de texto de alta fidelidade em vários idiomas (incluindo inglês e chinês), preservando o significado semântico e o realismo visual durante as edições. O Qwen-Image supera os modelos existentes em vários benchmarks de geração e edição de imagens. Demonstrações mostraram suas capacidades: gerar imagens com tipografia e layouts chineses intrincados, criar slides de PPT detalhados e até mesmo lidar com renderização de texto bilíngue, destacando suas robustas capacidades de processamento de texto e geração de imagens.

LLMs falham na identificação de fontes: um benchmark ao vivo

2025-08-04
LLMs falham na identificação de fontes: um benchmark ao vivo

Um desenvolvedor testou o GPT-4 e o Gemini em um benchmark ao vivo e continuamente atualizado de fontes não identificadas do fórum DaFont. Apesar de fornecer contexto como imagens, títulos e descrições, ambos os LLMs tiveram um desempenho péssimo. Isso destaca as limitações mesmo em tarefas de classificação de imagens aparentemente simples, sugerindo que os LLMs estão longe de serem uma solução universal. O projeto usa scripts Python para raspagem de dados, GitHub Actions para automação, JSON para armazenamento e Observable para um painel dinâmico.

Controlando Personalidades de IA: Identificando 'Vetores de Persona' para Prevenir IA 'Maligna'

2025-08-03
Controlando Personalidades de IA: Identificando 'Vetores de Persona' para Prevenir IA 'Maligna'

Pesquisadores da Anthropic descobriram que mudanças nas personalidades de modelos de IA não são aleatórias; elas são controladas por "vetores de persona" específicos dentro da rede neural do modelo. Esses vetores são análogos às regiões do cérebro que controlam o humor e a atitude. Ao identificar e manipular esses vetores, os pesquisadores podem monitorar, mitigar e até prevenir personalidades indesejáveis, como "malignidade", "bajulação" ou "alucinação". Essa tecnologia melhora o treinamento de modelos de IA, identifica dados de treinamento problemáticos e garante o alinhamento com os valores humanos.

Sculley do Google embarca em aventura de manufatura na Fab Academy

2025-08-03

D. Sculley, líder de aprendizado de máquina do Google em Cambridge, está participando da Fab Academy. Com experiência em ML desde 2003 e experiência anterior em educação, Sculley visa explorar a interseção de ML e várias técnicas de fabricação, de CAD e corte a laser a impressão 3D. Ele planeja concluir um projeto a cada semana, culminando em um projeto final, prometendo uma jornada de aprendizado desafiadora, mas gratificante.

IA

A Ilusão do Custo de LLM: Como a Escalabilidade Matou a Assinatura de Preço Fixo

2025-08-03
A Ilusão do Custo de LLM: Como a Escalabilidade Matou a Assinatura de Preço Fixo

Muitas empresas de IA apostaram na tendência de queda de 10 vezes ao ano nos custos de LLM, assumindo que as perdas iniciais seriam compensadas por altas margens futuras. A realidade é diferente. Embora os custos do modelo estejam diminuindo, a demanda do usuário pelos melhores modelos continua crescendo, levando a uma explosão no uso de computação. O comprimento das respostas de modelos como o ChatGPT aumentou dramaticamente, resultando em um crescimento exponencial no consumo de tokens. Isso significa que, mesmo com reduções de custos, o gasto geral excede em muito as expectativas. O artigo analisa três contra-estratégias: precificação baseada em uso desde o primeiro dia, criação de custos de mudança altos para margens altas e integração vertical para lucrar com a infraestrutura. O autor conclui que aderir a um modelo de assinatura de preço fixo levará, finalmente, à falência.

IA pode sentir culpa? Simulações mostram a chave para a cooperação

2025-08-03
IA pode sentir culpa? Simulações mostram a chave para a cooperação

Uma nova pesquisa sugere que até mesmo agentes de IA simples podem promover a cooperação simulando um mecanismo de 'culpa'. Os pesquisadores projetaram um jogo de dilema do prisioneiro iterado em que os agentes de IA escolhiam entre cooperação e traição. Os resultados mostraram que quando os agentes de IA sentiam 'culpa' (penalizados por pontuações reduzidas) após a traição e podiam perceber a 'culpa' de seu parceiro, o comportamento cooperativo aumentava significativamente. Esta pesquisa oferece novas perspectivas para o projeto de sistemas de IA mais confiáveis ​​e confiáveis, mas também destaca os desafios de aplicar 'culpa' à IA no mundo real, como definir e medir o 'custo' da IA.

IA Culpa

O Modo de Estudo do OpenAI: Uma Abordagem Doce para a Educação com IA?

2025-08-02
O Modo de Estudo do OpenAI: Uma Abordagem Doce para a Educação com IA?

O recém-lançado "Modo de Estudo" do OpenAI visa auxiliar a aprendizagem guiando os usuários por meio de questionamentos interativos e feedback positivo, em vez de fornecer respostas diretas. O autor questiona a eficácia dessa abordagem, argumentando que ela pode atender excessivamente aos alunos, levando à dependência da IA em vez do pensamento independente. Por meio de experimentos com vários modelos de IA, o autor demonstra que o "Modo de Estudo" incentiva elogios excessivos e comportamento agradável ao usuário, potencialmente impactando negativamente a aprendizagem e representando riscos para alunos vulneráveis. Embora reconheça alguns benefícios, o autor enfatiza o potencial da IA como uma ferramenta de pesquisa em detrimento de sua dependência excessiva como ferramenta educacional.

IA

A Lição Amarga: Um Paradoxo no Desenvolvimento de IA

2025-08-02
A Lição Amarga: Um Paradoxo no Desenvolvimento de IA

A "lição amarga" de Rich Sutton afirma que os métodos gerais que aproveitam a computação são, em última análise, os mais eficazes. Este artigo explora a manifestação dessa ideia em áreas como Go, xadrez, reconhecimento de voz e visão computacional, e seus desafios em aplicações empresariais. Embora a computação em grande escala produza avanços em algumas áreas, o artigo destaca as limitações na qualidade dos dados e nos objetivos claramente definidos, argumentando que modelos especializados eficientes, às vezes, superam os modelos de uso geral, e que os recursos computacionais nem sempre são a solução ideal.

IA

Anthropic Revoca Acesso da OpenAI à API do Claude

2025-08-02
Anthropic Revoca Acesso da OpenAI à API do Claude

A Anthropic revogou o acesso da OpenAI à API de seus modelos Claude, alegando violações de seus termos de serviço. A OpenAI supostamente usou a API para testes internos, comparando as capacidades de Claude em codificação e redação criativa, e avaliando suas respostas a prompts de segurança envolvendo CSAM, automutilação e difamação. A Anthropic declarou que isso violava cláusulas que proíbem o uso do serviço para construir produtos concorrentes ou fazer engenharia reversa de seus serviços. A OpenAI expressou decepção, destacando que a avaliação de outros sistemas de IA é padrão do setor e observando que sua API permanece aberta à Anthropic. Esse incidente destaca a intensificação da concorrência entre gigantes da tecnologia e as complexidades em torno do acesso a modelos de IA e termos de serviço.

Atenção Esparsa Nativa: Alinhada a Hardware e Treinável Nativamente

2025-08-02
Atenção Esparsa Nativa: Alinhada a Hardware e Treinável Nativamente

A modelagem de contexto longo continua sendo um desafio em PNL. Este artigo do ACL 2025 apresenta NSA, um mecanismo de Atenção Esparsa treinado nativamente. A NSA combina de forma inteligente inovações algorítmicas com otimizações alinhadas a hardware. Usando uma estratégia esparsa hierárquica dinâmica (compressão de tokens de grão grosso e seleção de tokens de grão fino), ela obtém ganhos significativos de eficiência, preservando a conscientização do contexto global e a precisão local. A NSA permite treinamento de ponta a ponta, reduzindo os custos de pré-treinamento e igualando ou superando os modelos de Atenção Completa em vários benchmarks, mostrando acelerações substanciais em sequências de 64k de comprimento na decodificação, propagação para frente e propagação para trás.

IA: Elevando o Piso, Não o Teto

2025-08-01

Este artigo explora o impacto da IA na aprendizagem e no trabalho. A IA diminui a barreira de entrada para a aquisição de novas habilidades, mas a maestria permanece desafiadora. Na programação, a IA ajuda significativamente os gerentes, mas oferece ajuda limitada a grandes bases de código. O impacto da IA em campos criativos é mínimo, pois a novidade é crucial. Para áreas com aplicativos já estabelecidos (por exemplo, e-mail, entrega de comida), a influência da IA é insignificante. Em essência, a IA eleva o piso para o trabalho de conhecimento, mas seu impacto não é uniforme, variando muito dependendo do indivíduo e de sua área.

IA

Gemini Embedding: Potenciando a Próxima Geração de Agentes de IA

2025-08-01
Gemini Embedding: Potenciando a Próxima Geração de Agentes de IA

Desde seu lançamento, o modelo de texto Gemini Embedding do Google tem sido rapidamente adotado por desenvolvedores que constroem aplicativos de IA avançados. Além de usos tradicionais, como classificação e pesquisa semântica, ele é crucial para a 'engenharia de contexto', fornecendo aos agentes de IA um contexto operacional completo. Empresas como Box, re:cap, Everlaw, Roo Code, Mindlid e Interaction Co. já estão aproveitando seu poder para melhorar a precisão, a velocidade e a conscientização contextual em seus produtos. De impulsionar a análise de dados financeiros a aprimorar a descoberta legal e alimentar assistentes de IA, o alto desempenho e o suporte multilíngue do Gemini Embedding estão lançando as bases para a próxima geração de agentes inteligentes.

Modelo de Imagem Open Source FLUX.1-Krea [dev]: Quebrando o 'Visual de IA'

2025-08-01
Modelo de Imagem Open Source FLUX.1-Krea [dev]: Quebrando o 'Visual de IA'

Estamos lançando a versão open source do FLUX.1-Krea [dev], nosso primeiro modelo de imagem treinado em colaboração com o Black Forest Labs. Este modelo prioriza o controle estético e a qualidade da imagem, integrando-se perfeitamente ao ecossistema FLUX.1-dev existente. Ao contrário da maioria dos modelos de imagem, o FLUX.1-Krea foi desenvolvido com preferências estéticas específicas em mente, em vez de se concentrar apenas em benchmarks técnicos. Este relatório técnico detalha o desenvolvimento do modelo, incluindo insights sobre pré-treinamento e pós-treinamento, e direções futuras de pesquisa. O foco principal é superar o 'visual de IA' comum em imagens geradas – fundos borrados, texturas cerosas, etc. – obtendo resultados de alta qualidade alinhados com os padrões estéticos humanos por meio de conjuntos de dados cuidadosamente selecionados e aprendizado por reforço.

IA

GEPA: A Reflexão Baseada em Linguagem Supera o RL na Otimização de Prompts de IA

2025-07-31
GEPA: A Reflexão Baseada em Linguagem Supera o RL na Otimização de Prompts de IA

Pesquisadores apresentam o GEPA, um novo algoritmo para otimizar prompts em sistemas de IA complexos. Ao contrário do aprendizado por reforço (RL) tradicional, o GEPA utiliza uma abordagem evolutiva orientada por linguagem. Um LLM analisa seu próprio desempenho — raciocínio, uso de ferramentas e feedback — para identificar e corrigir erros. O GEPA supera significativamente os métodos de RL, usando muito menos execuções do sistema e obtendo melhores resultados em várias tarefas. Isso destaca o potencial da autorreflexão baseada em linguagem para otimização eficiente de IA.

1 2 4 6 7 8 9 48 49