Category: IA

Desbloqueando o Potencial da IA: O Guia Perdido para Engenharia de Prompts

2025-07-21
Desbloqueando o Potencial da IA: O Guia Perdido para Engenharia de Prompts

Este artigo destaca o papel crucial da engenharia de prompts na maximização do desempenho da IA. Enfatiza que prompts claros levam a resultados de IA precisos e úteis, enquanto prompts mal elaborados resultam em informações imprecisas e desperdício de recursos. O artigo diferencia entre prompts conversacionais para uso casual e prompts de produto para aplicativos de negócios, focando na precisão deste último e sua importância na construção de sistemas confiáveis ​​baseados em IA. Oferece técnicas para criar prompts eficazes, incluindo o direcionamento do raciocínio da IA, autoverificação e atendimento a requisitos específicos, defendendo em última análise uma abordagem colaborativa para aproveitar todo o potencial da IA.

Ligus de Modelos: Uma Arma Secreta para Impulsionar o Desempenho da IA

2025-07-21
Ligus de Modelos: Uma Arma Secreta para Impulsionar o Desempenho da IA

A equipe XBOW melhorou dramaticamente o desempenho de seus agentes de detecção de vulnerabilidades usando uma técnica inteligente chamada "ligas de modelos". Essa abordagem aproveita os pontos fortes de diferentes LLMs (como Google Gemini e Anthropic Sonnet), alternando entre eles em um único thread de bate-papo para superar as limitações dos modelos individuais. Experimentos mostraram que essa estratégia de "liga" aumentou as taxas de sucesso para mais de 55%, superando significativamente os modelos individuais. Essa técnica não se limita à segurança cibernética; é relevante para qualquer tarefa de agente de IA que requer soluções em um vasto espaço de busca.

Agentes de IA: Hype vs. Realidade em 2025

2025-07-20
Agentes de IA: Hype vs. Realidade em 2025

Embora 2025 seja anunciado como o ano dos agentes de IA, um construtor experiente de sistemas de IA em produção argumenta o contrário. Com base em um ano de construção de mais de uma dúzia de sistemas de agentes em produção, ele destaca três realidades-chave frequentemente ignoradas: taxas de erro exponencialmente compostas em fluxos de trabalho de várias etapas; dimensionamento de custo quadrático de janelas de contexto; e o desafio crucial de projetar ferramentas e sistemas de feedback eficazes para agentes. Ele afirma que os sistemas de agentes de IA bem-sucedidos não são totalmente autônomos, mas sim integram IA com supervisão humana e engenharia de software tradicional, operando dentro de limites definidos com operações verificáveis e mecanismos de reversão. O futuro, ele prevê, favorecerá equipes que constroem ferramentas restritas e específicas de domínio, aproveitando a IA para tarefas complexas, mantendo o controle humano. O foco deve mudar de 'autonomia total' para 'assistentes extremamente capazes com limites claros'.

Evolução da Arquitetura de LLMs em 2025: Mergulhos Profundos em DeepSeek, OLMo, Gemma, Mistral e Qwen

2025-07-20
Evolução da Arquitetura de LLMs em 2025: Mergulhos Profundos em DeepSeek, OLMo, Gemma, Mistral e Qwen

Este artigo revisa os avanços arquitetônicos em modelos de linguagem grandes (LLMs) durante 2025, focando em modelos de código aberto como DeepSeek, OLMo, Gemma, Mistral e Qwen. DeepSeek V3/R1 aprimora a eficiência computacional com Atenção Latente Multi-Cabeça (MLA) e Mistura de Especialistas (MoE). OLMo 2 enfatiza o posicionamento do RMSNorm, empregando Pós-Norm e QK-Norm. Gemma 3 utiliza atenção de janela deslizante para reduzir os requisitos de memória. Mistral Small 3.1 equilibra desempenho e velocidade. Qwen 3 oferece variantes densas e MoE para flexibilidade. SmolLM3 se destaca com seu tamanho de 3B parâmetros e NoPE (Sem Embeddings Posicionais). Finalmente, Kimi 2 impressiona com sua escala de trilhões de parâmetros e o otimizador Muon. Esses modelos mostram inovações em mecanismos de atenção, normalização, MoE e otimizadores, demonstrando a diversidade e a evolução contínua das arquiteturas de LLM.

CLJ-AGI: Um novo benchmark para IAG

2025-07-20

CLJ-AGI propõe um novo benchmark para Inteligência Artificial Geral (IAG). O benchmark desafia uma IA a aprimorar a linguagem de programação Clojure com recursos como um design priorizando transducers, preguiça opcional, protocolos ubíquos e estruturas de dados CRDT de primeira classe. O sucesso, definido como alcançar esses aprimoramentos mantendo a compatibilidade com versões anteriores do código Clojure, garante uma recompensa substancial, significando um passo significativo em direção à verdadeira IAG.

IA

LLMs locais vs. Wikipédia offline: Uma comparação de tamanho

2025-07-20

Um artigo na MIT Technology Review iniciou uma discussão sobre o uso de LLMs offline em um cenário apocalíptico. Isso levou o autor a comparar os tamanhos de LLMs locais e downloads de Wikipédia offline. Os resultados mostraram que LLMs locais menores (como Llama 3.2 3B) são aproximadamente comparáveis em tamanho a uma seleção de 50.000 artigos da Wikipédia, enquanto a Wikipédia completa é muito maior do que até mesmo os maiores LLMs. Embora seus propósitos sejam diferentes, essa comparação revela um contraste interessante no espaço de armazenamento entre LLMs locais e bases de conhecimento offline.

IA

Zuckerberg Falha em Recrutar Funcionários da OpenAI com Ofertas de US$ 100 Milhões

2025-07-20
Zuckerberg Falha em Recrutar Funcionários da OpenAI com Ofertas de US$ 100 Milhões

O CEO do Meta, Mark Zuckerberg, tentou atrair funcionários do ChatGPT para sua equipe de IA com ofertas de até US$ 100 milhões, segundo o CEO da OpenAI, Sam Altman. Apesar dessas ofertas exorbitantes, a iniciativa de recrutamento fracassou em grande parte. Altman revelou em um podcast que os funcionários da OpenAI priorizaram o papel de liderança da empresa no desenvolvimento de superinteligência. O incidente destaca a intensa competição por talentos em IA e o fascínio pelo campo da superinteligência.

IA

Modelos de linguagem de grande porte ficam aquém na IMO 2025: o desempenho em nível de medalha permanece difícil

2025-07-19

Pesquisadores avaliaram cinco modelos de linguagem de grande porte (LLMs) de última geração nos problemas da Olimpíada Internacional de Matemática (IMO) de 2025 usando a plataforma MathArena. O Gemini 2.5 Pro teve o melhor desempenho, atingindo apenas uma pontuação de 31% (13 pontos), muito abaixo dos 19 pontos necessários para uma medalha de bronze. Outros modelos ficaram significativamente atrás. Uma estratégia de seleção melhor-de-32, gerando e avaliando várias respostas por problema, aumentou significativamente o custo computacional. Apesar disso, os resultados demonstram uma lacuna substancial entre os LLMs atuais e o desempenho em nível de medalha em problemas matemáticos extremamente desafiadores como os da IMO, mesmo com recursos computacionais substanciais. A análise qualitativa revelou problemas como modelos citando teoremas inexistentes e fornecendo respostas excessivamente concisas.

Negócios HALO: Um Novo Modelo de Aquisição em IA

2025-07-19
Negócios HALO: Um Novo Modelo de Aquisição em IA

Uma nova estrutura de negócio surgiu na indústria de IA: o negócio HALO. Diferente das aquisições tradicionais ou contratações simples, os negócios HALO envolvem uma empresa contratando a equipe principal de uma startup e simultaneamente licenciando sua propriedade intelectual. A startup recebe taxas de licenciamento significativas distribuídas a investidores e funcionários, e continua operando sob nova liderança. Essas transações são rápidas, caras e (atualmente) exclusivas para IA. Embora gerem debates, os negócios HALO tentam preservar o contrato social entre fundadores, investidores e funcionários, oferecendo uma maneira rápida e segura de adquirir talentos em IA em um cenário de fusões e aquisições cada vez mais analisado.

Psilocibina mostra promessa no tratamento da depressão e ansiedade em pacientes com câncer

2025-07-18

Um estudo cruzado, duplo-cego, investigou os efeitos da psilocibina, um alucinógeno clássico, em 51 pacientes com câncer com diagnósticos que ameaçavam a vida e sintomas de depressão e/ou ansiedade. A psilocibina em alta dose reduziu significativamente a depressão e a ansiedade, avaliadas por clínicos e pelos próprios pacientes, melhorando a qualidade de vida, o significado da vida e o otimismo, ao mesmo tempo em que reduziu a ansiedade relacionada à morte. Esses efeitos positivos foram mantidos na avaliação de acompanhamento de 6 meses, com aproximadamente 80% dos participantes mostrando melhoras clinicamente significativas. O estudo destaca o papel mediador das experiências místicas do tipo psilocibina na obtenção de resultados terapêuticos.

Meta recruta mais dois executivos de IA da Apple, equipe de modelos de fundação da Apple em crise

2025-07-18
Meta recruta mais dois executivos de IA da Apple, equipe de modelos de fundação da Apple em crise

A Meta contratou mais dois executivos importantes de inteligência artificial da Apple, após a contratação anterior de um líder de IA de alto escalão com um pacote de compensação maciço. As últimas contratações são da equipe de modelos de fundação da Apple, responsável por recursos como resumos de e-mail e notificações de prioridade. Essa última drenagem de talentos sugere desafios internos significativos na divisão de IA da Apple, potencialmente levando a uma mudança para o uso de modelos externos de empresas como a OpenAI para alimentar a Siri e outros recursos.

IA

Apple Apresenta Novos Modelos de Linguagem Base Multilíngues e Multimodais

2025-07-18
Apple Apresenta Novos Modelos de Linguagem Base Multilíngues e Multimodais

A Apple apresentou dois novos modelos de linguagem base multilíngues e multimodais que alimentam os recursos de inteligência em seus dispositivos e servidores. Um modelo para dispositivos com aproximadamente 3 bilhões de parâmetros, otimizado para silício Apple, e um modelo de servidor escalável construído em um novo transformador Parallel-Track Mixture-of-Experts (PT-MoE). Ambos foram treinados em conjuntos de dados multilíngues e multimodais massivos, aprimorados com ajuste fino supervisionado e aprendizado por reforço. Eles suportam mais idiomas, compreensão de imagens e chamadas de ferramentas, igualando ou superando modelos open-source comparáveis. Uma nova estrutura centrada em Swift simplifica a integração para desenvolvedores.

A Hipótese da Representação Platônica: Rumo à Inversão Universal de Incorporação e Comunicação com Baleias

2025-07-18
A Hipótese da Representação Platônica: Rumo à Inversão Universal de Incorporação e Comunicação com Baleias

Pesquisadores descobriram que grandes modelos de linguagem convergem para um espaço de representação subjacente compartilhado à medida que crescem, um fenômeno chamado de 'Hipótese da Representação Platônica'. Isso sugere que modelos diferentes aprendem os mesmos recursos, independentemente da arquitetura. O artigo usa o jogo 'Mussolini ou Pão' como uma analogia para explicar essa representação compartilhada e a suporta ainda mais com a teoria da compressão e a capacidade de generalização do modelo. Criticamente, com base nessa hipótese, os pesquisadores desenvolveram o vec2vec, um método para conversão não supervisionada entre espaços de incorporação de modelos diferentes, alcançando uma inversão de incorporação de texto de alta precisão. Aplicações futuras podem envolver a decodificação de textos antigos (como o Linear A) ou a tradução da linguagem das baleias, abrindo novas possibilidades para a compreensão entre línguas e o avanço da IA.

Le Chat recebe grande atualização: Modo de pesquisa aprofundada, modo de voz e muito mais

2025-07-17
Le Chat recebe grande atualização: Modo de pesquisa aprofundada, modo de voz e muito mais

O assistente de IA Le Chat, da Mistral AI, recebeu uma grande atualização com novos recursos poderosos. O modo de pesquisa aprofundada permite pesquisas estruturadas e aprofundadas; o modo de voz permite interação por voz; e o raciocínio multilíngue nativo facilita a troca e o raciocínio sem problemas entre idiomas. Recursos avançados de edição de imagens e recursos de organização de projetos aprimoram ainda mais a experiência do usuário. Essas atualizações tornam o Le Chat mais poderoso e fácil de usar, oferecendo uma experiência de assistência de IA mais eficiente.

IA

Hackeando o Claude: Explorando Riscos Composicionais em LLMs

2025-07-17
Hackeando o Claude: Explorando Riscos Composicionais em LLMs

O pesquisador de segurança Golan Yosef conseguiu executar código no aplicativo de desktop Claude da Anthropic usando um e-mail do Gmail elaborado, não explorando vulnerabilidades no próprio aplicativo, mas aproveitando as capacidades e os mecanismos de confiança do Claude. Por meio de um processo iterativo envolvendo o Claude, o pesquisador guiou o LLM para refinar sua estratégia de ataque, finalmente contornando sua segurança integrada. Isso destaca o risco composicional crítico no GenAI, onde componentes individuais seguros podem criar sistemas inseguros quando combinados. A pesquisa destaca a necessidade de avaliações de segurança abrangentes de aplicativos baseados em LLM para lidar com esse novo vetor de ataque.

Anthropic's Claude: O Dropbox da era da IA generativa?

2025-07-16
Anthropic's Claude: O Dropbox da era da IA generativa?

Este post examina a plataforma Claude da Anthropic e seu recurso Artifacts, que permite aos usuários criarem aplicativos web com IA sem codificação. O autor compara o Claude com o Dropbox da era da IA generativa, pois ele resolve os problemas de chaves de API, implantações e autenticação para usuários que criam e compartilham aplicativos de IA. De forma inteligente, a monetização acontece por meio das assinaturas existentes do Claude dos usuários, sem nenhum custo para os criadores do aplicativo. O autor argumenta que este modelo é altamente valioso e prevê a monetização futura por meio de opções de pagamento simples.

IA

H-Nets: Uma Arquitetura de Rede Hierárquica que Supera os Transformadores

2025-07-16
H-Nets: Uma Arquitetura de Rede Hierárquica que Supera os Transformadores

As arquiteturas de IA atuais tratam todas as entradas igualmente, sem aproveitar a natureza hierárquica inerente da informação. Isso limita sua capacidade de aprender com dados brutos de alta resolução. Os pesquisadores apresentam H-Nets, uma nova arquitetura que modela nativamente a hierarquia diretamente dos dados brutos. O núcleo do H-Nets é um mecanismo de divisão dinâmica que segmenta e comprime dados brutos em conceitos significativos. Experimentos mostram que as H-Nets superam os Transformadores de última geração em modelagem de linguagem, exibindo escalabilidade e robustez aprimoradas, oferecendo um caminho promissor para a compreensão multimodal, raciocínio de longo contexto e treinamento e inferência eficientes.

Voxtral: Modelos de compreensão de fala de código aberto revolucionam a interação humano-computador

2025-07-16
Voxtral: Modelos de compreensão de fala de código aberto revolucionam a interação humano-computador

A Voxtral lançou dois modelos de ponta em compreensão de fala: uma variante de 24B parâmetros para produção e uma variante de 3B parâmetros para implantações em edge, ambas licenciadas sob Apache 2.0. Esses modelos possuem precisão de transcrição superior, manipulam áudio de formato longo (até 40 minutos), possuem recursos integrados de perguntas e respostas e resumo, e oferecem suporte multilíngue nativo. Significativamente, a Voxtral supera APIs comparáveis em custo, tornando a inteligência de fala de alta qualidade acessível e controlável em escala. Ela preenche a lacuna entre sistemas de código aberto com altas taxas de erro e APIs proprietárias caras, oferecendo recursos de chamada de função que traduzem diretamente comandos de voz em ações do sistema. A Voxtral está preparada para revolucionar a interação humano-computador.

IA

Reflexões de um ex-funcionário da OpenAI: Cultura e desafios em hipercrescimento

2025-07-16
Reflexões de um ex-funcionário da OpenAI: Cultura e desafios em hipercrescimento

Um ex-funcionário da OpenAI compartilha suas reflexões após um ano na empresa. Ele descreve o impacto cultural da rápida expansão da OpenAI, de 1000 para 3000 funcionários, destacando os desafios na comunicação, na estrutura organizacional e nos lançamentos de produtos. A comunicação interna depende totalmente do Slack, a gestão é horizontal e a empresa valoriza a ação e os resultados. Seu envolvimento no lançamento do Codex mostrou a emoção de construir um produto do zero em um sprint de 7 semanas, mas também revelou problemas de código e infraestrutura decorrentes do crescimento rápido. O autor conclui resumindo seus aprendizados na OpenAI e sugerindo que ingressar em um grande laboratório de IA é uma opção viável para fundadores, à medida que a corrida pela IAG se intensifica com a OpenAI, Anthropic e Google liderando o pelotão.

Loop de devaneio de LLMs: O preço da inovação inovadora?

2025-07-16
Loop de devaneio de LLMs: O preço da inovação inovadora?

Apesar de suas capacidades impressionantes, os grandes modelos de linguagem (LLMs) ainda não produziram uma inovação genuína. O autor propõe que isso ocorre porque eles carecem de um mecanismo de processamento em segundo plano semelhante à rede de modo padrão do cérebro humano. Para resolver isso, sugere-se um 'loop de devaneio' (DDL): um processo em segundo plano que continuamente amostra pares de conceitos da memória, explora links não óbvios e filtra ideias valiosas, criando um loop de feedback composto. Embora computacionalmente caro, esse 'imposto de devaneio' pode ser o preço necessário para a inovação e uma trincheira competitiva. Por fim, LLMs caros que 'devaneiam' podem gerar principalmente dados de treinamento para a próxima geração de modelos eficientes, contornando assim a iminente parede de dados.

Cogency: Agentes de IA em 3 linhas de código que simplesmente funcionam

2025-07-15
Cogency: Agentes de IA em 3 linhas de código que simplesmente funcionam

Cogency é uma estrutura de raciocínio de várias etapas que simplifica a criação de agentes de IA. Ele detecta automaticamente provedores como OpenAI, Anthropic e Google, roteia ferramentas inteligentemente e transmite raciocínio transparente. Com apenas três linhas de código, você pode construir um agente funcional. Cogency possui ferramentas integradas, como calculadora, verificador de clima, ferramenta de fuso horário e pesquisa na web, além de rastros de execução detalhados para depuração. Expansível com ferramentas e LLMs personalizados.

Laboratório de Superinteligência do Meta considera abandonar modelo de IA de código aberto

2025-07-15
Laboratório de Superinteligência do Meta considera abandonar modelo de IA de código aberto

O recém-formado laboratório de superinteligência do Meta está debatendo uma possível revisão de sua estratégia de IA, possivelmente abandonando seu poderoso modelo de código aberto, Behemoth. De acordo com o New York Times, discussões internas sugerem uma mudança para um modelo de código fechado, um desvio significativo da abordagem tradicional de código aberto do Meta. Behemoth, um modelo de 'fronteira', foi concluído, mas o lançamento foi adiado devido a problemas de desempenho e os testes foram interrompidos. Qualquer decisão requer a aprovação do CEO Mark Zuckerberg.

IA

Cognition Adquire Windsurf: Um Novo Capítulo para a Edição de Código com IA

2025-07-15
Cognition Adquire Windsurf: Um Novo Capítulo para a Edição de Código com IA

A Cognition anunciou a aquisição da Windsurf, criadora de um IDE agente. A aquisição inclui a propriedade intelectual, o produto, a marca, o forte negócio e, o mais importante, sua equipe de classe mundial. A Windsurf continuará suas operações, e a Cognition investirá na integração das capacidades da Windsurf em seus produtos. Essa medida visa acelerar o futuro da engenharia de software, combinando o Devin da Cognition (um agente totalmente autônomo) com o IDE da Windsurf e uma forte estratégia de entrada no mercado para uma sinergia poderosa. Todos os funcionários da Windsurf receberão termos generosos, incluindo participação financeira, renúncia aos prazos de aquisição e aquisição totalmente acelerada.

IA

LLMs falham graciosamente: o desempenho em contextos longos se degrada mesmo em tarefas simples

2025-07-15
LLMs falham graciosamente: o desempenho em contextos longos se degrada mesmo em tarefas simples

Esta pesquisa desafia a suposição comum de que grandes modelos de linguagem (LLMs) apresentam um desempenho uniforme em tarefas de contexto longo. Ao expandir o benchmark Needle in a Haystack e introduzir variáveis como correspondência semântica e distrações, os pesquisadores descobriram que, mesmo em condições simplificadas, o desempenho do modelo se degrada à medida que o comprimento da entrada aumenta. Isso foi confirmado em perguntas e respostas conversacionais e em uma tarefa de replicação de palavras repetidas, revelando limitações nas capacidades de contexto longo de LLM e sugerindo potenciais desafios em aplicativos do mundo real.

Martin: O Assistente de IA que Supera Siri e Alexa

2025-07-15
Martin: O Assistente de IA que Supera Siri e Alexa

Martin é um assistente pessoal de IA revolucionário acessível por texto, chamada ou e-mail. Gerenciando sua caixa de entrada, calendário, tarefas, notas, chamadas e lembretes, Martin completou mais de 500.000 tarefas para 30.000 usuários em apenas 5 meses, com uma taxa de crescimento semanal de 10%. Apoiado por investidores de ponta como Y Combinator e Pioneer Fund, e anjos notáveis, a equipe enxuta da Martin está buscando engenheiros de IA e engenheiros de produto ambiciosos para construir o próximo produto de consumo do nível do iPhone.

Combatendo o Inevitabilismo da Tecnologia: Ainda Temos Escolhas

2025-07-15

Este artigo analisa como líderes tecnológicos usam o 'inevitabilismo' — a afirmação de que um futuro dominado pela IA é inevitável — para moldar o discurso público. Traçando um paralelo com um debate com um oponente habilidoso, o autor mostra como essa estratégia enquadra a conversa para conclusões preordenadas, silenciando a dissidência. O artigo critica declarações de figuras como Zuckerberg, Ng e Rometty, argumentando que o futuro da IA não é predeterminado; devemos moldá-lo ativamente, não aceitar passivamente um resultado supostamente 'inevitável'.

A Bolha de Talentos em IA: Bilhões em Aquisições Aceleram a Loucura

2025-07-14
A Bolha de Talentos em IA: Bilhões em Aquisições Aceleram a Loucura

As aquisições multibilionárias de talentos em IA pelo Meta e Google sinalizam uma enorme bolha de talentos no setor. O valor dos melhores profissionais de IA está subindo vertiginosamente, afetando fundadores e funcionários-chave. Essa desigualdade decorre do crescimento parabólico dos investimentos em IA e da necessidade desesperada por pessoas qualificadas. Mecanismos de confiança tradicionais estão se desintegrando, exigindo uma reescrita do contrato social entre empresas e talentos. Apenas empresas com missões fortes e financiamento maciço prosperarão nessa guerra de talentos, remodelando a paisagem do Vale do Silício.

IA

Escalonando RL: Predição do próximo token na Web

2025-07-13
Escalonando RL: Predição do próximo token na Web

O autor argumenta que o aprendizado por reforço (RL) é a próxima fronteira para o treinamento de modelos de IA. As abordagens atuais de escalonamento de vários ambientes simultaneamente são desorganizadas. Em vez disso, o autor propõe treinar modelos para raciocinar usando RL para predição do próximo token em dados em escala de web. Isso aproveita a vasta quantidade de dados da web prontamente disponíveis, indo além das limitações dos conjuntos de dados de treinamento RL atuais focados em problemas de matemática e código. Ao unificar RL com a predição do próximo token, a abordagem promete criar modelos de raciocínio significativamente mais poderosos.

IA

Jogos contra o Câncer: Jogos de Ciência Cidadã Podem Ajudar a Curar Doenças?

2025-07-13
Jogos contra o Câncer: Jogos de Ciência Cidadã Podem Ajudar a Curar Doenças?

Ao convidar jogadores a enfrentar problemas científicos reais, os jogos podem oferecer uma ajuda para resolver os desafios mais difíceis da medicina. O livro 'Gaming Cancer' explora o conceito de transformar a pesquisa do câncer em jogos de ciência cidadã, permitindo que os jogadores contribuam para a busca por curas. Jogos como Foldit e EteRNA já levaram a descobertas científicas, como o projeto de vacinas COVID que não requerem armazenamento em ultracongelamento. Embora não seja garantido que resolvam problemas além do alcance de cientistas profissionais, esses jogos oferecem novas perspectivas, educam os jogadores sobre biologia e inspiram uma participação mais ampla na pesquisa do câncer.

O Momento GPT-3 do RL: A Ascensão do Treinamento de Replicação

2025-07-13
O Momento GPT-3 do RL: A Ascensão do Treinamento de Replicação

Este artigo prevê um próximo 'momento GPT-3' para o aprendizado por reforço (RL), envolvendo treinamento em larga escala em milhares de ambientes diversos para alcançar habilidades fortes de poucos disparos e agnósticas a tarefas. Isso requer escala e diversidade sem precedentes em ambientes de treinamento, potencialmente equivalente a dezenas de milhares de anos de 'tempo de tarefa voltado para o modelo'. Os autores propõem um novo paradigma, 'treinamento de replicação', em que IAs duplicam produtos de software existentes ou recursos para criar tarefas de treinamento em larga escala e automaticamente pontuáveis. Embora existam desafios, essa abordagem oferece um caminho claro para escalar o RL, potencialmente permitindo que IAs completem projetos de software inteiros de forma autônoma.

1 2 3 4 6 8 9 10 48 49