Category: IA

Decodificando a Atividade Cerebral da Linguagem Humana com o Whisper

2025-03-11
Decodificando a Atividade Cerebral da Linguagem Humana com o Whisper

Pesquisadores usaram o modelo Whisper para analisar sinais de ECoG e fala de quatro pacientes com epilepsia durante conversas naturais. Os resultados mostraram que as incorporações acústicas, de fala e de linguagem do Whisper previram com precisão a atividade neural, especialmente durante a produção e compreensão da fala. As incorporações de fala se destacaram em áreas perceptivas e motoras, enquanto as incorporações de linguagem tiveram melhor desempenho em áreas de linguagem de nível superior. O estudo revela como as informações de fala e linguagem são codificadas em várias regiões cerebrais e como as informações de fala influenciam o processamento da linguagem. Também foram descobertas dinâmicas temporais distintas do fluxo de informações durante a produção e compreensão da fala, e diferenças entre modelos de aprendizado profundo e modelos simbólicos na previsão da atividade neural.

IA

Ambiente de Aprendizagem Factorio: Um Novo Padrão para LLMs

2025-03-11

Os Grandes Modelos de Linguagem (LLMs) estão rapidamente saturando os benchmarks existentes, exigindo novas avaliações abertas. Apresentamos o Ambiente de Aprendizagem Factorio (FLE), baseado no jogo Factorio, que testa agentes em planejamento de longo prazo, síntese de programas e otimização de recursos. O FLE oferece desafios abertos e com escalonamento exponencial - da automação básica a fábricas complexas que processam milhões de unidades de recursos por segundo. Fornecemos duas configurações: um jogo de laboratório com 24 tarefas estruturadas com recursos fixos e um jogo aberto com a tarefa ilimitada de construir a maior fábrica do zero em um mapa gerado proceduralmente. Demonstramos em ambas as configurações que os modelos ainda carecem de raciocínio espacial forte. No jogo de laboratório, descobrimos que os LLMs exibem habilidades promissoras de curto prazo, mas não conseguem operar de forma eficaz em ambientes restritos, refletindo limitações na análise de erros. No jogo aberto, embora os LLMs descubram estratégias de automação que melhoram o crescimento (por exemplo, perfuração elétrica), eles falham em alcançar a automação complexa (por exemplo, fabricação de circuitos eletrônicos).

IA

Desvendando a Similaridade Semântica: Similaridade de Cosseno em IA

2025-03-10
Desvendando a Similaridade Semântica: Similaridade de Cosseno em IA

Este artigo explica de forma clara a similaridade de cosseno e suas aplicações em IA, especialmente na compreensão de relações semânticas entre palavras. Começa explicando vetores, depois detalha o cálculo da similaridade de cosseno com um exemplo passo a passo. Uma implementação em TypeScript da função de similaridade de cosseno é fornecida, juntamente com uma versão otimizada. O artigo então explora casos de uso em aplicações web do mundo real, como recomendações de produtos e pesquisa semântica, e mostra como usar os modelos de incorporação do OpenAI para melhorar a precisão. O artigo também destaca a implementação eficiente usando Math.hypot() e a importância de pré-calcular incorporações em ambientes de produção.

IA vetores

A IA trará um 'Século XXI comprimido'? As dúvidas de um pesquisador

2025-03-10

O autor questiona a ideia de que a IA logo trará uma onda rápida de avanços científicos. Com base em sua experiência pessoal e exemplos de gênios científicos históricos, ele argumenta que o verdadeiro progresso científico não vem da dominação do conhecimento existente, mas do questionamento das crenças estabelecidas e da formulação de perguntas disruptivas. Os modelos de IA atuais são excelentes em 'preencher lacunas', em vez de gerar ideias originais. O autor sugere que novas métricas de avaliação são necessárias para medir a capacidade da IA ​​de formular perguntas desafiadoras e promover mudanças de paradigma, em vez de simplesmente focar em sua precisão em responder a perguntas conhecidas.

LLMs e humanos exibem viés: um experimento de classificação de atratividade de voz TTS

2025-03-10

No ano passado, o autor usou LLMs para classificar usuários do Hacker News e descobriu um viés em que os modelos sempre favoreciam o primeiro usuário mencionado no prompt. Este ano, um novo experimento classificando a atratividade de voz TTS revelou um viés semelhante em participantes humanos, que favoreciam vozes apresentadas do lado direito da tela. Isso reforça as descobertas anteriores do autor e destaca a importância do tamanho da amostra e da aleatoriedade ao usar julgamentos de IA e humanos para mitigar vieses.

Chatbot Graph RAG no navegador usando Kuzu-Wasm e WebLLM

2025-03-10
Chatbot Graph RAG no navegador usando Kuzu-Wasm e WebLLM

Este post de blog demonstra um chatbot totalmente integrado ao navegador, construído com Kuzu-Wasm e WebLLM, utilizando a técnica de Geração Aumentada por Recuperação de Grafos (Graph RAG) para responder a perguntas em linguagem natural sobre dados do LinkedIn. O aplicativo utiliza os benefícios do WebAssembly, permitindo o processamento local de dados para maior privacidade e implantação simplificada. A arquitetura, implementação, ingestão de dados, prompt do WebLLM e observações de desempenho são detalhadas. Embora existam limitações atuais, como tamanho do modelo e velocidade, os avanços no WebAssembly e o surgimento de LLMs menores e melhores sugerem um futuro promissor para pipelines tão avançados rodando inteiramente no navegador.

RTX 5090: Resultados iniciais do benchmark de IA com Llama.cpp

2025-03-10

Após os testes de benchmark CUDA, OpenCL e OptiX da RTX 5090, o interesse dos leitores levou a uma investigação sobre seu desempenho em IA, especificamente com o Llama.cpp. Benchmarks iniciais comparando a RTX 5090, as placas da série RTX 40 e RTX 30 usando o Llama.cpp (com os modelos Llama 3.1 e Mistral 7B) mostram ganhos significativos de desempenho para a RTX 5090 em geração de texto e processamento de prompts. Benchmarks mais aprofundados serão feitos posteriormente, com base no interesse dos leitores.

O Fim do Ciclo de Hype dos LLMs?

2025-03-10
O Fim do Ciclo de Hype dos LLMs?

Este artigo apresenta uma visão cautelosamente otimista sobre o progresso atual dos Modelos de Linguagem Grandes (LLMs). O autor argumenta que, embora os LLMs se destaquem em tarefas específicas, a trajetória tecnológica atual é improvável que leve à Inteligência Artificial Geral (AGI). As melhorias são mais incrementais, manifestando-se em aprimoramentos sutis e melhorias nos benchmarks em vez de saltos fundamentais na capacidade. O autor prevê que, nos próximos anos, os LLMs se tornarão ferramentas úteis, mas não levarão à AGI ou à automação generalizada. Avanços futuros podem exigir abordagens totalmente novas.

IA

Autoencoders Variacionais com Perda: Quando RNNs Ignoram Variáveis Latentes

2025-03-09
Autoencoders Variacionais com Perda: Quando RNNs Ignoram Variáveis Latentes

Este artigo aborda o desafio de combinar Redes Neurais Recorrentes (RNNs) com Autoencoders Variacionais (VAEs). Enquanto VAEs usam variáveis latentes para aprender representações de dados, RNNs como decodificadores frequentemente ignoram essas latentes, aprendendo diretamente a distribuição de dados. Os autores propõem Autoencoders Variacionais com Perda (VLAEs), que restringem o acesso da RNN à informação, forçando-a a utilizar variáveis latentes para codificar a estrutura global. Experimentos demonstram que VLAEs aprendem representações latentes comprimidas e semanticamente ricas.

Estrutura de Agentes em Evolução: Ecossistemas de Agentes de IA Colaborativos

2025-03-09
Estrutura de Agentes em Evolução: Ecossistemas de Agentes de IA Colaborativos

A Estrutura de Agentes em Evolução é um sistema de produção para construir, gerenciar e evoluir agentes de IA com comunicação inteligente. Permite ecossistemas colaborativos de agentes que compreendem semanticamente os requisitos, aprendem com a experiência e se comunicam de forma eficaz para resolver tarefas complexas. As principais características incluem a evolução do agente (reutilização, adaptação ou criação), comunicação entre agentes por meio de um sistema de fluxo de trabalho YAML, uma biblioteca inteligente com pesquisa semântica alimentada por embeddings do OpenAI, autoaperfeiçoamento por meio de aprendizado contínuo e suporte multi-framework (BeeAI, OpenAI, etc.). A estrutura usa um agente de sistema para decidir se deve reutilizar, evoluir ou criar novos agentes com base na similaridade semântica e inclui governança por meio de firmware. Um exemplo abrangente demonstra a colaboração e evolução do agente para tarefas como análise de faturas.

IA: Hype versus Realidade – Uma Mudança Tecnológica, Não um Cenário Skynet

2025-03-08
IA: Hype versus Realidade – Uma Mudança Tecnológica, Não um Cenário Skynet

O rápido avanço da IA gerou preocupações generalizadas sobre a substituição de empregos e até mesmo ameaças existenciais. Este artigo argumenta que a IA, em sua essência, é um mecanismo de reconhecimento de padrões, aprendendo distribuições de probabilidade a partir de dados para fazer previsões, não pensando de verdade. Embora a IA obtenha resultados impressionantes na geração de imagens e criação de texto, ainda existem limitações, incluindo alucinações e falta de raciocínio lógico genuíno. O autor traça paralelos com mudanças tecnológicas passadas, destacando a capacidade de adaptação da humanidade. A IA automatizará tarefas, mas também criará novas oportunidades, incentivando uma abordagem proativa da mudança e redirecionamento da energia humana para empreendimentos mais significativos.

IA decifra escrita cuneiforme de 3000 anos, revolucionando estudos antigos

2025-03-08
IA decifra escrita cuneiforme de 3000 anos, revolucionando estudos antigos

Pesquisadores das universidades Cornell e Tel Aviv desenvolveram o ProtoSnap, um sistema de IA que identifica e copia automaticamente caracteres cuneiformes de tabletes de 3000 anos. Usando um modelo de difusão, o ProtoSnap compara a similaridade de pixels entre uma imagem de um caractere e um protótipo, recriando com precisão caracteres apesar de variações nos estilos de escrita e idade. Isso acelera drasticamente a tradução e a pesquisa cuneiforme, fornecendo conjuntos de dados massivos para o estudo de sociedades antigas e oferecendo novas perspectivas sobre sua religião, economia, estruturas sociais e sistemas legais.

Reflection AI: US$ 130 milhões em financiamento para superinteligência

2025-03-08
Reflection AI: US$ 130 milhões em financiamento para superinteligência

A Reflection AI, startup fundada por ex-pesquisadores do Google DeepMind, recebeu US$ 130 milhões em investimentos iniciais (Seed e Série A), atingindo uma avaliação de US$ 555 milhões. Seu objetivo ambicioso é criar a 'superinteligência' – IA capaz de lidar com a maioria das tarefas relacionadas a computadores. O foco inicial é uma ferramenta de programação autônoma, utilizando LLMs e aprendizado por reforço, explorando arquiteturas inovadoras além dos Transformadores para aumentar a eficiência. Essa ferramenta automatizará tarefas como varredura de vulnerabilidades, otimização de memória e testes de confiabilidade, com o objetivo final de lidar com grandes cargas de trabalho de forma autônoma.

IA

Rede de desinformação russa infiltra chatbots de IA ocidentais

2025-03-07
Rede de desinformação russa infiltra chatbots de IA ocidentais

Uma rede de desinformação com sede em Moscou chamada "Pravda" (verdade em russo) está infiltrando dados de chatbots de IA, injetando alegações falsas e propaganda para manipular suas respostas a notícias. Ao inundar os resultados de pesquisa com informações falsas pró-Kremlin, a rede distorce como os modelos de linguagem grandes processam informações. Isso resultou em milhões de artigos de propaganda russa sendo incorporados aos sistemas de IA ocidentais, infectando suas saídas. Uma auditoria da NewsGuard em 10 chatbots de IA líderes revelou que eles repetiram narrativas falsas da rede Pravda 33% do tempo. A rede não cria conteúdo original, mas atua como uma máquina de lavagem de dinheiro para propaganda do Kremlin, agregando-a em vários sites aparentemente independentes. Essa operação em larga escala destaca a vulnerabilidade dos modelos de IA a campanhas de desinformação.

Reflection AI: Construindo Superinteligência por meio de Codificação Autônoma

2025-03-07
Reflection AI: Construindo Superinteligência por meio de Codificação Autônoma

A Reflection AI está construindo sistemas autônomos superinteligentes. Membros da equipe foram essenciais em projetos como o AlphaGo e lideraram avanços em aprendizado por reforço e modelos de linguagem grandes. Eles acreditam que a codificação autônoma é a chave para uma superinteligência mais ampla, planejando primeiro construir um sistema de codificação autônomo superinteligente e, em seguida, expandir esse projeto para todas as outras tarefas baseadas em computador. A empresa enfatiza a aplicação no mundo real, iterando com o feedback do usuário para garantir que os sistemas atendam às necessidades do mundo real de forma confiável e moldam responsavelmente o futuro da IA.

Molécula natural rivaliza com Ozempic na perda de peso, sem efeitos colaterais

2025-03-07
Molécula natural rivaliza com Ozempic na perda de peso, sem efeitos colaterais

Pesquisadores da Stanford Medicine, utilizando um algoritmo de IA, identificaram uma molécula natural, BRP, que rivaliza com a semaglutida (Ozempic) na supressão do apetite e na redução do peso corporal. Importantemente, testes em animais mostraram que a BRP evita efeitos colaterais como náuseas, constipação e perda de massa muscular. A BRP atua por meio de uma via metabólica distinta, mas semelhante, direcionando o hipotálamo para controlar o apetite. Uma empresa foi formada para lançar ensaios clínicos em humanos. Essa descoberta se baseou em IA para peneirar milhares de proteínas, oferecendo uma nova e promissora via para o tratamento da obesidade.

Além dos Modelos Autoregressivos: A Próxima Fronteira da IA

2025-03-07

A maioria dos modelos de IA generativa atualmente são autoregressivos, o que significa que eles prevêem o próximo token, com a arquitetura Transformer sendo a implementação dominante devido à sua eficiência computacional. No entanto, os modelos autoregressivos têm limitações inerentes, como falta de capacidade de planejamento e raciocínio, memória de longo prazo limitada e tendência a "alucinar". O autor argumenta que o pensamento humano não é puramente autoregressivo, abrangendo o pensamento não sequencial e o planejamento. Para alcançar uma IA mais próxima da cognição humana, os pesquisadores estão explorando paradigmas alternativos como JEPA e modelos de difusão, que geram conteúdo por meio de refinamento iterativo ou desruído de ruído, espelhando os processos de pensamento humanos mais de perto.

InstantStyle: Framework de Transferência de Estilo com um Clique para Geração de Imagens de IA Sem Esforço

2025-03-07
InstantStyle: Framework de Transferência de Estilo com um Clique para Geração de Imagens de IA Sem Esforço

InstantStyle é uma estrutura simples, porém poderosa, para transferência de estilo de imagem, alcançando controle de estilo preciso ao separar inteligentemente as informações de conteúdo e estilo da imagem. Ela utiliza os recursos globais do CLIP e se concentra em camadas de atenção específicas (up_blocks.0.attentions.1 e down_blocks.2.attentions.1) para manipular o estilo e o layout. InstantStyle está integrado em ferramentas populares como diffusers, suporta modelos como SDXL e SD1.5 e oferece demonstrações online e recursos de geração de alta resolução, simplificando significativamente o fluxo de trabalho e proporcionando aos usuários uma experiência conveniente para geração de imagens estilizadas.

Autômatos Celulares Lógicos Diferenciáveis: Do Jogo da Vida à Geração de Padrões com Circuitos Recorrentes Aprendidos

2025-03-07

Este artigo apresenta o DiffLogic CA, uma nova arquitetura de autômatos celulares neurais (ACN) que utiliza um estado celular totalmente discreto, atualizado por meio de um circuito binário recorrente aprendido. Ao substituir os componentes de rede neural por Redes de Portas Lógicas Diferenciáveis Profundas, permite o treinamento diferenciável de portas lógicas discretas. O sucesso da aplicação de portas lógicas diferenciáveis a autômatos celulares é demonstrado pela replicação do Jogo da Vida de Conway e pela geração de padrões por meio de dinâmicas discretas aprendidas. Isso destaca o potencial de integrar lógica discreta dentro dos ACNs e prova que as redes de portas lógicas diferenciáveis podem ser aprendidas eficazmente em arquiteturas recorrentes. Embora promissor, o treinamento para formas mais complexas permanece um desafio, sugerindo trabalhos futuros em arquiteturas hierárquicas e portas especializadas para melhor gerenciamento de estado.

LLMs de Difusão: Uma Mudança de Paradigma na Modelagem de Linguagem

2025-03-06

A Inception Labs revelou um revolucionário Modelo de Linguagem Ampla de Difusão (dLLM) que desafia a abordagem autoregressiva tradicional. Ao contrário dos modelos autoregressivos que preveem tokens sequencialmente, os dLLMs geram segmentos de texto simultaneamente, refinando-os iterativamente. Este método, bem-sucedido em modelos de imagem e vídeo, agora supera LLMs de tamanho semelhante na geração de código, ostentando uma melhoria de 5 a 10 vezes na velocidade e eficiência. A principal vantagem? Redução de alucinações. Os dLLMs geram e validam partes cruciais antes de prosseguir, crucial para aplicações que exigem precisão, como chatbots e agentes inteligentes. Esta abordagem promete fluxos de trabalho de agentes multi-etapa aprimorados, prevenindo loops e melhorando o planejamento, o raciocínio e a autocorreção.

IA

Modelo de Detecção de Turno de Voz Aberto: Smart Turn

2025-03-06
Modelo de Detecção de Turno de Voz Aberto: Smart Turn

A equipe Pipecat lançou o Smart Turn, um modelo de detecção de turno de voz de código aberto projetado para melhorar os sistemas de IA de voz existentes baseados em detecção de atividade de voz (VAD). Usando o Wav2Vec2-BERT da Meta AI como base, com uma cabeça de classificação simples de duas camadas, o modelo atualmente suporta inglês e está em um estágio inicial de prova de conceito. No entanto, a equipe está confiante de que o desempenho pode ser rapidamente melhorado. Eles convidam contribuições da comunidade para melhorar o modelo e expandir seu suporte de idioma e recursos.

IA

Koko: Organização sem fins lucrativos de saúde mental com tecnologia de IA procura líder técnico

2025-03-06
Koko: Organização sem fins lucrativos de saúde mental com tecnologia de IA procura líder técnico

A Koko, uma organização sem fins lucrativos de tecnologia de saúde mental fundada por ex-engenheiros do MIT e do Airbnb, está contratando um líder técnico. Eles estão construindo sistemas de IA escaláveis para fornecer suporte imediato de saúde mental online para jovens, integrando suas intervenções em plataformas como TikTok e Discord. Tendo ajudado mais de 4 milhões de jovens em 199 países, a Koko enfatiza decisões de produto baseadas em dados, testes A/B e padrões rigorosos de segurança. Esta é uma oportunidade para causar um impacto significativo usando IA para o bem.

Modelos de raciocínio econômicos superam gigantes: Conquistando quebra-cabeças lógicos com aprendizado por reforço

2025-03-06
Modelos de raciocínio econômicos superam gigantes: Conquistando quebra-cabeças lógicos com aprendizado por reforço

Pesquisadores usaram aprendizado por reforço para treinar modelos de linguagem de código aberto menores e mais baratos que superaram o DeepSeek R1, o OpenAI o1 e o o3-mini, e quase igualaram o Anthropic Sonnet 3.7 em um jogo de raciocínio pesado chamado "Temporal Clue", sendo mais de 100 vezes mais baratos no tempo de inferência. Eles conseguiram isso por meio de um design cuidadoso de tarefas, ajuste de hiperparâmetros e o uso do algoritmo de otimização de política relativa de grupo (GRPO) e da biblioteca torchtune. Esta pesquisa demonstra o potencial do aprendizado por reforço para treinar modelos abertos de forma eficiente para tarefas de dedução complexa, mesmo com dados limitados, obtendo ganhos significativos de desempenho com apenas 16 exemplos de treinamento.

IA

Perguntas e Respostas com o especialista em IA William J. Rapaport: O futuro da IA e o Teste de Turing

2025-03-06
Perguntas e Respostas com o especialista em IA William J. Rapaport: O futuro da IA e o Teste de Turing

Em 27 de março, teremos uma discussão com o Professor William J. Rapaport, um renomado especialista em IA da Universidade de Buffalo, com nomeações em Ciência da Computação, Engenharia, Filosofia e Linguística. O Professor Rapaport, autor do livro seminal "Filosofia da Ciência da Computação", e de vários artigos importantes, incluindo trabalhos recentes sobre o sucesso da IA e os Modelos de Linguagem Ampla em relação ao Teste de Turing, estará disponível para responder às suas perguntas. Envie suas perguntas através deste formulário! Esta é uma oportunidade rara de interagir diretamente com um pesquisador líder em IA.

Mistral OCR: API de OCR revolucionária que libera o poder da informação digitalizada

2025-03-06
Mistral OCR: API de OCR revolucionária que libera o poder da informação digitalizada

O Mistral OCR, uma nova API de Reconhecimento Ótico de Caracteres (OCR), define um novo padrão em compreensão de documentos. Ao contrário de outros, ele compreende mídia, texto, tabelas e equações com precisão e cognição sem precedentes. Recebendo imagens e PDFs como entrada, ele extrai conteúdo como texto e imagens intercalados. Com desempenho de última geração em documentos complexos, suporte multilíngue e benchmarks de primeira linha, o Mistral OCR é o modelo padrão para milhões de usuários no Le Chat. Ele oferece funcionalidade de documento como prompt e saída estruturada (JSON), com opção de auto-hospedagem seletiva para dados sensíveis. A API está disponível na la Plateforme, com preço de 1000 páginas por dólar (com inferência em lote oferecendo ainda mais valor).

IA

Mistral OCR: Um Novo Padrão em Compreensão de Documentos

2025-03-06
Mistral OCR: Um Novo Padrão em Compreensão de Documentos

O Mistral OCR é uma API de Reconhecimento Ótico de Caracteres (OCR) inovadora que define um novo padrão em compreensão de documentos. Ao contrário de outros modelos, ele compreende mídia, texto, tabelas e equações com precisão e cognição sem precedentes. Recebendo imagens e PDFs como entrada, ele extrai conteúdo como texto e imagens intercalados, tornando-o ideal para sistemas RAG que processam documentos multimodais. O Mistral OCR possui benchmarks de primeira linha, suporte multilíngue e velocidade, processando milhares de páginas por minuto. Atualmente, ele alimenta o Le Chat e está disponível via API, oferecendo opções de nuvem e locais, revolucionando a maneira como as organizações acessam e utilizam seus vastos repositórios de documentos.

Corrida armamentista de IAG: Evitando a Falha Mútua Assegurada de IA (FMAI)

2025-03-06
Corrida armamentista de IAG: Evitando a Falha Mútua Assegurada de IA (FMAI)

Um documento político de Eric Schmidt, Alexandr Wang e Dan Hendrycks alerta contra um esforço no estilo do "Projeto Manhattan" para a Inteligência Artificial Geral (IAG), argumentando que uma corrida liderada pelos EUA para uma IA superinteligente pode provocar retaliações ferrenhas da China, potencialmente desestabilizando as relações internacionais. Eles introduzem o conceito de Falha Mútua Assegurada de IA (FMAI) e sugerem uma estratégia defensiva priorizando a dissuasão de outros países de criar IAs ameaçadoras. Isso envolve expandir as capacidades de ciberataque, limitar o acesso de adversários a chips de IA avançados e modelos de código aberto, em vez de se concentrar em "ganhar a corrida para a superinteligência". Isso contrasta com propostas recentes para o desenvolvimento de IAG apoiado pelo governo e marca uma mudança nas visões anteriormente expressas por Schmidt.

IA

Desvendando LLMs: Dos Mecanismos de Atenção à Previsão do Próximo Token

2025-03-06
Desvendando LLMs: Dos Mecanismos de Atenção à Previsão do Próximo Token

O crescimento explosivo do ChatGPT para 100 milhões de usuários em 2023 desencadeou uma revolução na IA. Esta postagem no blog desmistifica o funcionamento interno dos Grandes Modelos de Linguagem (LLMs), cobrindo conceitos-chave como embeddings de palavras, mecanismos de atenção, atenção multi-cabeça e os componentes principais da arquitetura Transformer. Usando linguagem clara, recursos visuais e exemplos, o autor explica como os LLMs geram texto prevendo o próximo token e detalha a jornada de modelos básicos para ajuste de instruções e aprendizado por reforço. A postagem também inclui orientação sobre a interpretação de cartas de modelos e sugere recursos adicionais de aprendizagem.

IA

SepLLM: Aceleração de inferência para LLMs pela compressão de tokens sem significado

2025-03-06
SepLLM: Aceleração de inferência para LLMs pela compressão de tokens sem significado

Modelos de linguagem grandes (LLMs) enfrentam desafios significativos devido às suas enormes demandas computacionais. Pesquisadores descobriram que certos tokens especiais sem significado contribuem desproporcionalmente para as pontuações de atenção. Com base nisso, eles propõem o SepLLM, uma estrutura que acelera a inferência comprimindo segmentos entre esses tokens e descartando os redundantes. Experimentos mostram que o SepLLM consegue uma redução de mais de 50% no cache KV no benchmark GSM8K-CoT com perda de desempenho insignificante usando Llama-3-8B. Em configurações de streaming, o SepLLM lida eficazmente com modelagem de linguagem com até 4 milhões de tokens ou mais.

QwQ-32B: Escalonando RL para Aprimorar o Raciocínio em LLMs

2025-03-05
QwQ-32B: Escalonando RL para Aprimorar o Raciocínio em LLMs

Pesquisadores alcançaram um avanço no escalonamento do aprendizado por reforço (RL) para modelos de linguagem grandes (LLMs). Seu modelo QwQ-32B, com 32 bilhões de parâmetros, demonstra desempenho comparável ao DeepSeek-R1 de 671 bilhões de parâmetros (com 37 bilhões ativados), destacando a eficácia do RL aplicado a modelos base robustos. O QwQ-32B, de código aberto no Hugging Face e ModelScope sob a licença Apache 2.0, se destaca no raciocínio matemático, codificação e resolução de problemas gerais. Trabalhos futuros se concentrarão na integração de agentes com RL para raciocínio de longo prazo, expandindo os limites em direção à Inteligência Artificial Geral (AGI).

IA
1 2 28 29 30 32 34 35 36 49 50