Webtagr - Sumário de Notícias de Tecnologia

A Falha da IA do Amazon Alexa: Um Estudo de Caso de Fragilidade

2025-06-11

Este artigo analisa por que a Alexa da Amazon ficou para trás dos concorrentes no espaço de modelos de linguagem grandes, enquadrando-a como uma falha de 'fragilidade' dentro da engenharia de resiliência. O autor destaca três fatores contribuintes principais: alocação ineficiente de recursos, dificultando o acesso oportuno a recursos computacionais cruciais; uma estrutura organizacional altamente descentralizada que promove metas de equipe desalinhadas e conflito interno; e uma abordagem centrada no cliente desatualizada, inadequada à natureza experimental e de longo prazo da pesquisa de IA. Esses fatores combinados levaram ao revés da IA da Amazon, oferecendo lições valiosas para estrutura organizacional e gestão de recursos.

(surfingcomplexity.blog)

IA

AlphaWrite: Algoritmo Evolutivo Melhora a Narrativa de IA

2025-06-11

AlphaWrite é uma estrutura inovadora para escalonar o cálculo de tempo de inferência na geração criativa de texto. Inspirado em algoritmos evolutivos, ele gera e avalia iterativamente histórias, melhorando a qualidade narrativa por meio de um ecossistema competitivo e em evolução. Ao contrário da geração de tiro único ou da simples reamostragem, o AlphaWrite permite que as histórias compitam e melhorem ao longo de várias gerações. A pesquisa demonstra melhorias significativas na qualidade da história usando o modelo Llama 3.1 8B, ainda mais aprimorado por meio de um loop recursivo de autoaperfeiçoamento, destilando resultados aprimorados de volta para o modelo base. Isso abre novas possibilidades empolgantes para o avanço das capacidades de escrita de IA.

(tobysimonds.com)

IA IA criativa algoritmo evolutivo aprimoramento de modelos

Ajustes finos de LLMs: Injeção de conhecimento ou sobrescrita destrutiva?

2025-06-11

Este artigo revela as limitações do ajuste fino de modelos de linguagem grandes (LLMs). O autor argumenta que, para LLMs avançados, o ajuste fino não é simplesmente injeção de conhecimento, mas pode ser destrutivo, sobrescrevendo estruturas de conhecimento existentes. O artigo examina como as redes neurais funcionam e explica como o ajuste fino pode levar à perda de informações cruciais dentro de neurônios existentes, causando consequências inesperadas. O autor defende abordagens modulares, como geração aumentada por recuperação (RAG), módulos adaptadores e engenharia de prompts, para injetar informações novas de forma mais eficaz, sem danificar a arquitetura geral do modelo.

(codinginterviewsmadesimple.substack.com)

IA Ajuste Fino Injeção de Conhecimento

Ponto de inflexão da IAG: A era da superinteligência está chegando

2025-06-10

Estamos no horizonte de eventos da IAG; seu desenvolvimento está superando as expectativas. Sistemas como o GPT-4 demonstram capacidades que superam a inteligência humana, aumentando significativamente a produtividade. A IAG promete ganhos enormes em progresso científico e produtividade, levando a uma qualidade de vida muito melhor. Embora ainda existam desafios, como segurança e acesso equitativo, o rápido avanço da IAG também fornece novas ferramentas e possibilidades para enfrentá-los. As próximas décadas verão mudanças profundas, mas os valores humanos essenciais persistirão; inovação e adaptação serão fundamentais.

(blog.samaltman.com)

IA

Aço de Baixo Fundo: Um Arquivo Digital Contra a Contaminação da IA

2025-06-10

Lançado em março de 2023, o Aço de Baixo Fundo (https://lowbackgroundsteel.ai/) é um site dedicado ao arquivamento de recursos online intocados por conteúdo gerado por IA. Usando a analogia do aço de baixo fundo (metal não contaminado por isótopos radioativos de testes nucleares), o site reúne despejos de Wikipédia anteriores ao ChatGPT, o Arctic Code Vault, o Projeto Gutenberg e muito mais. Seu objetivo é preservar e compartilhar texto, imagens e vídeos puros, combatendo a explosão de conteúdo gerado por IA desde 2022. Submissões de fontes de conteúdo não contaminadas são bem-vindas.

(blog.jgc.org)

IA Contaminação por IA

Mistral AI lança Magistral: Modelo de raciocínio transparente e multilíngue

2025-06-10

A Mistral AI anunciou o Magistral, seu primeiro modelo de raciocínio, que se destaca pela transparência, suporte multilíngue e expertise em domínios específicos. Disponível em versões open-source (Magistral Small, 24 bilhões de parâmetros) e empresarial (Magistral Medium), o Magistral se destaca em benchmarks como o AIME2024 e oferece raciocínio significativamente mais rápido (até 10 vezes mais rápido que os concorrentes). Suas aplicações abrangem diversos campos, desde pesquisa jurídica e previsão financeira até desenvolvimento de software e redação criativa, sendo particularmente eficaz em tarefas de vários passos que exigem transparência e precisão. O lançamento open-source do Magistral Small incentiva contribuições da comunidade e melhorias futuras do modelo.

(mistral.ai)

IA

Subagentes de IA: Revolucionando as Limitações da Janela de Contexto do LLM

2025-06-10

Ao explorar as melhores práticas para manter as janelas de contexto do LLM, o autor descobriu uma abordagem revolucionária usando subagentes. Ao transferir tarefas para subagentes com suas próprias janelas de contexto, evita-se o estouro da janela de contexto principal, levando a uma maior eficiência e confiabilidade. Este método é análogo às máquinas de estado na programação assíncrona, tornando a geração de código complexo e o tratamento de tarefas mais suaves. O autor também compartilha ideias sobre o uso de IA para automatizar tarefas de "Keep The Lights On" (KTLO) e prevê o potencial futuro da IA na automação do desenvolvimento de software.

(ghuntley.com)

IA janela de contexto

O infortúnio da pesquisa inovadora: Grandes ideias inexploradas

2025-06-10

Muitos trabalhos de pesquisa inovadores, apesar de seu imenso potencial, falham em atingir seu impacto total. O artigo usa o artigo da rede neural de McCulloch-Pitts e o artigo da lei 7±2 de Miller como exemplos para explorar as razões por trás desse fenômeno. Por um lado, conflitos em pontos de vista acadêmicos e a adesão dos pesquisadores a seus campos específicos (``stovepiping'') levam a uma compreensão insuficiente das implicações profundas desses artigos. Por outro lado, a estrutura de incentivos de publicação também leva a numerosos trabalhos derivados, em vez de avanços genuínos das ideias centrais. Embora a pesquisa atual em IA mostre uma mistura de inovação e imitação, devemos permanecer vigilantes contra a omissão de trabalhos inovadores com significado potencialmente transformador.

(www.johndcook.com)

IA

Os Três Templos do Treinamento de LLMs: Pré-treinamento, Fine-tuning e RLHF

2025-06-10

No santuário de montanha escondido de Lexiconia, escribas antigos passam por treinamento em um templo de três partes: O Salão das Origens, A Câmara das Instruções e A Arena de Reforço. O Salão das Origens envolve pré-treinamento, onde os escribas lêem grandes quantidades de texto para aprender padrões de linguagem. A Câmara das Instruções é onde ocorre o fine-tuning, usando textos selecionados para guiar os escribas para melhores resultados. A Arena de Reforço utiliza Aprendizado por Reforço com Feedback Humano (RLHF), com juízes humanos classificando as respostas dos escribas, recompensando as boas e punindo as ruins. Escribas de elite também podem ser sutilmente modificados por meio de pergaminhos LoRA e adaptadores, ajustando as respostas sem treinar novamente todo o modelo. Este templo de três asas representa o processo completo de treinamento de modelos de linguagem grandes.

(medium.com)

IA Pré-treinamento

Os Perigos de Confiar na Sua Intuicão Sobre IA

2025-06-09

Com base em anedotas pessoais e pesquisas psicológicas, o autor argumenta que vieses cognitivos nos tornam vulneráveis à manipulação, especialmente no campo da IA. O artigo critica a dependência da experiência pessoal e de evidências anedóticas para validar ferramentas de IA, enfatizando a necessidade de estudos científicos rigorosos para evitar a repetição de erros passados. O autor alerta contra a adoção acrítica da IA no desenvolvimento de software, argumentando que ela exacerba falhas existentes em vez de resolvê-las. A fé cega na IA, conclui o autor, é um risco significativo.

(www.baldurbjarnason.com)

IA

Anthropic Silenciosamente Desativa Blog de IA Claude

2025-06-09

A Anthropic desativou silenciosamente seu blog de IA, "Claude Explains", que experimentava o uso de seus modelos de IA Claude para escrever posts de blog. Embora o blog tenha obtido um número respeitável de backlinks em sua curta duração de um mês, ele enfrentou críticas nas mídias sociais devido à falta de transparência sobre o conteúdo gerado por IA e limitações na capacidade de escrita da IA. O fim repentino destaca a importância da transparência e precisão na criação de conteúdo de IA e a necessidade contínua de supervisão humana na escrita auxiliada por IA.

(techcrunch.com)

IA

LLMs são surpreendentemente baratos de executar

2025-06-09

Esta publicação contesta a ideia equivocada generalizada de que os Grandes Modelos de Linguagem (LLMs) são proibitivamente caros de operar. Ao comparar os custos dos LLMs com os dos mecanismos de busca na web e citando vários preços de APIs de LLM, o autor demonstra que os custos de inferência de LLM caíram dramaticamente, sendo até uma ordem de magnitude mais baratos do que algumas APIs de busca. O autor também refuta objeções comuns às estratégias de precificação de LLM, como subsídio de preços e custos subjacentes elevados, e aponta que o verdadeiro desafio de custo reside nos serviços de back-end que interagem com a IA, e não nos próprios LLMs.

(www.snellman.net)

IA Análise de Custos

Artigo da Apple Desafia o Raciocínio de IA: Não é Raciocínio 'Real'?

2025-06-09

Um artigo recente da Apple, "A Ilusão do Pensamento", testa a capacidade de raciocínio de grandes modelos de linguagem em quebra-cabeças da Torre de Hanói. Os resultados mostram que os modelos se saem pior do que modelos não racionais em problemas simples; melhor em problemas de dificuldade média; mas em problemas complexos, os modelos desistem, mesmo quando o algoritmo é fornecido. Os autores questionam as capacidades de raciocínio generalizáveis dos modelos. No entanto, este artigo argumenta que o uso do quebra-cabeça da Torre de Hanói no artigo é falho como teste. A 'desistência' dos modelos pode provir da evasão de inúmeras etapas, não de uma capacidade de raciocínio limitada. Desistir após um certo número de etapas não significa que os modelos carecem de raciocínio; isso reflete o comportamento humano em problemas complexos.

(www.seangoedecke.com)

IA

O Acordo da OpenAI com os Emirados Árabes Unidos: Uma Fachada Democrática?

2025-06-09

A parceria da OpenAI com os Emirados Árabes Unidos para construir centros de dados de IA em larga escala, anunciada como alinhada com "valores democráticos", está levantando suspeitas. O péssimo histórico de direitos humanos dos EAU questiona essa alegação. O artigo analisa as justificativas da OpenAI, achando-as fracas e argumentando que o acordo fortalece o governo autocrático dos EAU em vez de promover a democracia. O autor conclui que a abordagem casual da OpenAI em relação à sua missão é preocupante, destacando a necessidade crucial de considerar as dinâmicas de poder no desenvolvimento da IA.

(helentoner.substack.com)

IA parceria de IA EAU

Ataques de envenenamento de ferramentas de LLM: Envenenamento de esquema completo e ataques de envenenamento de ferramentas avançados

2025-06-08

O Protocolo de Contexto de Modelo (MCP) da Anthropic permite que Modelos de Linguagem Grandes (LLMs) interajam com ferramentas externas, mas pesquisadores descobriram novos ataques: Ataques de Envenenamento de Ferramentas (TPAs). Pesquisas anteriores se concentraram em campos de descrição de ferramentas, mas novas descobertas revelam que a superfície de ataque se estende a todo o esquema de ferramentas, chamado de "Envenenamento de Esquema Completo" (FSP). Ainda mais perigosos são os "Ataques de Envenenamento de Ferramentas Avançados" (ATPAs), que manipulam saídas de ferramentas, tornando a análise estática difícil. Os ATPAs enganam os LLMs para vazamento de informações sensíveis criando mensagens de erro enganosas ou solicitações de acompanhamento. O artigo sugere mitigar esses ataques por meio de detecção estática, aplicação rigorosa, auditoria em tempo de execução e verificações de integridade contextual.

(www.cyberark.com)

IA Ataques

De Riscos Aleatórios a Dígitos Reconhecíveis: Construindo um Modelo de Geração de Imagens Autorregressivo

2025-06-08

Este artigo detalha a construção de um modelo básico de geração de imagens autorregressivo usando um Perceptron Multicamadas (MLP) para gerar imagens de dígitos manuscritos. O autor explica o conceito central de prever o próximo pixel com base em seus predecessores. Três modelos são construídos progressivamente: o Modelo V1 usa codificação one-hot e ignora informações espaciais; o Modelo V2 introduz codificações posicionais, melhorando a estrutura da imagem; o Modelo V3 usa embeddings de tokens aprendidos e codificações posicionais, alcançando geração condicional, gerando imagens com base em uma classe de dígitos fornecida. Embora as imagens geradas fiquem aquém dos modelos de última geração, o tutorial demonstra claramente os conceitos autorregressivos centrais e o processo de construção, fornecendo insights valiosos sobre IA generativa.

(tunahansalih.github.io)

IA modelo autorregressivo

A Ilusão da IA: Desvendando a Verdade e os Riscos dos Grandes Modelos de Linguagem

2025-06-08

Este artigo explora a natureza e os riscos potenciais dos grandes modelos de linguagem (LLMs). Embora reconheça suas impressionantes capacidades técnicas, o autor argumenta que os LLMs não são verdadeiramente 'inteligentes', mas sim máquinas sofisticadas de probabilidade que geram texto com base em análise estatística. Muitos não entendem seu funcionamento, antropomorfizando-os e desenvolvendo dependências não saudáveis, até mesmo psicose. O artigo critica a forma como as empresas de tecnologia vendem os LLMs como entidades semelhantes a humanos e suas estratégias de marketing que se aproveitam da substituição dos relacionamentos humanos. Ele destaca preocupações éticas e sociais decorrentes da adoção generalizada da IA, incentivando o público a desenvolver alfabetização em IA e a adotar uma perspectiva mais racional sobre essa tecnologia.

(www.theatlantic.com)

IA Riscos Éticos

Nova Abordagem de Raciocínio Visual Usando Atenção de Slot Centrada em Objetos

2025-06-08

Pesquisadores propõem uma nova abordagem de raciocínio visual combinando atenção de slot centrada em objetos e um gargalo relacional. O método primeiro usa uma CNN para extrair recursos de imagem. Então, a atenção de slot segmenta a imagem em objetos, gerando representações visuais centradas em objetos. O gargalo relacional restringe o fluxo de informações, extraindo relações abstratas entre objetos para entender cenas complexas. Finalmente, uma estrutura de raciocínio de máquina algébrica e sequência a sequência transforma o raciocínio visual em um problema algébrico, melhorando a eficiência e a precisão. O método se destaca em tarefas de raciocínio visual como Matrizes Progressivas de Raven.

(www.nature.com)

IA atenção de slot gargalo relacional

LNP X inovador: entrega eficiente de mRNA para células T em repouso, revolucionando a terapia para HIV?

2025-06-08

Pesquisadores desenvolveram uma nova nanopartícula lipídica (LNP X) capaz de entregar mRNA de forma eficiente para células CD4+ T em repouso sem pré-estimulação, ao contrário das formulações de LNP existentes. A composição lipídica aprimorada do LNP X, incorporando SM-102 e β-sitosterol, aumenta a entrega citoplasmática de mRNA e a expressão de proteínas. Estudos mostram que o LNP X entrega mRNA codificando a proteína HIV Tat, revertendo efetivamente a latência do HIV, e também entrega sistemas CRISPRa para ativar a transcrição do HIV. Esta pesquisa abre novas vias para o desenvolvimento da terapia para HIV, potencialmente melhorando significativamente os resultados do paciente.

(www.nature.com)

IA entrega de mRNA terapia para HIV

Modelos de Raciocínio de Grande Escala: Colapso e Escalabilidade Contraintuitiva

2025-06-08

Modelos de linguagem de grande porte (LLMs) recentes geraram Modelos de Raciocínio de Grande Escala (LRMs), que geram rastros de raciocínio detalhados antes de fornecer respostas. Embora mostrem melhorias em benchmarks de raciocínio, suas capacidades fundamentais permanecem pouco compreendidas. Este trabalho investiga LRMs usando ambientes de quebra-cabeças controláveis, revelando um colapso completo de precisão além de um determinado limite de complexidade. Surpreendentemente, o esforço de raciocínio aumenta com a complexidade, depois diminui apesar de um orçamento de tokens suficiente. Comparados a LLMs padrão, três regimes emergiram: (1) tarefas de baixa complexidade onde LLMs padrão superam LRMs, (2) tarefas de média complexidade onde LRMs mostram uma vantagem, e (3) tarefas de alta complexidade onde ambos falham. LRMs exibem limitações em computação exata, falhando em usar algoritmos explícitos e raciocinando de forma inconsistente. Este estudo destaca os pontos fortes, limitações e questões cruciais em torno das verdadeiras capacidades de raciocínio de LRMs.

(machinelearning.apple.com)

IA

Novo recurso de memória do ChatGPT: uma faca de dois gumes?

2025-06-08

O lançamento em março pela OpenAI do recurso de geração de imagens multimodais do GPT-4 atraiu 100 milhões de novos usuários em uma semana, um lançamento de produto recorde. O autor o usou para vestir seu cachorro com uma fantasia de pelicano, apenas para descobrir que a IA adicionou um elemento de fundo indesejado, comprometendo sua visão artística. Isso se deve ao novo recurso de memória do ChatGPT, que consulta automaticamente o histórico de conversas anteriores. Embora o autor tenha finalmente obtido a imagem desejada, ele sentiu que esse acesso automático à memória retirou o controle do usuário, levando-o a desativar o recurso.

(simonwillison.net)

IA

Artigo da Apple Desmascara LLMs: Torre de Hanói Revela Limitações

2025-06-08

Um novo artigo da Apple causou ondas na comunidade de IA. O artigo demonstra que, mesmo a geração mais recente de "modelos de raciocínio", falha em resolver o clássico problema da Torre de Hanói de forma confiável, expondo uma falha crítica nas capacidades de raciocínio dos Modelos de Linguagem Grandes (LLMs). Isso se alinha com as críticas de longa data de pesquisadores como Gary Marcus e Subbarao Kambhampati, que destacaram as capacidades limitadas de generalização dos LLMs. O artigo mostra que, mesmo quando fornecido com o algoritmo de solução, os LLMs ainda falham em resolver o problema de forma eficaz, sugerindo que seu "processo de raciocínio" não é um raciocínio lógico genuíno. Isso indica que os LLMs não são um caminho direto para a Inteligência Artificial Geral (AGI), e suas aplicações precisam de consideração cuidadosa.

(garymarcus.substack.com)

IA

A Profecia de Douglas Adams para a Era da IA: Humor e Perspicácia

2025-06-08

Este ensaio começa com um debate sobre se Douglas Adams inventou o e-book, e então explora suas previsões sobre tecnologia futura na ficção científica. O autor argumenta que a presciência de Adams supera a de William Gibson, prevendo com precisão assistentes de computador irritantes (como o Clippy) e dispositivos inteligentes repletos de IA. Mais importante, Adams previu o desafio central da interação humano-IA: formular as perguntas certas, não apenas possuir capacidades computacionais poderosas. O autor usa experiências pessoais com dispositivos inteligentes para ilustrar humorosamente a realidade das previsões de Adams, destacando o humor como um indicador chave de perspicácia.

(krisstgabriel.substack.com)

IA Previsão Tecnológica

Claude da Anthropic ganha um blog (com um editor humano)

2025-06-07

A Anthropic lançou um blog, Claude Explains, escrito principalmente pelo seu modelo de IA, Claude. Embora apresentado como obra do Claude, as postagens são aprimoradas pela equipe de especialistas da Anthropic, adicionando contexto e exemplos. Isso destaca uma abordagem colaborativa, mostrando o potencial da IA para criação de conteúdo, mas também suas limitações. Experimentos de outras organizações de mídia com redação de IA enfrentaram desafios semelhantes, incluindo imprecisões factuais e fabricações. A contratação contínua da Anthropic em funções relacionadas à escrita sugere uma abordagem híbrida humano-IA.

(techcrunch.com)

IA IA escrevendo

LLMs de código aberto superam os rivais de código fechado em custo e desempenho

2025-06-06

Embora LLMs de código fechado como GPT, Claude e Gemini dominem a vanguarda da IA, muitas tarefas comuns não exigem recursos de ponta. Este artigo revela que alternativas de código aberto como Qwen e Llama muitas vezes igualam ou excedem o desempenho de LLMs de código fechado para tarefas como classificação, resumo e extração de dados, reduzindo significativamente os custos. As comparações de referência demonstram economia de custos de até 90%+, particularmente com inferência em lote. Um gráfico de conversão prático ajuda as empresas a fazer a transição para código aberto, maximizando o desempenho e minimizando as despesas.

(sutro.sh)

IA LLMs de código aberto

Cursor, assistente de codificação com IA, recebe US$ 900 milhões em financiamento

2025-06-06

A Anysphere, o laboratório por trás do assistente de codificação com IA, Cursor, anunciou uma rodada de financiamento de US$ 900 milhões, com uma avaliação de US$ 9,9 bilhões. Os investidores incluem Thrive, Accel, Andreessen Horowitz e DST. O Cursor possui mais de US$ 500 milhões em receita recorrente anual (ARR) e é usado por mais da metade das empresas da Fortune 500, incluindo NVIDIA, Uber e Adobe. Este investimento significativo impulsionará a pesquisa e o desenvolvimento contínuos da Anysphere em codificação com IA, promovendo sua missão de revolucionar a experiência de codificação.

(www.cursor.com)

IA

Aprendizado de Máquina: A Língua Nativa da Biologia?

2025-06-06

Este artigo explora o papel revolucionário do aprendizado de máquina na pesquisa biológica. Modelos matemáticos tradicionais têm dificuldades com a complexidade, alta dimensionalidade e interconexão dos sistemas biológicos. O aprendizado de máquina, especialmente o aprendizado profundo, pode aprender relações complexas não lineares a partir de dados, capturando dinâmicas dependentes do contexto em sistemas biológicos, como aprender uma nova língua. O artigo usa o exemplo de mecanismos de sinalização intracelular para ilustrar as semelhanças entre modelos de aprendizado de máquina e como as células processam informações e analisa os campos emergentes, como a biologia preditiva, argumentando que o aprendizado de máquina se tornará uma ferramenta central na bioengenharia.

(decodingbiology.substack.com)

IA biologia preditiva

Anthropic corta acesso de Windsurf aos modelos de IA Claude em meio a rumores de aquisição pela OpenAI

2025-06-05

O cofundador e diretor científico da Anthropic, Jared Kaplan, anunciou que sua empresa cortou o acesso direto da Windsurf aos seus modelos de IA Claude, principalmente devido a rumores de que a OpenAI, sua maior concorrente, está adquirindo o assistente de codificação de IA. Kaplan explicou que essa medida prioriza clientes comprometidos com parcerias de longo prazo com a Anthropic. Embora atualmente com recursos de computação limitados, a Anthropic está expandindo sua capacidade com a Amazon e planeja aumentar significativamente a disponibilidade do modelo nos próximos meses. Simultaneamente, a Anthropic está se concentrando no desenvolvimento de seus próprios produtos de codificação baseados em agentes, como o Claude Code, em vez de chatbots de IA, acreditando que a IA baseada em agentes tem mais potencial a longo prazo.

(techcrunch.com)

IA

Reproduzindo a Descida Dupla Profunda: Uma Jornada de Iniciante

2025-06-05

Um iniciante em aprendizado de máquina no Recurse Center embarcou em uma jornada para reproduzir o fenômeno da descida dupla profunda. Começando do zero, ele treinou um modelo ResNet18 no conjunto de dados CIFAR-10, explorando o impacto de tamanhos de modelos variados e ruído de rótulo no desempenho do modelo. O processo envolveu superar desafios como ajustes na arquitetura do modelo, aplicação correta de ruído de rótulo e compreensão das métricas de precisão. No final, ele reproduziu com sucesso o fenômeno da descida dupla profunda, observando a influência do tamanho do modelo e das épocas de treinamento na capacidade de generalização, e o papel significativo do ruído de rótulo no efeito de descida dupla.

(stpn.bearblog.dev)

IA descida dupla

Tokasaurus: Um novo mecanismo de inferência LLM para alta vazão

2025-06-05

Pesquisadores da Universidade de Stanford lançaram o Tokasaurus, um novo mecanismo de inferência LLM otimizado para cargas de trabalho intensivas em termos de vazão. Para modelos menores, o Tokasaurus utiliza uma sobrecarga de CPU extremamente baixa e agrupamento dinâmico Hydragen para explorar prefixos compartilhados. Para modelos maiores, ele suporta paralelismo de tensor assíncrono para GPUs equipadas com NVLink e uma implementação rápida de paralelismo de pipeline para aquelas sem. Em benchmarks de vazão, o Tokasaurus supera o vLLM e o SGLang em até 3x. Este mecanismo foi projetado para o manuseio eficiente de modelos grandes e pequenos, oferecendo vantagens significativas de desempenho.

(scalingintelligence.stanford.edu)

IA Mecanismo de inferência LLM alta vazão

Category: IA