OpenAI lança LLMs gpt-oss: modelos poderosos e de código aberto que rodam localmente

2025-08-10
OpenAI lança LLMs gpt-oss: modelos poderosos e de código aberto que rodam localmente

A OpenAI lançou nesta semana os novos modelos de linguagem grandes (LLMs) de peso aberto: gpt-oss-120b e gpt-oss-20b, seus primeiros modelos de peso aberto desde o GPT-2 em 2019. Surpreendentemente, graças a otimizações inteligentes, eles podem ser executados localmente. Este artigo mergulha na arquitetura do modelo gpt-oss, comparando-o com modelos como GPT-2 e Qwen3. Ele destaca escolhas arquitetônicas exclusivas, como Mixture-of-Experts (MoE), Grouped Query Attention (GQA) e atenção com janela deslizante. Embora os benchmarks mostrem o gpt-oss tendo desempenho comparável a modelos de código fechado em algumas áreas, sua capacidade de execução local e natureza de código aberto o tornam um ativo valioso para pesquisa e aplicações.

Leia mais

Evolução da Arquitetura de LLMs em 2025: Mergulhos Profundos em DeepSeek, OLMo, Gemma, Mistral e Qwen

2025-07-20
Evolução da Arquitetura de LLMs em 2025: Mergulhos Profundos em DeepSeek, OLMo, Gemma, Mistral e Qwen

Este artigo revisa os avanços arquitetônicos em modelos de linguagem grandes (LLMs) durante 2025, focando em modelos de código aberto como DeepSeek, OLMo, Gemma, Mistral e Qwen. DeepSeek V3/R1 aprimora a eficiência computacional com Atenção Latente Multi-Cabeça (MLA) e Mistura de Especialistas (MoE). OLMo 2 enfatiza o posicionamento do RMSNorm, empregando Pós-Norm e QK-Norm. Gemma 3 utiliza atenção de janela deslizante para reduzir os requisitos de memória. Mistral Small 3.1 equilibra desempenho e velocidade. Qwen 3 oferece variantes densas e MoE para flexibilidade. SmolLM3 se destaca com seu tamanho de 3B parâmetros e NoPE (Sem Embeddings Posicionais). Finalmente, Kimi 2 impressiona com sua escala de trilhões de parâmetros e o otimizador Muon. Esses modelos mostram inovações em mecanismos de atenção, normalização, MoE e otimizadores, demonstrando a diversidade e a evolução contínua das arquiteturas de LLM.

Leia mais

Quatro Abordagens para Construir Modelos de Raciocínio para LLMs

2025-02-06
Quatro Abordagens para Construir Modelos de Raciocínio para LLMs

Este artigo explora quatro abordagens principais para aprimorar modelos de linguagem grandes (LLMs) com capacidades de raciocínio: escalonamento em tempo de inferência, aprendizado por reforço puro, ajuste fino supervisionado mais aprendizado por reforço e destilação de modelos. O desenvolvimento do DeepSeek R1 é usado como um estudo de caso, mostrando como esses métodos podem construir modelos de raciocínio poderosos e como até mesmo pesquisadores com orçamento limitado podem obter resultados impressionantes por meio da destilação. O artigo também compara o DeepSeek R1 com o o1 da OpenAI e discute estratégias para construir modelos de raciocínio econômicos.

Leia mais