Mergulho profundo de Andrej Karpathy em LLMs: Um TL;DR

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

Mergulho profundo de Andrej Karpathy em LLMs: Um TL;DR

2025-02-10

Andrej Karpathy lançou recentemente um vídeo de 3,5 horas detalhando o funcionamento interno de Modelos de Linguagem Grandes (LLMs) como o ChatGPT. Este resumo cobre aspectos-chave, desde a aquisição de dados de pré-treinamento e tokenização até a inferência, ajuste fino e aprendizado por reforço. Explica como os LLMs aprendem padrões de texto da internet durante o pré-treinamento e como o ajuste fino supervisionado e o aprendizado por reforço melhoram a qualidade da resposta e reduzem as alucinações. O resumo também aborda conceitos como 'memória de trabalho' e 'memória de longo prazo', uso de ferramentas e autoconsciência, e oferece uma visão do futuro dos LLMs, incluindo capacidades multimodais e modelos de agentes autônomos.

(anfalmushtaq.com)

A Arte das Variáveis Globais em C++

Sandbox baseado em processo do Verona: Executando código não confiável com segurança