Construyendo LLMs desde cero: Vectores, matrices y espacios de alta dimensión

2025-09-06
Construyendo LLMs desde cero: Vectores, matrices y espacios de alta dimensión

Este artículo, el segundo de una serie de tres partes, desmitifica el funcionamiento de los Modelos de Lenguaje Grande (LLMs) para lectores con inclinación técnica y conocimiento limitado de IA. Basándose en la parte 19 de una serie basada en el libro de Sebastian Raschka "Construye un Modelo de Lenguaje Grande (desde cero)", explica el uso de vectores, matrices y espacios de alta dimensión (espacio de vocabulario y espacio de incrustación) dentro de los LLMs. El autor argumenta que comprender la inferencia LLM requiere solo matemáticas de nivel de escuela secundaria, mientras que el entrenamiento requiere matemáticas más avanzadas. El artículo detalla cómo los vectores representan el significado en espacios de alta dimensión y cómo la multiplicación de matrices proyecta entre estos espacios, conectándolo con capas lineales en redes neuronales.

Leer más

Construyendo un LLM desde cero: Desentrañando el misterio de la atención

2025-05-11
Construyendo un LLM desde cero: Desentrañando el misterio de la atención

Esta publicación profundiza en el funcionamiento interno del mecanismo de autoatención en los grandes modelos de lenguaje. El autor analiza la atención multi-cabeza y los mecanismos en capas, explicando cómo las multiplicaciones de matrices aparentemente simples logran funcionalidades complejas. La idea principal es que las cabezas de atención individuales son simples, pero a través de la atención multi-cabeza y las capas, se construyen representaciones complejas y ricas. Esto es análogo a cómo las redes neuronales convolucionales extraen características capa por capa, logrando en última instancia una comprensión profunda de la secuencia de entrada. Además, la publicación explica cómo los mecanismos de atención resuelven el problema inherente de cuello de botella de longitud fija de los modelos RNN y utiliza ejemplos para ilustrar los roles de los espacios de consulta, clave y valor en el mecanismo de atención.

Leer más
IA

Construyendo un LLM desde cero: Una inmersión profunda en Dropout

2025-03-20
Construyendo un LLM desde cero: Una inmersión profunda en Dropout

Esta publicación documenta el recorrido del autor a través del capítulo de dropout del libro de Sebastian Raschka "Construye un Modelo de Lenguaje Grande (desde cero)". Dropout es una técnica de regularización que previene el sobreajuste ignorando aleatoriamente algunos neuronas o pesos durante el entrenamiento, distribuyendo así el conocimiento de manera más amplia en el modelo. El autor detalla la implementación de dropout y explora los matices de su aplicación en LLM, como aplicar dropout a los pesos de atención o vectores de valor, y reequilibrar la matriz resultante. La publicación también trata sobre las elecciones prácticas de la tasa de dropout y los desafíos de manejar tensores de orden superior para el procesamiento por lotes, preparando el escenario para un aprendizaje futuro.

Leer más
Desarrollo

Construyendo un LLM desde cero: Una inmersión profunda en la autoatención

2025-03-05
Construyendo un LLM desde cero: Una inmersión profunda en la autoatención

Esta publicación de blog, la octava de una serie que documenta el viaje del autor a través del libro "Construye un Modelo de Lenguaje Grande (desde cero)" de Sebastian Raschka, se centra en la implementación de la autoatención con pesos entrenables. Comienza revisando los pasos involucrados en los LLMs transformadores solo decodificadores de estilo GPT, incluyendo incrustaciones de tokens y de posición, autoatención, normalización de puntuaciones de atención y generación de vectores de contexto. El núcleo de la publicación profundiza en la atención de producto escalar escalada, explicando cómo las matrices de pesos entrenables proyectan incrustaciones de entrada en diferentes espacios (consulta, clave, valor). La multiplicación de matrices se utiliza para una computación eficiente. El autor proporciona una explicación clara y mecanicista del proceso, concluyendo con una vista previa de los temas futuros: autoatención causal y atención multi-cabeza.

Leer más
IA

¿Siguen siendo relevantes los blogs en la era de la IA?

2025-02-25
¿Siguen siendo relevantes los blogs en la era de la IA?

Esta publicación explora el valor de los blogs en la era de ChatGPT y otras herramientas de IA. Si bien la IA puede acceder y sintetizar información fácilmente, los blogs siguen siendo valiosos: consolidan el conocimiento propio, ayudan a otros, construyen una marca personal (aunque esto es difícil de lograr únicamente con blogs), brindan una sensación de logro y construyen una cartera de escritura que muestra habilidades de pensamiento, beneficiando el desarrollo profesional. El autor argumenta que el principal impacto de la IA en los blogs es reducir la sensación de logro de la interacción con el lector, pero esto no niega el valor general de los blogs.

Leer más
Desarrollo

Retrospectiva del Blogger: El Valor de las Publicaciones de Aprendizaje Profundo

2025-02-24
Retrospectiva del Blogger: El Valor de las Publicaciones de Aprendizaje Profundo

Un blogger, mientras se recuperaba de una enfermedad menor, revisó sus publicaciones anteriores y descubrió que las más populares seguían un patrón: aprender una nueva habilidad y resumirla en un tutorial. Cree que este estilo de escritura no solo solidifica su propio conocimiento, sino que también ayuda a otros. Estas publicaciones de blog tipo tutorial sirven como los propios recursos que el autor deseaba que existieran cuando estaba aprendiendo, ofreciendo a los lectores guías de aprendizaje claras y profundas. En el futuro, el autor planea crear más de estas "inmersiones profundas TIL", compartiendo su viaje de aprendizaje.

Leer más
Varios tutoriales