Índice de Búsqueda Marginalia: Un Aumento Significativo del Rendimiento

2025-08-17

El motor de búsqueda Marginalia ha sufrido una rediseñación significativa de su índice para aprovechar mejor el hardware moderno. Utilizando árboles B mapeados en memoria y listas de salto basadas en bloques deterministas, junto con ajustes cuidadosos del tamaño de los bloques y las estrategias de E/S, las velocidades de búsqueda se han mejorado drásticamente. La publicación detalla las nuevas estructuras de datos y las optimizaciones de rendimiento, explorando las idiosincrasias del rendimiento de lectura de las SSD NVMe y cómo maximizar el rendimiento mediante ajustes en el tamaño de bloque y el modo de E/S.

Leer más
Desarrollo

Marginalia: Detección Mejorada de Cambios y Estado en Línea

2025-06-19

El equipo del motor de búsqueda Marginalia implementó un nuevo sistema, 'ping-process', para detectar el estado en línea del servidor y cambios significativos en el sitio web, incluidas las transferencias de propiedad y el estacionamiento de dominios. Utilizando principalmente solicitudes HTTP HEAD y consultas DNS, el sistema analiza los detalles del certificado, la postura de seguridad y los encabezados del servidor para identificar los cambios. Los datos se almacenan en tablas de 'instantánea' y 'evento', la primera contiene información actual y la segunda eventos históricos. El sistema superó los desafíos de programación y validación de certificados, mostrando un éxito inicial en la identificación de dominios aparcados. Los planes futuros incluyen el perfeccionamiento del modelo de detección de cambios de propiedad y su integración en las estrategias de rastreo para una mayor eficiencia.

Leer más

Sobrecarga de IA: ¿Un día en el futuro distópico?

2025-05-23

Desde un despertador de IA hasta un gimnasio con medidas de seguridad excesivas y un coche que constantemente presume de sus características, el día del protagonista está abrumado por la IA omnipresente. Este futuro aparentemente conveniente está lleno de molestias sofocantes y violaciones de la privacidad, lo que lleva a la reflexión sobre el desarrollo excesivo de la tecnología de IA y la falta de interacción humana.

Leer más
Tecnología

El motor de búsqueda agrega indexación de PDF: Superando los desafíos de la extracción de texto

2025-05-13

El motor de búsqueda recientemente obtuvo la capacidad de indexar archivos PDF, una hazaña más compleja de lo que parece. Los PDF no están basados en texto; son gráficos, representando el texto como coordenadas de glifo que pueden estar rotadas, superpuestas o desordenadas. Este artículo detalla las mejoras en la clase PDFTextStripper de PDFBox. Al analizar estadísticamente los tamaños de fuente y el espaciado entre líneas, identifica de manera más eficaz información semántica como encabezados y párrafos. Esto mejora la precisión y la idoneidad de la extracción de texto PDF, permitiendo la indexación eficaz del contenido PDF.

Leer más
Desarrollo indexación de PDF

Optimización del rastreador del motor de búsqueda: La larga cola del 0,1%

2025-03-27

El rastreador de un motor de búsqueda siempre tuvo problemas para completar su tarea, pasando días en los dominios finales. La migración reciente a datos de rastreo reducida el uso de memoria en un 80%, aumentando las tareas de rastreo. Esto resultó en un 99,9% de finalización en 4 días, pero el 0,1% restante tardó una semana. El problema se debe al tamaño del sitio web que sigue una distribución de Pareto, con sitios web grandes (especialmente académicos con numerosos subdominios y documentos) y límites del rastreador en tareas simultáneas por dominio. El orden aleatorio inicial hizo que los sitios grandes comenzaran tarde. La ordenación por conteo de subdominios provocó un aumento de solicitudes a hosts de blogs. La adición de variabilidad al retraso de las solicitudes y el ajuste del orden de clasificación para priorizar los sitios con más de 8 subdominios resolvieron parcialmente el problema. Sin embargo, las limitaciones inherentes al modelo de rastreo por lotes requieren optimización adicional.

Leer más

El Proyecto de Búsqueda Marginalia recibe una segunda subvención de NLNet

2025-03-25

¡El proyecto de búsqueda Marginalia ha recibido una segunda subvención de NLNet! Esta financiación apoyará la mayor parte de la hoja de ruta del proyecto para 2025. El desarrollo a tiempo completo ha estado en marcha desde el verano de 2023, y esta subvención asegura más tiempo de desarrollo y extiende significativamente el cronograma del proyecto. Más detalles a seguir.

Leer más

Guía para Startups de IA: Conviértete en un Peor Ciudadano de Internet

2025-03-22

Este texto satírico detalla las medidas extremas que una startup de IA toma para obtener datos de entrenamiento. Ignorando robots.txt y falsificando agentes de usuario, rastrean implacablemente formularios, repositorios Git e incluso secuestran el wifi del vecino. Evitan el agrupamiento de conexiones, se niegan a cerrar conexiones y deliberadamente descartan paquetes, todo en nombre de la velocidad y la adquisición de datos. La historia destaca de forma humorística el desprecio imprudente por las reglas y la ética que muestran algunas startups de IA en su búsqueda del éxito, lo que finalmente resulta en daños a la reputación.

Leer más
Startup