Index de Recherche Marginalia : Amélioration significative des performances

2025-08-17

Le moteur de recherche Marginalia a subi une refonte importante de son index afin de mieux exploiter le matériel moderne. En utilisant des arbres B mappés en mémoire et des listes de saut basées sur des blocs déterministes, ainsi que des réglages précis de la taille des blocs et des stratégies d’E/S, les vitesses de recherche ont été considérablement améliorées. L’article détaille les nouvelles structures de données et les optimisations de performances, explorant les particularités des performances de lecture des SSD NVMe et comment maximiser les performances grâce à des ajustements de la taille des blocs et du mode d’E/S.

Lire plus
Développement

Marginalia : Amélioration de la détection des changements et de l'état en ligne

2025-06-19

L'équipe du moteur de recherche Marginalia a mis en œuvre un nouveau système, 'ping-process', pour détecter l'état en ligne du serveur et les changements importants sur le site web, y compris les transferts de propriété et le parking de domaines. Utilisant principalement des requêtes HTTP HEAD et des requêtes DNS, le système analyse les détails du certificat, la posture de sécurité et les en-têtes du serveur pour identifier les changements. Les données sont stockées dans des tables 'instantané' et 'événement', la première contenant les informations actuelles et la seconde les événements historiques. Le système a surmonté les défis de planification et de validation des certificats, montrant un succès initial dans l'identification des domaines garés. Les plans futurs comprennent l'amélioration du modèle de détection des changements de propriété et son intégration dans les stratégies de crawl pour une meilleure efficacité.

Lire plus
Développement surveillance de site web

Surcharge d'IA : Une journée dans un futur dystopique ?

2025-05-23

D'un réveil IA à une salle de sport aux mesures de sécurité excessives et une voiture vantant constamment ses fonctionnalités, la journée du protagoniste est submergée par l'IA omniprésente. Cet avenir apparemment pratique est rempli de désagréments étouffants et de violations de la vie privée, ce qui incite à la réflexion sur le développement excessif de la technologie IA et le manque d'interaction humaine.

Lire plus
Technologie

Le moteur de recherche ajoute l'indexation PDF : surmonter les défis de l'extraction de texte

2025-05-13

Le moteur de recherche a récemment acquis la capacité d'indexer les fichiers PDF, une prouesse plus complexe qu'il n'y paraît. Les PDF ne sont pas basés sur du texte ; ce sont des graphiques, représentant le texte sous forme de coordonnées de glyphe qui peuvent être tournées, superposées ou désordonnées. Cet article détaille les améliorations apportées à la classe PDFTextStripper de PDFBox. En analysant statistiquement les tailles de police et l'espacement entre les lignes, il identifie plus efficacement les informations sémantiques telles que les titres et les paragraphes. Cela améliore la précision et l'adéquation de l'extraction de texte PDF, permettant une indexation efficace du contenu PDF.

Lire plus
Développement indexation PDF

Optimisation du crawler du moteur de recherche : la longue traîne des 0,1 %

2025-03-27

Le crawler d'un moteur de recherche a toujours eu du mal à terminer sa tâche, passant des jours sur les derniers domaines. La migration récente vers des données de crawl réduites a réduit l'utilisation de la mémoire de 80 %, augmentant le nombre de tâches de crawl. Cela a entraîné une complétion de 99,9 % en 4 jours, mais les 0,1 % restants ont pris une semaine. Le problème provient de la taille des sites Web qui suit une distribution de Pareto, avec des sites Web volumineux (en particulier des sites académiques avec de nombreux sous-domaines et documents) et des limites du crawler sur les tâches simultanées par domaine. L'ordre aléatoire initial a fait que les grands sites démarraient tard. Le tri par nombre de sous-domaines a entraîné une augmentation des demandes vers les hébergeurs de blogs. L'ajout d'une gigue au délai entre les demandes et l'ajustement de l'ordre de tri pour donner la priorité aux sites ayant plus de 8 sous-domaines ont résolu partiellement le problème. Cependant, les limitations inhérentes au modèle de crawl par lots nécessitent une optimisation supplémentaire.

Lire plus
Développement optimisation du crawler

Le projet de recherche Marginalia reçoit une deuxième subvention NLNet

2025-03-25

Le projet de recherche Marginalia a reçu une deuxième subvention de NLNet ! Ce financement permettra de soutenir la majeure partie de la feuille de route du projet pour 2025. Le développement à plein temps est en cours depuis l'été 2023, et cette subvention assure un temps de développement supplémentaire et prolonge considérablement le calendrier du projet. Plus de détails à suivre.

Lire plus
Développement financement du projet

Guide des Startups d'IA : Devenez un Pire Citoyen du Net

2025-03-22

Ce texte satirique détaille les mesures extrêmes prises par une startup d'IA pour obtenir des données d'entraînement. Ignorant robots.txt et falsifiant les user-agents, elle explore impitoyablement les formulaires, les dépôts Git et détourne même le wifi du voisin. Elle évite la mise en commun des connexions, refuse de fermer les connexions et laisse tomber délibérément des paquets, tout cela au nom de la vitesse et de l'acquisition de données. L'histoire souligne avec humour le mépris imprudent des règles et de l'éthique manifesté par certaines startups d'IA dans leur quête du succès, entraînant finalement des dommages à la réputation.

Lire plus
Startup