Marginalia Suchindex: Eine signifikante Leistungssteigerung

2025-08-17

Die Marginalia-Suchmaschine hat eine umfassende Überarbeitung ihres Index erhalten, um moderne Hardware besser zu nutzen. Durch den Einsatz von speicherabgebildeten B-Bäumen und deterministischen blockbasierten Skip-Lists sowie die Feinabstimmung von Blockgrößen und E/A-Strategien wurde die Suchgeschwindigkeit drastisch verbessert. Der Beitrag beschreibt detailliert die neuen Datenstrukturen und Leistungsoptimierungen und untersucht die Eigenheiten der Leseperformance von NVMe-SSDs sowie die Maximierung der Leistung durch Anpassungen der Blockgröße und des E/A-Modus.

Mehr lesen
Entwicklung

Marginalia: Verbesserte Erkennung von Änderungen und Online-Status

2025-06-19

Das Team der Marginalia-Suchmaschine hat ein neues System namens 'ping-process' implementiert, um den Online-Status des Servers und signifikante Änderungen an der Website zu erkennen, einschließlich Eigentümerwechsel und Domain-Parking. Es verwendet hauptsächlich HTTP HEAD-Anfragen und DNS-Abfragen, um Zertifikatdetails, Sicherheitslage und Server-Header zu analysieren und Änderungen zu identifizieren. Die Daten werden in 'Snapshot'- und 'Ereignis'-Tabellen gespeichert, wobei die erste die aktuellen Informationen und die zweite die historischen Ereignisse enthält. Das System hat Herausforderungen bei der Planung und der Zertifikatvalidierung gemeistert und zeigt erste Erfolge bei der Identifizierung geparkter Domains. Zukünftige Pläne umfassen die Verfeinerung des Modells zur Erkennung von Eigentümerwechseln und die Integration in Crawler-Strategien für mehr Effizienz.

Mehr lesen

KI-Überlastung: Ein Tag in der dystopischen Zukunft?

2025-05-23

Von einem KI-Wecker über ein Fitnessstudio mit übermäßigen Sicherheitsmaßnahmen bis hin zu einem Auto, das ständig seine Funktionen anpreist, wird der Tag des Protagonisten von allgegenwärtiger KI dominiert. Diese scheinbar bequeme Zukunft ist voller erdrückender Unannehmlichkeiten und Datenschutzverletzungen, was zu Überlegungen über die Überentwicklung der KI-Technologie und den Mangel an menschlicher Interaktion führt.

Mehr lesen
Technologie

Suchmaschine fügt PDF-Indexierung hinzu: Herausforderungen bei der Textextraktion meistern

2025-05-13

Die Suchmaschine hat kürzlich die Fähigkeit zur Indexierung von PDF-Dateien erhalten, eine Leistung, die komplexer ist als es scheint. PDFs sind nicht textbasiert, sondern grafisch und stellen Text als Glyphenkoordinaten dar, die gedreht, überlappend oder ungeordnet sein können. Dieser Artikel beschreibt Verbesserungen an der PDFTextStripper-Klasse von PDFBox. Durch die statistische Analyse von Schriftgrößen und Zeilenabständen werden semantische Informationen wie Überschriften und Absätze effizienter identifiziert. Dies verbessert die Genauigkeit und Eignung der PDF-Textextraktion und ermöglicht eine effektive Indexierung von PDF-Inhalten.

Mehr lesen
Entwicklung PDF-Indexierung

Suchmaschinen-Crawler-Optimierung: Der lange Schwanz der 0,1%

2025-03-27

Der Crawler einer Suchmaschine hatte immer Probleme, seine Aufgabe zu beenden und verbrachte Tage mit den letzten Domains. Die kürzlich erfolgte Migration zu reduzierten Crawldaten reduzierte den Speicherbedarf um 80 %, wodurch die Anzahl der Crawlaufgaben erhöht wurde. Dies führte zu einer Fertigstellung von 99,9 % in 4 Tagen, aber die restlichen 0,1 % dauerten eine Woche. Das Problem liegt in der Größe der Websites, die einer Pareto-Verteilung folgt, wobei große Websites (insbesondere akademische Websites mit zahlreichen Subdomains und Dokumenten) und Crawler-Limits für gleichzeitige Aufgaben pro Domain eine Rolle spielen. Die anfängliche zufällige Reihenfolge führte dazu, dass große Websites spät gestartet wurden. Das Sortieren nach der Anzahl der Subdomains führte zu einem Anstieg der Anfragen an Blog-Hosts. Das Hinzufügen von Jitter zur Verzögerung zwischen den Anfragen und das Anpassen der Sortierreihenfolge, um Websites mit mehr als 8 Subdomains zu priorisieren, haben das Problem teilweise gelöst. Die inhärenten Einschränkungen des batchorientierten Crawler-Modells erfordern jedoch weitere Optimierungen.

Mehr lesen

Leitfaden für KI-Startups: Werden Sie ein schlechterer Internetbürger

2025-03-22

Dieser satirische Text beschreibt die extremen Maßnahmen, die ein KI-Startup ergreift, um Trainingsdaten zu erhalten. Unter Missachtung von robots.txt und Fälschung von User-Agents crawlen sie rücksichtslos Formulare, Git-Repositories und kapern sogar das WLAN des Nachbarn. Sie vermeiden Connection Pooling, verweigern das Schließen von Verbindungen und lassen absichtlich Pakete fallen – alles im Namen von Geschwindigkeit und Datenbeschaffung. Die Geschichte hebt humorvoll die rücksichtslose Missachtung von Regeln und Ethik hervor, die einige KI-Startups in ihrem Streben nach Erfolg an den Tag legen, was letztendlich zu Reputationsschäden führt.

Mehr lesen
Startup