Marginalia検索インデックス:大幅なパフォーマンス向上

2025-08-17

Marginalia検索エンジンは、最新のハードウェアをより効果的に活用するために、インデックスを大幅に再設計しました。メモリマップドBツリーと決定論的ブロックベーススキップリストを使用し、ブロックサイズとI/O戦略を慎重に調整することで、検索速度が劇的に向上しました。この記事では、新しいデータ構造とパフォーマンス最適化について詳細に説明し、NVMe SSDの読み取りパフォーマンスの特性と、ブロックサイズとI/Oモードの調整によるパフォーマンスの最大化について探ります。

続きを読む
開発

Marginalia検索エンジン:オンライン状態と所有権変更検出の改良

2025-06-19

Marginalia検索エンジンチームは、サーバーのオンライン状態と、所有権移転やドメインパーキングを含む重要なウェブサイトの変更を検出するための新しいシステム「ping-process」を実装しました。主にHTTP HEADリクエストとDNSクエリを使用して、証明書の詳細、セキュリティ体制、サーバーヘッダーを分析し、変更を特定します。データは「スナップショット」テーブルと「イベント」テーブルに保存され、前者は現在の情報を、後者は履歴イベントを保持します。このシステムは、スケジューリングと証明書検証の課題を克服し、パーキングされたドメインの特定において初期の成功を収めています。今後の計画には、所有権変更検出モデルの改良と、効率向上のためのクローラー戦略への統合が含まれます。

続きを読む

AI過剰:ディストピア的未来の一日?

2025-05-23

AIアラームからセキュリティ対策の行き過ぎたジム、そして常に機能を誇る車まで、主人公の一日は遍在するAIに圧倒されている。一見便利なこの未来は、息苦しい煩わしさやプライバシー侵害に満ちており、AI技術の過剰開発と人間関係の欠如について省みるきっかけとなる。

続きを読む
テクノロジー

検索エンジンがPDFインデックスを追加:テキスト抽出の課題を克服

2025-05-13

検索エンジンは最近、PDFファイルのインデックス作成機能を獲得しました。これは、見た目ほど単純ではありません。PDFはテキストベースではなく、グラフィックベースであり、テキストは回転、重複、または無秩序なグリフ座標として表現されます。この記事では、PDFBoxのPDFTextStripperクラスの改良について詳しく説明します。フォントサイズと行間隔の統計的分析により、見出しや段落などのセマンティック情報をより効果的に識別します。これにより、PDFテキスト抽出の精度と適合性が向上し、PDFコンテンツの効率的なインデックス作成が可能になります。

続きを読む

検索エンジンクローラーの最適化:0.1%の長い尾

2025-03-27

検索エンジンのクローラーは、タスクの完了に常に苦労しており、最後のドメインに数日費やしていました。最近の縮小されたクロールデータへの移行により、メモリ使用量が80%削減され、クロールタスクの数が増加しました。これにより、4日間で99.9%の完了が達成されましたが、残りの0.1%には1週間かかりました。この問題は、ウェブサイトのサイズがパレート分布に従っており、大規模なウェブサイト(特に多数のサブドメインとドキュメントを持つ学術的なウェブサイト)と、ドメインごとの同時タスクに対するクローラーの制限が原因です。初期のランダムな順序付けにより、大規模なウェブサイトが遅れて開始されました。サブドメインの数によるソートは、ブログホストへの要求の急増につながりました。要求間の遅延にジッターを追加し、8つ以上のサブドメインを持つウェブサイトを優先するようにソート順序を調整することにより、問題が部分的に解決されました。しかし、バッチ指向のクロールモデルの固有の制限により、さらなる最適化が必要です。

続きを読む

Marginalia検索プロジェクトが2回目のNLNet助成金を受領

2025-03-25

Marginalia検索プロジェクトは、NLNetから2回目の助成金を受けました!この資金は、2025年のプロジェクトロードマップの大部分を支援します。2023年夏からフルタイム開発が行われており、今回の助成金により、開発時間をさらに確保し、プロジェクトのタイムラインを大幅に延長できます。詳細については後日発表します。

続きを読む

AIスタートアップガイド:より悪いネット市民になる方法

2025-03-22

この風刺的な文章は、AIスタートアップがトレーニングデータを入手するために取る極端な手段を詳細に説明しています。robots.txtを無視し、ユーザーエージェントを偽造して、フォーム、Gitリポジトリ、さらには隣人のWi-Fiを容赦なくクロールします。接続プールを使用せず、接続を閉じず、意図的にパケットをドロップします。すべては速度とデータ取得のためです。この文章は、成功を追求する一部のAIスタートアップが示す、規則と倫理に対する無謀な無視をユーモラスに強調し、最終的には評判の損害につながることを示しています。

続きを読む
スタートアップ