LLMのOCRとデータ抽出のためのオープンソースベンチマーク
2025-04-01
Omniは、gpt-4oなどの様々な大規模マルチモーダルモデルのOCRとデータ抽出能力を比較するオープンソースのベンチマークツールです。テキストとJSONの抽出精度を評価します。このベンチマークは、従来のOCRプロバイダーとLLM全体におけるOCR精度の包括的な評価を提供します。データセットと方法はオープンソースであり、貢献と拡張を促進します。ベンチマークはJSON抽出に焦点を当て、Document ⇒ OCR ⇒ Extractionという全パイプラインの精度を測定します。JSONの精度には修正されたjson-diff、テキストの類似性にはLevenshtein距離を使用します。OpenAI、Google Gemini、Anthropicなど、様々なモデルをサポートし、シンプルなコマンドラインインターフェースとJSON出力で利用できます。
開発