OmniAI OCRベンチマーク:LLM対従来のOCR
2025-02-23

OmniAIは、従来のOCRプロバイダーとビジョン言語モデル(VLM)の精度、コスト、レイテンシを比較するオープンソースのOCRベンチマークをリリースしました。1000件の実世界のドキュメントでテストした結果、Gemini 2.0などのVLMは、グラフ、手書き、複雑な入力フィールドを含むドキュメントにおいて、従来のOCRプロバイダーのほとんどを凌駕することが示されましたが、高密度テキストページでは従来のモデルの方が優れていました。ただし、VLMはコストが高く、処理速度が遅いという欠点があります。この継続的なベンチマークは、公平性と代表性を確保するために、定期的に新しいデータセットで更新されます。
AI