アンドリュー・ンによる新しい文書抽出サービス:精度に関する課題

2025-02-28
アンドリュー・ンによる新しい文書抽出サービス:精度に関する課題

アンドリュー・ンが新たにリリースした文書抽出サービスがXで話題になっていますが、Pulse社のテストでは複雑な財務諸表の処理において深刻な問題が発見されました。具体的には、50%を超える幻覚値、負符号や通貨記号の欠落などが挙げられます。この記事では、金融など正確なデータに依存する業界において、このようなエラーは壊滅的な結果をもたらす可能性があると主張しています。Pulse社のソリューションは、従来のコンピュータビジョンアルゴリズムと独自のテーブルトランスフォーマーモデルを組み合わせることで、高い精度と低遅延を実現し、LLMモデルが文書抽出において抱える非決定性、空間認識の不足、処理速度の遅さといった問題を解決しています。

続きを読む

LLMによる複雑なOCRの失敗:大規模言語モデルがPDFで苦戦する理由

2025-02-07
LLMによる複雑なOCRの失敗:大規模言語モデルがPDFで苦戦する理由

スプレッドシートやPDFからデータ抽出を目指しているPulse社は、OCRに大規模言語モデル(LLM)を用いる際の重大な限界を発見しました。LLMはテキスト生成や要約には優れていますが、複雑なPDFや表を扱うと著しく性能が低下します。LLMの確率的な性質と抽象的な画像処理により、幻覚、データ消失、誤解釈といった問題が発生し、特に金融や医療データでは大きなリスクとなります。さらに、LLMはプロンプトインジェクション攻撃にも脆弱であり、セキュリティと倫理的な懸念が生じます。Pulse社は最終的にOCRへのLLMの使用を断念し、従来のコンピュータビジョンアルゴリズムとビジョン・トランスフォーマーを統合したカスタムソリューションを開発中です。

続きを読む