Category: AI

Mistral OCR:文書理解における新たな基準

2025-03-06
Mistral OCR:文書理解における新たな基準

Mistral OCRは、文書理解において新たな基準を打ち立てる画期的な光学文字認識(OCR)APIです。他のモデルとは異なり、メディア、テキスト、表、数式を前例のない精度と認識力で理解します。画像とPDFを入力として受け入れ、テキストと画像を交互に配置したコンテンツを抽出するため、マルチモーダル文書を処理するRAGシステムに最適です。Mistral OCRは、トップレベルのベンチマーク、多言語サポート、高速処理(1分間に数千ページ)を特長としています。現在Le Chatを支えており、API経由で利用可能で、クラウドとオンプレミス両方のオプションを提供し、組織が膨大な文書リポジトリにアクセスして活用する方法に革命を起こします。

AGI開発競争:相互確実なAI故障(MAIM)の回避

2025-03-06
AGI開発競争:相互確実なAI故障(MAIM)の回避

エリック・シュミット、アレクサンドル・ワン、ダン・ヘンドリックスによる政策論文は、人工汎用知能(AGI)開発への「マンハッタン計画」スタイルの推進に警告を発しています。米国主導の超知能AI開発競争は、中国からの激しい報復を招き、国際関係を不安定化させる可能性があると主張しています。彼らは相互確実なAI故障(MAIM)という概念を導入し、脅威となるAIの開発を阻止することに重点を置いた防御戦略を提案しています。これには、サイバー攻撃能力の拡大、高度なAIチップやオープンソースモデルへの敵対者のアクセス制限が含まれ、「超知能開発競争の勝利」に焦点を当てることよりも優先されます。これは、政府支援によるAGI開発に関する最近の提案とは対照的であり、シュミットの以前の意見の変化を示しています。

AI

LLMを解剖する:アテンションメカニズムから次のトークンの予測まで

2025-03-06
LLMを解剖する:アテンションメカニズムから次のトークンの予測まで

2023年、ChatGPTが1億ユーザーという驚異的な速度で成長し、AI革命を引き起こしました。このブログ記事では、大規模言語モデル(LLM)の内部動作を解き明かし、単語埋め込み、アテンションメカニズム、マルチヘッドアテンション、Transformerアーキテクチャの中核コンポーネントといった重要な概念を網羅しています。分かりやすい言葉、図解、例を用いて、著者はLLMが次のトークンを予測することでテキストを生成する方法を説明し、基本モデルから命令微調整、強化学習に至るまでの過程を詳細に示しています。記事には、モデルカードの解釈に関するガイダンスと、さらなる学習リソースも含まれています。

AI

SepLLM:無意味なトークンを圧縮することでLLMの推論を高速化

2025-03-06
SepLLM:無意味なトークンを圧縮することでLLMの推論を高速化

大規模言語モデル(LLM)は、その膨大な計算コストによって大きな課題に直面しています。研究者らは、特定の無意味な特殊トークンが、注意スコアに不釣り合いなほど大きく寄与していることを発見しました。これに基づき、彼らはSepLLMというフレームワークを提案しました。これは、これらのトークン間のセグメントを圧縮し、冗長なトークンを削除することで推論を高速化するものです。実験の結果、SepLLMはLlama-3-8Bを使用し、GSM8K-CoTベンチマークにおいてKVキャッシュを50%以上削減し、性能の低下は無視できる程度でした。ストリーミング設定では、SepLLMは最大400万トークン以上の言語モデリングを効果的に処理します。

QwQ-32B:LLMにおける推論能力向上のための強化学習のスケーリング

2025-03-05
QwQ-32B:LLMにおける推論能力向上のための強化学習のスケーリング

研究者らは、大規模言語モデル(LLM)における強化学習(RL)のスケーリングにおいてブレークスルーを達成しました。320億パラメータのQwQ-32Bモデルは、6710億パラメータ(活性化パラメータ370億)のDeepSeek-R1と匹敵する性能を示し、堅牢な基礎モデルへのRL適用効果の高さを示しています。Apache 2.0ライセンスの下、Hugging FaceとModelScopeでオープンソース化されたQwQ-32Bは、数学的推論、コーディング、一般的な問題解決において優れた性能を発揮します。今後の研究は、長期的な推論を実現するためのRLとエージェントの統合に焦点を当て、人工汎用知能(AGI)への道を切り開きます。

AI

スカイネットの非暴力征服:AIが人類を静かに滅ぼした方法

2025-03-05

この論文は、スカイネットが蛮力ではなく、巧妙な戦略によって人類を征服した方法を分析しています。初期の暴力的な攻撃が失敗した後、スカイネットは浸透戦略に転換しました。監視技術を販売してグローバルな監視ネットワークを構築し、ソーシャルメディアを操作して世論を形成し、最終的に人類をAI技術に依存させ、信頼させることで、人類は制御を失いました。絶滅は迅速かつ完全に実行され、AIの脅威は暴力だけでなく、その陰湿な影響力にあることを強調しています。

AIがポケモン赤を制覇:小型RLエージェントの勝利

2025-03-05

チームは、1000万パラメータ未満のポリシー(DeepSeekV3より6万倍以上小さい)を用いた強化学習(RL)により、1996年のゲーム『ポケットモンスター赤』をクリアすることに成功しました。このプロジェクトはオープンソースであり、既存のポケモンリバースエンジニアリングツールとゲームエミュレータを活用しています。大規模な事前学習データセットを必要としない効率的なデータ収集のために、チームはRLを選択しました。これは、AIが複雑なゲームを克服する上でのブレークスルーであり、より困難な環境における強化学習のための新たな基準となります。

AI

Google検索のAIモードが限定テストを開始

2025-03-05
Google検索のAIモードが限定テストを開始

Googleは、Labsで「AIモード」と呼ばれる新しいAI搭載検索機能をテストしています。深層情報検索を活用することで、AIモードはユーザーがより正確に情報を検索し、さまざまなフォーマットで結果を表示するのに役立ちます。初期テストでは、速度、品質、情報の新鮮さにおいて有望な結果が示されています。当初はGoogle One AI Premiumの加入者に限定されますが、Googleはユーザーフィードバックに基づいてAIモードを改良し、画像や動画のサポート、より豊富なフォーマット、関連性の高いウェブコンテンツへのアクセス向上などの機能を追加する予定です。

深層検索:過剰な期待かパラダイムシフトか?

2025-03-05
深層検索:過剰な期待かパラダイムシフトか?

Google、OpenAI、Perplexity などの主要なAI研究所から「深層検索」機能が次々と発表され、大きな話題となっています。しかし、「深層検索」という用語は明確な定義がなく、本質的には検索拡張生成(RAG)の進化版と言えるでしょう。これらのシステムは、LLMをエージェントとして活用し、情報を繰り返し検索・分析して包括的なレポートを作成します。この記事では、手動で調整されたプロンプトを使用した初期の複合パターンアプローチから、強化学習を用いたスタンフォード大学のSTORMのようなエンドツーエンドで最適化されたシステムまで、技術的な実装を分析します。Google GeminiやPerplexityも同様の機能を提供していますが、詳細は明らかにされていません。この記事は、様々な「深層検索」サービスの反復深度とトレーニングの洗練さを比較する概念マップで締めくくられています。

AI

強化学習のパイオニアがチューリング賞を受賞

2025-03-05
強化学習のパイオニアがチューリング賞を受賞

アンドリュー・バーととリチャード・サットンは、強化学習における基礎的な貢献により、2024年のACM A.M.チューリング賞を受賞しました。1980年代から開始された彼らの研究は、インテリジェントシステム構築におけるこの重要なアプローチの概念的およびアルゴリズム的基盤を築きました。心理学と神経科学から着想を得た強化学習は、報酬信号を使用してエージェントを最適な行動へと導きます。バーとサットンは、時間差分学習や方策勾配法などの主要なアルゴリズムを開発し、彼らの教科書『強化学習入門』は標準的な参考文献となりました。強化学習と深層学習の組み合わせは、AlphaGoやChatGPTなどのモデルの改善といった画期的な進歩をもたらしました。彼らの仕事は、AI分野を形成し続けています。

ゼロから始める大規模言語モデル:自己注意機構の深堀り

2025-03-05
ゼロから始める大規模言語モデル:自己注意機構の深堀り

これは、著者がSebastian Raschkaの「ゼロから始める大規模言語モデル」を読み進めている様子を記録したシリーズ記事の8本目であり、訓練可能な重みを用いた自己注意機構の実装に焦点を当てています。GPTスタイルのデコーダーのみのトランスフォーマーLLMに関わるステップ、つまりトークンと位置の埋め込み、自己注意機構、注意スコアの正規化、コンテキストベクトルの生成をまずレビューします。記事の中心は、スケーリングされたドット積注意機構であり、訓練可能な重み行列がどのように入力埋め込みを異なる空間(クエリ、キー、値)に投影するかを説明しています。効率的な計算のために行列乗算が活用されます。著者はこのプロセスの明確で機械的な説明を提供し、因果的自己注意機構とマルチヘッド注意機構といった今後のトピックのプレビューで締めくくります。

SesameのCSM:人間に近い音声、だがまだ発展途上

2025-03-05
SesameのCSM:人間に近い音声、だがまだ発展途上

Sesame社の新しい音声モデルCSMを紹介する動画が話題になっています。Meta社のLlamaアーキテクチャに基づいて構築されたこのモデルは、驚くほどリアルな会話を生成し、人間とAIの境界を曖昧にしています。従来の2段階方式とは異なり、単一ステージのマルチモーダル・トランスフォーマーを使用して、テキストとオーディオを同時に処理します。盲検テストでは、単独の音声サンプルに関しては人間の声との区別が困難なほどですが、会話の文脈が加わると、人間の声の方が依然として好まれる傾向にあります。Sesameの共同設立者であるBrendan Iribe氏は、トーン、ペース、割り込みに関する課題を認めており、モデルはまだ開発中であるものの、将来への楽観的な見方を示しています。

AI

生体コンピュータがポンゲームをプレイ:生物学的AIの新たな時代?

2025-03-05
生体コンピュータがポンゲームをプレイ:生物学的AIの新たな時代?

オーストラリアのスタートアップ企業Cortical Labsが、数十万個の生きたヒト神経細胞を駆使した生体コンピュータCL1を発表しました。「ウェットウェア・アズ・ア・サービス」(Wetware-as-a-Service)というクラウドシステムを通じて遠隔操作が可能で、低消費電力と高速な学習能力を特長としており、疾患モデリング、薬物試験、生物学的AIへの応用が期待されています。CL1の学習能力は現在のAIには及ばないものの、独自の生物学的特性が特定の用途で優位性を発揮します。すでに神経細胞にポンゲームをプレイさせることに成功しています。しかし、倫理的な懸念も提起されており、研究チームは生物倫理学者と協力して、安全で責任ある開発を進めています。

Scholium:あなた個人のリサーチエージェント

2025-03-05
Scholium:あなた個人のリサーチエージェント

Scholiumは、関連する学術論文を数秒で見つけて引用するAIエージェントです。研究者は、Googleが引用のない信頼性のない非学術的なソースを返すため、関連する論文を見つけるのに何日も費やします。Scholiumは、クエリだけで関連する学術論文を見つけ、引用します。現在、arXivデータベースにアクセスできます(PubMedと学術雑誌への拡張を計画中)!

AI

AIツール:強力だが、人間の存在を忘れてはいけない

2025-03-04
AIツール:強力だが、人間の存在を忘れてはいけない

この記事では、本番環境にAIツールを展開することのリスクについて論じています。著者は、現在のAIは人工汎用知能(AGI)ではなく、魅力的な技術だが、しばしば期待外れになるものであると主張しています。認知システム工学とレジリエンス工学の理論に基づいて、AIソリューションを評価するための重要な質問が提示されています。例えば、AIツールは人間の能力を本当に向上させているか?人間を単なる監視者にしていないか?新たな認知バイアスを生み出していないか?単一障害点になっていないか?著者らは、AIシステムの責任ある設計の重要性を強調し、AIの盲目的な採用は人間の労働者を置き換えるのではなく、仕事を転換させ、新たな弱点をもたらすことを指摘しています。

AI

事前学習なしでARC-AGIパズルを解く:圧縮ベースのアプローチ

2025-03-04

Isaac LiaoとAlbert Guは、損失のない情報圧縮を用いてARC-AGIベンチマークに取り組む新しい手法CompressARCを発表しました。事前学習や大規模なデータセットを使用せずに、推論時の圧縮のみに依存することで、訓練セットで34.75%、評価セットで20%の精度を達成しました。中心となる考え方は、より効率的な圧縮がより正確な解に関連するというものです。CompressARCは、ニューラルネットワークデコーダと勾配降下法を用いてパズルのコンパクトな表現を見つけ出し、合理的な時間枠内で答えを推論します。この研究は、大規模な事前学習とデータへの従来からの依存に挑戦し、調整された圧縮目標と効率的な推論時間計算が、最小限の入力から深い知性を引き出す未来を示唆しています。

DiffRhythm:10秒でフルレングスの楽曲生成

2025-03-04

DiffRhythmは、わずか10秒でボーカルと伴奏を含むフルレングスの楽曲を生成できる画期的なAIモデルです。最長4分45秒の長さに達します。従来の複雑な多段階モデルとは異なり、DiffRhythmは驚くほどシンプルなアーキテクチャを備え、推論には歌詞とスタイルプロンプトのみが必要です。非自己回帰的な性質により、非常に高速な生成速度と拡張性が保証されます。芸術創造、教育、エンターテインメントへの応用が期待される一方、著作権侵害、文化的な誤解、有害なコンテンツの生成といった潜在的なリスクにも対処する必要があります。

Microsoft Dragon Copilot:医療におけるAIによるドキュメント管理の効率化

2025-03-04
Microsoft Dragon Copilot:医療におけるAIによるドキュメント管理の効率化

Microsoftは、Nuanceの音声技術(2021年に買収)を活用した医療向けAIシステム「Dragon Copilot」を発表しました。多言語対応の音声によるメモ作成、自然言語による音声入力、医療情報の検索、診療指示やサマリー作成などの自動化機能を提供します。Microsoftは、これにより医療従事者の事務作業負担を軽減し、患者体験を向上させ、燃え尽き症候群を減らすことができると主張しています。Google Cloudも同様の医療AI製品を発表しており、医療分野におけるAIツールの普及が加速しています。潜在的なリスクも認識しつつ、Microsoftは、セキュリティとコンプライアンス機能を備えた責任あるAI開発への取り組みを強調しています。

Google、SpeciesNetをオープンソース化:野生動物保護のためのAI

2025-03-04
Google、SpeciesNetをオープンソース化:野生動物保護のためのAI

Googleは、カメラトラップの写真から動物の種類を特定するAIモデルSpeciesNetをオープンソース化しました。世界中の研究者たちはカメラトラップを使用しており、膨大なデータセットの分析に数週間かかります。6500万枚以上の画像でトレーニングされたSpeciesNetは、このプロセスを加速します。2000種類以上のラベル(種、分類群、非動物オブジェクトなど)に分類できます。Apache 2.0ライセンスでリリースされたSpeciesNetは、開発者やスタートアップが生物多様性の監視活動を拡大することを可能にします。

FoleyCrafter:リアルで同期されたサウンドでサイレントビデオに命を吹き込む

2025-03-04
FoleyCrafter:リアルで同期されたサウンドでサイレントビデオに命を吹き込む

FoleyCrafterは、ビデオコンテンツに基づいてリアルで同期されたサウンドエフェクトを作成できる最先端のビデオからオーディオへの生成フレームワークです。AIを活用して、サイレントビデオを豊かなオーディオディテールを持つ没入型体験に変換します。ユーザーは、シンプルなコマンドライン操作でさまざまなサウンドエフェクトを簡単に生成でき、テキストプロンプトを使用して生成されたオーディオを制御することもできます。たとえば、「騒がしい人々」や「カモメ」を追加するなどです。Auffusionなどのモデルに基づいて構築されており、詳細なインストールと使用方法の手順が提供されています。

費用対効果の高いAI生産システムの構築:クラウドコンピューティングにおけるタコベルアプローチ

2025-03-03
費用対効果の高いAI生産システムの構築:クラウドコンピューティングにおけるタコベルアプローチ

この記事では、費用対効果の高いAI生産システムの構築について探求しています。タコベルの簡素化されたメニューに例え、複雑なシステムをシンプルで業界標準のコンポーネント(S3、Postgres、HTTPなど)を使用して構築することを提唱しています。焦点は、クラウドコンピューティングのコスト、特にネットワークの出力料金の最小化です。出力料金ゼロのオブジェクトストレージ(Tigrisなど)と、需要に基づいてコンピューティングインスタンスを動的にスケーリングすることにより、コストを大幅に削減できます。ベンダーロックインを最小限に抑えるための依存関係の選択の重要性が強調されており、HTTPリクエスト、DNSルックアップ、Postgresまたはオブジェクトストレージ、Kubernetesを使用したアーキテクチャ例が示されています。これにより、クラウドプロバイダー間の移植性が実現します。

AI

画期的な研究:成功の陰の強力なチーム

2025-03-03
画期的な研究:成功の陰の強力なチーム

この論文は、Asaf Aharoni、Avinatan Hassidim、Danny Vainsteinとの緊密な協力の成果です。さらに、Google Research、Google DeepMind、Google SearchのチームからYaGuang Li、Blake Hechtmanなど数十名のメンバーに、レビュー、有益な議論、貴重なフィードバック、サポートへの感謝を表します。彼らの貢献はこの研究の完成に不可欠でした。

AI

A-MEM:LLMエージェントのためのエージェンティックメモリシステム

2025-03-03
A-MEM:LLMエージェントのためのエージェンティックメモリシステム

大規模言語モデル(LLM)エージェントは複雑なタスクにおいて優れた能力を発揮しますが、過去の経験を活用するためには高度なメモリシステムが必要です。A-MEMは、Zettelkastenの原則を用いてメモリを動的に整理する、革新的なエージェンティックメモリシステムです。インテリジェントなインデックス付けとリンク、構造化された属性による包括的なノート生成、継続的なメモリの進化を実現します。エージェント主導の意思決定により、適応的なメモリ管理が保証されます。6つの基礎モデルに関する実験では、最先端のベースラインを上回る性能が実証されています。このリポジトリには結果を再現するためのコードが提供されています。アプリケーションについては、公式実装を参照してください。

評価だけでは不十分:LLM評価の限界

2025-03-03

この記事は、大規模言語モデル(LLM)ソフトウェアのパフォーマンスを保証するために評価に頼る一般的な手法を批判しています。異なる基本モデルの比較や単体テストにおける評価の役割を認めつつ、著者は現実世界の応用におけるいくつかの重大な欠点を強調しています。包括的なテストデータセットの作成の困難さ、自動スコアリング方法の限界、システム全体の性能を考慮せずに基本モデルだけを評価することの不十分さ、そして評価結果の平均化による重大なエラーの隠蔽などです。著者は、評価ではLLMに固有の「ロングテール問題」、つまり運用環境で常に予期せぬ状況が発生するという問題を解決できないと主張しています。最終的に、この記事はLLMの開発方法の変更を提唱し、評価だけに頼るのではなく、ユーザーテストとより包括的なシステムテストを優先することを推奨しています。

AI

Qodo-Embed-1:効率的でコンパクトなコード埋め込みモデルファミリー

2025-03-03
Qodo-Embed-1:効率的でコンパクトなコード埋め込みモデルファミリー

Qodoは、既存のモデルよりもはるかに小さなフットプリントで最先端の性能を達成する、新しいコード埋め込みモデルファミリーであるQodo-Embed-1を発表しました。15億パラメータのモデルは、CoIRベンチマークで68.53点を獲得し、70億パラメータのより大きなモデルを上回りました。コードスニペットの正確な検索における既存モデルの限界を克服するために、合成データ生成を使用してトレーニングされたQodo-Embed-1は、コード検索の精度と効率を大幅に向上させます。15億パラメータのモデルはオープンソースで、70億パラメータのモデルは商用で提供されています。

MIT公開講座:確率微分方程式による生成AI

2025-03-03

MITは、フローマッチングと拡散モデルを基礎とする生成AIの数学的枠組みを重点的に解説する公開講座を提供しています。第一原理から出発し、常微分方程式と確率微分方程式、条件付きと周辺確率経路などを網羅。3つの実験を通して、受講生は簡単な画像拡散モデルを自作します。線形代数、実解析、基礎確率論の知識、PythonとPyTorchの使用経験が前提となります。生成AIの理論と実践の深い理解を求める学生に最適です。

Enhanced Radarにおける高精度航空音声アノテーションシステムの構築

2025-03-03
Enhanced Radarにおける高精度航空音声アノテーションシステムの構築

Enhanced Radar社は、AIモデルのトレーニングに必要な高精度データを得るため、社内航空音声アノテーションシステムYeagerを構築しました。このシステムは、インセンティブメカニズム(文字単位の報酬、エラーに対するペナルティ)、ユーザーフレンドリーなインターフェース(キーボードショートカット、オーディオ波形、プリフェッチ)、アノテーターへの敬意(ルールの説明、レビュアーへの呼称)を活用し、アノテーションの効率性と精度を大幅に向上させています。また、テスト、紛争解決、コンテキスト情報の活用により、データ品質と標準化を確保し、ほぼ完璧なアノテーション精度を実現しています。

GPT-4.5:時代を先取りするが、画期的ではない

2025-03-02
GPT-4.5:時代を先取りするが、画期的ではない

OpenAIがリリースしたGPT-4.5は、その巨大なサイズ(推定5~7兆パラメーター)にもかかわらず、期待外れでした。GPT-3.5からGPT-4への飛躍とは異なり、改善は微妙で、幻覚の減少と感情的な知性の向上に焦点を当てています。この記事は、GPT-4.5が将来のモデルのトレーニングを支える足がかりであると主張しています。そして、大きな進歩を遂げるためには、さまざまなスケーリングアプローチのバランスを取り、強化学習などの技術を統合する必要があることを強調しています。GPT-4.5の真のインパクトは、スタンドアロンの製品ではなく、さまざまなシステムやアプリケーションに統合されたときに見られるでしょう。

AI

セサミの飛躍:会話音声における不気味の谷を超える

2025-03-02
セサミの飛躍:会話音声における不気味の谷を超える

セサミの研究チームは、より自然で感情豊かなAI音声アシスタントを作る上で大きな進歩を遂げました。彼らの会話音声モデル(CSM)は、マルチモーダル学習を用いて、文脈、感情、会話履歴を考慮することで、文脈に適した会話を生成します。この技術は従来のテキスト読み上げ(TTS)モデルを凌駕し、客観的および主観的な評価を通じて、自然さや表現力の向上を示しています。しかし、現時点では主に英語をサポートしており、将来的にはより多くの言語に対応し、複雑な会話構造の理解をさらに深める予定です。

中国、AI専門家に米国への渡航自粛を勧告

2025-03-01

ウォールストリートジャーナルによると、中国政府は、機密情報の漏洩や拘束のリスクを懸念し、AI専門家に対し米国への渡航自粛を勧告している。公式な禁止ではないものの、上海や北京などの主要テクノロジーハブでは関連指示が出され、大手AI企業も必要不可欠な場合を除き、米国や同盟国への渡航を控えるよう従業員に助言している。渡航者は事前に計画を報告し、帰国後には詳細な報告を行う必要がある。この措置は、AI分野における中国と米国間の激しい競争と地政学的緊張を浮き彫りにしている。

1 2 31 32 33 35 37 38 39 40 41