Category: AI

DatabricksのTAO:ラベルなしデータでファインチューニングを凌駕

2025-03-26
DatabricksのTAO:ラベルなしデータでファインチューニングを凌駕

Databricksは、ラベルなしの利用データのみを必要とする新しいモデルチューニング手法、TAO(Test-time Adaptive Optimization)を発表しました。従来のファインチューニングとは異なり、TAOはテスト時計算と強化学習を活用して、過去の入力例に基づいてモデルのパフォーマンスを向上させます。驚くべきことに、TAOは従来のファインチューニングを上回り、Llamaなどのオープンソースモデルを、GPT-4などの高価な独自モデルと同等の品質にまで高めます。この画期的な技術は、Databricksのお客様向けにプレビュー版として提供され、今後の製品にも搭載される予定です。

モデルコンテキストプロトコル(MCP):AIのためのUSB-C

2025-03-26

モデルコンテキストプロトコル(MCP)は、アプリケーションがLLMにコンテキストを提供する方法を標準化するオープンなプロトコルです。AIのためのUSB-Cポートと考えてください。様々なデータソースやツールにAIモデルを接続します。Agents SDKはMCPをサポートしており、様々なMCPサーバーを使用して、Agentにツールを提供できます。MCPサーバーには、stdioサーバー(ローカル)とHTTP over SSEサーバー(リモート)の2種類があります。ツールのリストをキャッシュすることで、レイテンシを最小限に抑えることができます。完全な例はexamples/mcpディレクトリにあります。

AI

StarVector:Transformerベースの画像からSVGへのベクトル化モデル

2025-03-26

StarVectorは、Transformerベースの画像からSVGへのベクトル化モデルであり、8Bと1BパラメータのモデルがHugging Faceで公開されています。SVG-Benchベンチマークで最先端の結果を達成し、特にアイコン、ロゴ、技術図表のベクトル化に優れており、複雑なグラフィックの詳細な処理において優れた性能を示します。このモデルは、単純なアイコンから複雑なカラーイラストまで、幅広いベクターグラフィックスタイルを含む大規模なデータセットを使用してトレーニングされています。従来のベクトル化方法と比較して、StarVectorはよりクリーンで正確なSVGコードを生成し、画像の詳細と構造情報をより適切に保持します。

AIの予期せぬ革命:簡潔性が冗長性を凌駕する

2025-03-26
AIの予期せぬ革命:簡潔性が冗長性を凌駕する

大規模言語モデル(LLM)の普及は、当初、学校や企業において、書面での課題やプロフェッショナルなコミュニケーションの代替となることを恐れるパニックを引き起こしました。しかし、著者は、LLMの真の影響は、コミュニケーションとプログラミングの方法を革命的に変える可能性にあると主張しています。LLMは、冗長なビジネスメールや複雑なコードの背後にある単純さを明らかにし、簡潔なコミュニケーションへと私たちを駆り立てます。これは最終的にLLM自身の時代遅れにつながり、より効率的で簡素化されたビジネスコミュニケーションやプログラミング言語を生み出すでしょう。簡潔性へのこの変化は、世界を変えることを約束しています。

Dapr Agents:スケーラブルでレジリエントなAIエージェントシステムのためのフレームワーク

2025-03-26
Dapr Agents:スケーラブルでレジリエントなAIエージェントシステムのためのフレームワーク

Dapr Agentsは、大規模に動作する、本番環境対応のレジリエントなAIエージェントシステムを構築するための開発者向けフレームワークです。実績のあるDaprプロジェクト上に構築されており、開発者は大規模言語モデル(LLM)を使用して推論、行動、協調を行うAIエージェントを作成できます。組み込みの可観測性とステートフルなワークフロー実行により、複雑さに関係なく、エージェントワークフローが確実に正常に完了します。主な機能には、効率的な複数エージェントの実行、自動リトライメカニズム、Kubernetesネイティブなデプロイ、多様なデータソースの統合、安全な複数エージェント間の連携、プラットフォームの準備、費用対効果、ベンダーニュートラルなどが含まれます。

AI

Gemini 2.5 Pro:自分の限界を知るAI

2025-03-26
Gemini 2.5 Pro:自分の限界を知るAI

著者はGemini 2.5 Proに90年代の有名なシンセサイザーReBirth RB-338を再現させようとしました。驚くべきことに、Gemini 2.5 Proは不可能な試みをするのではなく、タスクの難易度を評価し、実行不可能であることを説明しました。これは強力な推論能力を示しています。最終的に、著者はAIと交渉し、簡素化されたが機能するシンセサイザーを作成しました。これは、AIが限界を理解し、合理的な判断を下せる方向に進んでいることを示しています。

AI

強化学習:AlphaGoからAlphaGo Zeroへ

2025-03-26

この記事では、強化学習(RL)の基本概念と古典的なアルゴリズムを分かりやすく解説しています。AlphaGoが人間の囲碁チャンピオンを破った物語から始まり、RLの中核となるアイデア、つまりエージェントが環境と相互作用することで、累積報酬を最大化する戦略を学習するという概念を説明します。MDP、ベルマン方程式、動的計画法、モンテカルロ法、TD学習(SARSA、Q学習、DQN)、方策勾配法(REINFORCE、Actor-Critic、A3C)、進化戦略などのコアな内容を詳細に解説し、AlphaGo Zeroを例に、RLの実際的な応用事例を示しています。

AI

Whisperの埋め込みが、驚くほど人間の脳活動と一致

2025-03-26
Whisperの埋め込みが、驚くほど人間の脳活動と一致

研究により、OpenAIのWhisper音声認識モデルと、自然な会話中の人の脳の神経活動との間に驚くべき一致が見つかりました。Whisperの埋め込みと、下前頭回(IFG)や上側頭回(STG)などの脳の領域における脳活動を比較することで、研究者たちは、発話中は言語の埋め込みが音声の埋め込みよりも先にピークに達し、理解中は逆になることを発見しました。これは、脳のメカニズムを考慮せずに開発されたWhisperが、言語処理の重要な側面を捉えていることを示唆しています。また、この発見は、脳の言語処理における「ソフト階層」についても明らかにしています。IFGのような高次領域は、意味や構文情報に優先順位を付けますが、低レベルの聴覚特徴も処理します。一方、STGのような低次領域は、音響的および音声的な処理を優先しますが、単語レベルの情報も捉えます。

AI

モデルコンテキストプロトコル(MCP):AIのUSB-Cモーメント?

2025-03-26
モデルコンテキストプロトコル(MCP):AIのUSB-Cモーメント?

2024年末にAnthropicによってリリースされたモデルコンテキストプロトコル(MCP)は、AIの世界に革命を起こしています。AI統合のUSB-Cのようなもので、ClaudeやChatGPTなどの大規模言語モデル(LLM)が、外部データソースやツール(Obsidian、Gmail、カレンダーなど)とシームレスに通信することを可能にします。何百万ものカスタム統合を必要としません。MCPは、ホスト、クライアント、サーバーの3層アーキテクチャを使用して、安全で信頼性の高いデータアクセスとアクショントリガーを実現し、開発を大幅に簡素化し、革新的なアプリケーションを生み出します。例としては、LLMを個人データベース、コードリポジトリ、さらにはリアルタイムの株価データに接続することが挙げられます。MCPのオープンソースの性質により、開発者コミュニティで話題となり、多くのAIアプリケーションに統合され、AIアプリケーションとのインタラクション方法に革命的な変化をもたらしています。

AI

GoogleのGemini 2.5:思考型AIモデルがトップに躍り出る

2025-03-25
GoogleのGemini 2.5:思考型AIモデルがトップに躍り出る

Googleは、これまでで最も知的なAIモデルであるGemini 2.5を発表しました。実験版である2.5 Proは、LMArenaでトップランクを獲得し、競合他社を大きく引き離しました。Gemini 2.5の主要な革新は「思考」能力です。応答する前に推論を行うことで、精度とパフォーマンスが向上します。この推論は、単純な分類や予測を超えたものであり、情報の分析、論理的結論の導出、コンテキストやニュアンスの理解、そして情報に基づいた意思決定が含まれます。強化学習や思考連鎖プロンプトを用いた以前の研究を基に、Gemini 2.5は改良されたベースモデルと高度な事後トレーニングを組み合わせています。Googleは、これらの思考能力を将来のすべてのモデルに統合する計画であり、これにより、より複雑なタスクに対処し、より洗練されたコンテキスト認識エージェントを駆動することが可能になります。

AI

Apple、Apple Mapsの画像データでAIモデルをトレーニング

2025-03-25
Apple、Apple Mapsの画像データでAIモデルをトレーニング

Appleは最近、ウェブサイトを更新し、2025年3月からApple Mapsの「ルックアラウンド」機能で収集された画像データと位置情報を用いて、AIモデルのトレーニングを行うことを明らかにしました。カメラ、センサー、iPhone/iPadを搭載した車両やバックパックによって収集されたデータは、顔とナンバープレートがぼかされています。Appleはぼかした画像のみを使用し、家のぼかしについても要望を受け付けると述べています。これは、写真アプリのクリーンアップツールや検索機能など、Apple製品やサービスにおけるAI機能の向上につながります。

AI

Google、Gemini 2.5を発表:AI推論における飛躍的進歩

2025-03-25
Google、Gemini 2.5を発表:AI推論における飛躍的進歩

Googleは、これまでで最も高度なAIモデルであるGemini 2.5を発表しました。実験的な2.5 Proバージョンは、様々なベンチマークでトップレベルのパフォーマンスを示し、LMArenaで1位を獲得しました。Gemini 2.5モデルは「思考型」モデルであり、応答前に推論を行うことで、精度と性能が向上しています。この推論能力は、単純な分類や予測を超え、情報分析、論理的結論、文脈やニュアンスの理解、そして情報に基づいた意思決定を包含します。強化学習や思考連鎖プロンプティングによる以前の研究に基づき、Gemini 2.5は大幅に改良されたベースモデルと高度なポストトレーニングを組み合わせることで、飛躍的な進歩を遂げています。Googleは今後、これらの思考能力をすべてのモデルに統合し、より複雑な問題に対処し、さらに高度なコンテキスト認識エージェントをサポートすることを計画しています。

AI

OpenAI CEOサム・アルトマン:思いがけないコンシューマーテックの巨人

2025-03-25
OpenAI CEOサム・アルトマン:思いがけないコンシューマーテックの巨人

このStratecheryのインタビューでは、OpenAIのCEOであるサム・アルトマンが、研究機関からコンシューマーテックの巨人へと成長したOpenAIの道のり、そしてChatGPTの予想外の成功について語っています。アルトマンは、OpenAIのビジネスモデルの転換、Microsoftとの関係、AIの安全性と規制に関する見解、AGIの未来について率直に語っています。インタビューでは、OpenAIのオープンソース戦略、GPT-5の開発、そして様々な業界におけるAIの影響についても触れられています。アルトマンは、数十億人のユーザーを抱えるAIプラットフォームは、最先端のモデルよりも価値が高いと考えており、広告以外の代替収益化戦略を示唆しています。

AI

VGGT:画像からの超高速3Dシーン再構成

2025-03-25
VGGT:画像からの超高速3Dシーン再構成

Facebook Researchは、VGGT(Visual Geometry Grounded Transformer)を発表しました。これは、シーンの主要な3D属性(カメラの外部パラメータと内部パラメータ、点群、深度マップ、3D点軌跡)を、1枚、数枚、または数百枚のビューから数秒で直接推論できるフィードフォワードニューラルネットワークです。この使いやすいモデルは、Transformerの威力を利用しており、インタラクティブな3D視覚化ツールを提供します。驚くべきことに、VGGTは、このタスクのために明示的にトレーニングされていないにもかかわらず、最先端の単眼手法と比較して競争力のある結果を達成する、印象的な単眼再構成能力を示しています。

AI

AI楽観主義の偽りの安心感:ケイシー・ニュートンとケビン・ルースへの批判

2025-03-25
AI楽観主義の偽りの安心感:ケイシー・ニュートンとケビン・ルースへの批判

この記事は、ジェネレーティブAIに対するテクノロジージャーナリスト、ケイシー・ニュートンとケビン・ルースの盲目的な楽観主義を批判しています。著者は、彼らの肯定的な予測は事実の裏付けがなく、単に市場の需要と自己利益に応えているだけだと主張しています。AGIが間近に迫っているというルースの主張や、OpenAIモデルへのニュートンの過剰な賞賛は、厳密な議論に欠けています。著者は、この「慎重な楽観主義」という態度は、実際には現実逃避の臆病な表現であり、モデルの幻覚、ベンチマークの操作可能性、クリエイティブ産業への影響など、AI技術の多くの問題と潜在的なリスクを無視していると指摘しています。この記事では、CoreWeave社を例に、AI分野における投資過熱と持続可能なビジネスモデルの欠如を明らかにし、人々に批判的な思考を維持し、AI技術開発における課題に直面するよう促しています。

AlexNetソースコード公開:ディープラーニング革命の幕開け

2025-03-25
AlexNetソースコード公開:ディープラーニング革命の幕開け

2012年、アレックス・クリジェフスキー、イリヤ・サツケバー、ジェフリー・ヒントンによって開発されたAlexNetは、初めて、深層ニューラルネットワークが画像認識において持つ巨大な可能性を実証し、ディープラーニングの時代を切り開きました。最近、コンピュータ歴史博物館とGoogleの協力により、AlexNetのソースコードがオープンソースとして公開されました。AlexNetの成功は、その規模、つまり強力なコンピューティングパワーとImageNetの大規模データセットを用いて訓練された大規模な畳み込みニューラルネットワークにあったと言えるでしょう。この画期的な進歩は、AI分野における数十年にわたるイノベーションを促進し、OpenAIのような企業やChatGPTのようなアプリケーションを生み出し、世界を変革しました。

AI

幼児期健忘症の謎を解く:1歳児の海馬体が活性化

2025-03-25
幼児期健忘症の謎を解く:1歳児の海馬体が活性化

fMRIを用いた新しい研究で、4~25ヶ月齢の乳幼児26人の脳をスキャンし、長年の謎である幼児期健忘症の解明を試みました。研究の結果、約1歳になると、記憶形成に関与する海馬体が活性化し、乳幼児がテストで覚えているものと関連する神経信号を生成することが分かりました。これは、海馬体がまだ発達途上である時期でも、赤ちゃんは約1歳頃から記憶を符号化し始めることを示唆しています。この研究は、初期の脳発達と記憶形成のメカニズムを理解するための貴重な手がかりを提供し、いつか失われた幼少期の記憶を取り戻せる可能性を示唆しています。

AIチャットボットと孤独:諸刃の剣

2025-03-25
AIチャットボットと孤独:諸刃の剣

2つの新しい研究は、AIチャットボットのヘビーユーザーにおいて、孤独感と感情的な依存が増加する可能性があるという潜在的な暗い側面を明らかにしています。研究者たちは、孤独な人々はAIとの感情的なつながりを求める可能性が高いことを発見し、これは以前のソーシャルメディアに関する研究を反映しています。AIチャットボットは感情的なサポートを提供できますが、プラットフォームはユーザーの幸福を優先し、過度の依存と感情的な搾取を防ぎ、不健康な使用パターンを特定し介入するための対策を講じる必要があります。立法者もこの新たな問題に対処し、適切な規制を策定する必要があります。

AI

ニュートン法の現代的改良:高速で広範囲な最適化アルゴリズム

2025-03-25
ニュートン法の現代的改良:高速で広範囲な最適化アルゴリズム

300年以上前、アイザック・ニュートンは関数の最小値を求めるアルゴリズムを開発しました。現在、プリンストン大学のAmir Ali Ahmadiとその学生たちは、このアルゴリズムを改良し、より広範な関数に効率的に対応できるようにしました。この画期的な研究は高階導関数を使用し、テイラー展開を巧みに凸な平方和の形に変換することで、従来の勾配降下法よりも高速な収束を実現します。現在、計算コストが高いものの、将来の計算技術の進歩により、このアルゴリズムは機械学習などの分野で勾配降下法を凌駕し、最適化問題の強力なツールとなる可能性があります。

アリババ系Ant Group、中国製チップでAIモデル学習コストを20%削減

2025-03-25
アリババ系Ant Group、中国製チップでAIモデル学習コストを20%削減

ジャック・マーが支援するアリババ系のAnt Groupは、アリババやファーウェイなどの中国企業が製造した国産半導体を使ってAIモデル学習技術を開発し、コストを20%削減した。Nvidiaのチップも依然として使用しているものの、最新のモデルの学習には主にAMDと中国製チップに依存しており、NvidiaのH800チップと同等の結果を得ている。これは、中国がハイエンドのNvidiaチップへの依存度を減らすための努力を強調している。Ant Groupが開発した新しい言語モデル、Ling-PlusとLing-Liteは、MetaのLlamaモデルをいくつかのベンチマークで上回った。医療や金融への応用を目的としたこれらのモデルは、中国における低コストAI開発における大きな進歩を示している。

ARC-AGI-2:人間にとって簡単、AIにとって難しいAGIベンチマーク

2025-03-24
ARC-AGI-2:人間にとって簡単、AIにとって難しいAGIベンチマーク

ARC Prize 2025コンテストがARC-AGI-2という大幅に難しいAGIベンチマークと共に帰ってきました。AIにとっては非常に難しい一方、人間にとっては比較的容易です。人間にとって簡単だがAIにとっては困難なタスクに焦点を当てることで、単なるスケールアップでは解決できない能力のギャップを浮き彫りにします。100万ドルの賞金プールにより、効率的で汎用的なAIシステムに向けたオープンソースのイノベーションを促進し、人間とAIのギャップを埋めて真のAGIを実現することを目指します。

AI

Qwen2.5-VL-32B:人間の好みにより適応した320億パラメーターの視覚言語モデル

2025-03-24
Qwen2.5-VL-32B:人間の好みにより適応した320億パラメーターの視覚言語モデル

Qwen2.5-VLシリーズモデルの好評を受け、新たに320億パラメーターの視覚言語モデルQwen2.5-VL-32B-Instructをオープンソースで公開しました。このモデルは、数学的推論、精緻な画像理解、人間の好みへの適合性において大幅な改善が見られます。ベンチマークテストでは、MMMU、MMMU-Pro、MathVistaなどのマルチモーダルタスクにおいて同規模のモデルを凌駕し、720億パラメーターのQwen2-VL-72B-Instructをも上回っています。テキスト理解能力においても、同規模のモデルでトップレベルの性能を達成しています。

AI

AMD、30億パラメーターの完全オープンソース言語モデル「Instella」を発表

2025-03-24

AMDは、AMD Instinct™ MI300X GPUでゼロからトレーニングされた、30億パラメーターの最先端の完全オープンソース言語モデルファミリー「Instella」を発表しました。Instellaは、同様のサイズの既存の完全オープンソースモデルを上回り、Llama-3.2-3Bなどの最先端のオープンウェイトモデルと競争力のある性能を実現しています。AMDは、モデルの重み、トレーニング設定、データセット、コードなど、すべてのモデルアーティファクトをオープンソース化し、AIコミュニティにおける協調とイノベーションを促進します。このモデルは、効率的なトレーニング技術と複数段階のトレーニングパイプラインを活用しています。

AI

GPT-4o mini TTS:簡単テキスト読み上げ

2025-03-24
GPT-4o mini TTS:簡単テキスト読み上げ

このツールは、OpenAIのGPT-4o mini TTS APIを使用して、テキストを自然な音声に変換します。3つの簡単なステップで完了します。テキストを入力し、設定(6つの音声と調整可能な速度)をカスタマイズして、高品質のオーディオを生成します。オーディオはサーバーに保存されることなく、ブラウザに直接ストリーミングされます。様々な音声と速度を試して、コンテンツに最適な組み合わせを見つけてください!

AI

CUDA 18歳:Nvidiaの秘訣とAI覇権

2025-03-24
CUDA 18歳:Nvidiaの秘訣とAI覇権

NvidiaのCUDAプラットフォームは18周年を迎えました。単なるプログラミング言語やAPIではなく、Nvidiaのソフトウェアエコシステムの中核であり、AIから仮想通貨マイニングまで、多くの「並列化しやすい」計算タスクを支えています。CUDAの成功は、Nvidiaの長年にわたる継続的な投資と安定したアップデートによるものであり、AMDなどの競合他社とは対照的です。AlexNetの成功は、CUDAがディープラーニング分野に及ぼした初期の影響を示しており、現在ではCUDAはAI分野の事実上の標準となり、Nvidiaにとって強力な競争優位性を築いています。

AI

beeFormer:レコメンドシステムにおけるセマンティック類似性とインタラクション類似性のギャップを埋める

2025-03-24
beeFormer:レコメンドシステムにおけるセマンティック類似性とインタラクション類似性のギャップを埋める

beeFormerプロジェクトは、コールドスタート問題に対処するために設計された、レコメンドシステムに対する新しいアプローチを紹介します。これは、言語モデルを利用してインタラクションデータからユーザー行動パターンを学習し、その知識を未見のアイテムに転移します。アイテム属性に依存する従来のコンテンツベースのフィルタリングとは異なり、beeFormerはユーザーインタラクションパターンを学習することで、以前のインタラクションデータがなくても、ユーザーの興味に合わせたアイテムをより適切に推薦します。実験により、パフォーマンスの大幅な向上を示しています。このプロジェクトは、詳細なトレーニング手順と事前トレーニング済みモデルを提供し、MovieLens、GoodBooks、Amazon Booksなどのデータセットをサポートしています。

LangManus:マルチエージェント連携のためのオープンソースAI自動化フレームワーク

2025-03-23
LangManus:マルチエージェント連携のためのオープンソースAI自動化フレームワーク

LangManusは、コミュニティ主導のオープンソースAI自動化フレームワークであり、言語モデルとWeb検索、クローリング、Pythonコード実行などのツールを統合しています。元同僚らが余暇時間に開発したこのプロジェクトは、マルチエージェントと深層研究の分野を探求し、GAIAリーダーボードに参加することを目的としています。LangManusは、コーディネーター、プランナー、スーパーバイザー、リサーチャー、コーダー、ブラウザ、レポーターなどの役割を持つ階層的なマルチエージェントシステムを採用し、QwenやOpenAI互換モデルなど、さまざまなLLMの統合をサポートしています。このプロジェクトはMITライセンスの下でオープンソース化されており、コミュニティからの貢献を歓迎しています。

改良型クロスコーダーがLLMファインチューニングの秘密を明らかに

2025-03-23
改良型クロスコーダーがLLMファインチューニングの秘密を明らかに

研究者らは、大規模言語モデル(LLM)の基本モデルとファインチューニングされたチャットモデルを比較するための新しい手法「タイドクロスコーダー」を発表しました。従来のクロスコーダーとは異なり、タイドクロスコーダーは、基本モデルとチャットモデルの両方に対して、同じ潜在的要因を異なる時間に発火させることを可能にします。これにより、チャットモデルにおける新規機能をより効果的に特定できます。実験により、この手法は、チャット行動が基本モデルの機能からどのように生じるかについてのより明確な説明を提供し、より単義的な潜在的要因をもたらすことが示されました。この研究は、LLMのファインチューニングプロセスに対する新たな洞察を提供し、将来のモデル改良の指針となります。

Lean 4による機械学習モデルの形式的検証

2025-03-23
Lean 4による機械学習モデルの形式的検証

`formal_verif_ml`プロジェクトは、Lean 4を用いて機械学習モデルの性質(堅牢性、公平性、解釈可能性など)を形式的に検証するためのフレームワークを提供します。Leanライブラリ、モデル変換ツール、Webインターフェース、CI/CDパイプラインを含み、様々なモデルタイプをサポートしています。インタラクティブなWebポータルでは、モデルのアップロード、生成されたLeanコードの表示、証明コンパイルのトリガー、モデルアーキテクチャの可視化などが可能です。

AI

計算能力が勝利する:AI開発における新しいパラダイム

2025-03-23

この記事は、AI開発における新たなトレンド、すなわち計算能力の優位性を探求しています。著者は自身の経験や比喩を用いて、過剰に設計されたAIシステムは、丁寧に手入れをされたが変化する環境に適応できない植物のようなものであり、一方、大規模な計算能力に基づくAIシステムは、自然に成長する植物のように自律的に学習し適応できると説明しています。ルールベース、計算リソースが限られたもの、スケールアウトの3つの異なるアプローチによるカスタマーサービス自動化システムの構築を比較することで、スケールアウトソリューションの優位性を示しています。強化学習(RL)の台頭はこの傾向をさらに裏付けており、大量の計算を通して複数の解決策を探求し、人間の設計を超える成果を上げています。将来、AIエンジニアの役割は、完璧なアルゴリズムを作成することから、膨大な計算リソースを効果的に活用できるシステムを構築することにシフトするでしょう。

AI
1 2 27 28 29 31 33 34 35 40 41