Category: AI

モデル合金:AIパフォーマンス向上のための秘密兵器

2025-07-21
モデル合金:AIパフォーマンス向上のための秘密兵器

XBOWチームは、「モデル合金」という巧妙な手法を用いて、脆弱性検出エージェントのパフォーマンスを劇的に向上させました。この手法は、異なるLLM(Google GeminiやAnthropic Sonnetなど)の長所を組み合わせ、単一のチャットスレッド内でそれらを交互に使用することで、単一モデルの限界を克服します。実験の結果、この「合金」戦略は成功率を55%以上にまで向上させ、単一モデルを大幅に上回ることが示されました。この技術はサイバーセキュリティの分野に限定されず、膨大な探索空間の中で解決策を見つける必要があるあらゆるAIエージェントタスクに関連しています。

AIエージェント:2025年の過剰な期待と現実

2025-07-20
AIエージェント:2025年の過剰な期待と現実

2025年がAIエージェントの年と言われる中、実運用環境でAIシステムを構築してきたベテラン開発者は異議を唱える。1年以上にわたり12以上のAIエージェントシステムを構築した経験から、3つの重要な現実が指摘されている。それは、複数ステップのワークフローにおける指数関数的なエラー率の増加、コンテキストウィンドウによる2乗的なコスト増加、そしてエージェントが効果的に使用できるツールとフィードバックシステムの設計という本当の課題だ。成功したAIエージェントシステムは完全に自律的ではなく、AIと人間の管理、伝統的なソフトウェアエンジニアリングを組み合わせ、明確な境界内で動作し、検証可能な操作とロールバックメカニズムを持つと主張する。将来は、複雑なタスクにAIを活用しつつ、人間の制御を維持する、制約のあるドメイン固有のツールを構築するチームが成功すると予測する。「完全自律」ではなく「明確な境界を持つ、非常に有能なアシスタント」へと焦点が移るだろう。

2025年の大規模言語モデルアーキテクチャの進化:DeepSeek、OLMo、Gemma、Mistral、Qwenの深堀り

2025-07-20
2025年の大規模言語モデルアーキテクチャの進化:DeepSeek、OLMo、Gemma、Mistral、Qwenの深堀り

この記事では、2025年の大規模言語モデル(LLM)のアーキテクチャの進歩をレビューし、DeepSeek、OLMo、Gemma、Mistral、Qwenなどのオープンソースモデルに焦点を当てています。DeepSeek V3/R1は、マルチヘッド潜在的アテンション(MLA)と混合専門家(MoE)を用いて計算効率を向上させます。OLMo 2は、RMSNormの配置に重点を置き、Post-NormとQK-Normを使用しています。Gemma 3は、スライディングウィンドウアテンションを使用してメモリ要件を削減します。Mistral Small 3.1は、パフォーマンスと速度のバランスを取っています。Qwen 3は、柔軟性のために密なモデルとMoEの両方のバリアントを提供します。SmolLM3は、30億パラメータのサイズとNoPE(位置エンコーディングなし)で際立っています。最後に、Kimi 2は、1兆パラメータ規模とMuonオプティマイザで印象的です。これらのモデルは、アテンションメカニズム、正規化、MoE、オプティマイザにおけるイノベーションを示しており、LLMアーキテクチャの多様性と継続的な進化を示しています。

CLJ-AGI:新しいAGIベンチマーク

2025-07-20

CLJ-AGIは、人工汎用知能(AGI)のための新しいベンチマークを提案します。このベンチマークは、AIがClojureプログラミング言語を、トランスデューサ優先設計、オプションの遅延評価、遍在するプロトコル、第一級のCRDTデータ構造などの機能で拡張することを課題としています。既存のClojureコードとの後方互換性を維持しながらこれらの拡張を実現することが成功であり、多大な報酬が与えられ、真のAGIへの重要な一歩となります。

AI

ローカルLLM対オフラインWikipedia:サイズ比較

2025-07-20

MIT Technology Reviewの記事が、終末シナリオにおけるオフラインLLMの使用に関する議論を引き起こしました。これにより、著者はローカルLLMとオフラインWikipediaダウンロードのサイズを比較しました。その結果、小型のローカルLLM(Llama 3.2 3Bなど)のサイズは、厳選された5万件のWikipedia記事とほぼ同等であることが示されました。一方、完全版Wikipediaは、最大のLLMよりもはるかに大きくなっています。目的は異なりますが、この比較は、ローカルLLMとオフライン知識ベース間のストレージ容量における興味深い対比を示しています。

AI

ザッカーバーグ氏、1億ドルでOpenAI社員獲得に失敗

2025-07-20
ザッカーバーグ氏、1億ドルでOpenAI社員獲得に失敗

Meta CEOのマーク・ザッカーバーグ氏は、OpenAI CEOのサム・アルトマン氏によると、最大1億ドルのオファーでChatGPTの従業員を自社のAIチームに引き抜こうとしたが失敗に終わった。巨額のオファーにもかかわらず、採用活動はほとんど成功しなかった。アルトマン氏はポッドキャストで、OpenAIの従業員は、超知能開発における同社のリーダーシップを優先したと述べた。この出来事は、AI人材獲得競争の激しさ、そして超知能分野の魅力の高さを浮き彫りにしている。

AI

大規模言語モデル、IMO 2025で期待外れ:メダルレベルのパフォーマンスは依然として困難

2025-07-19

研究者らは、MathArenaプラットフォームを用いて、5つの最先端の大規模言語モデル(LLM)を2025年国際数学オリンピック(IMO)の問題で評価しました。Gemini 2.5 Proが最高のパフォーマンスを示しましたが、スコアはわずか31%(13点)で、銅メダルに必要な19点には遠く及びませんでした。他のモデルはさらに大きく後れを取っています。ベストオブ32の選抜戦略により、問題ごとに複数の回答が生成・評価され、計算コストが大幅に増加しました。それにもかかわらず、結果は、現在のLLMと、IMOのような非常に難しい数学の問題におけるメダルレベルのパフォーマンスとの間に大きなギャップがあることを示しており、相当な計算リソースを投入してもメダルレベルに到達することはできませんでした。定性的な分析では、存在しない定理を引用したり、非常に簡潔な回答をしたりするなどの問題が明らかになりました。

HALO取引:AIにおける新たな買収モデル

2025-07-19
HALO取引:AIにおける新たな買収モデル

AI業界で新しい取引形態であるHALO取引が登場しました。従来の買収や単純な採用とは異なり、HALO取引では、企業がスタートアップの中核チームを採用し、同時にその知的財産をライセンス供与します。スタートアップは、投資家と従業員に分配される多額のライセンス料を受け取り、新しいリーダーシップの下で運営を継続します。これらの取引は迅速で、費用がかかり、(現在)AI分野に限定されています。議論を巻き起こしていますが、HALO取引は、創業者、投資家、従業員間の社会契約を維持しようとするものであり、ますます厳しく審査されるM&A環境において、AI人材を迅速かつ確実に獲得する方法を提供しています。

AI

癌患者のうつ病と不安の治療におけるサイロシビンの可能性

2025-07-18

二重盲検クロスオーバー試験において、サイロシビンという古典的な幻覚剤が、生命を脅かす診断と、うつ病および/または不安の症状を経験している51人の癌患者に及ぼす影響を調査しました。高用量のサイロシビンは、医師と患者自身の自己評価の両方において、うつ病と不安を有意に軽減し、生活の質、人生の意味、楽観主義を高め、死への不安を軽減しました。これらの肯定的な効果は6ヶ月の追跡調査においても持続し、約80%の参加者が臨床的に有意な改善を示しました。この研究は、治療効果を得る上で、サイロシビンによる神秘的な体験が仲介的役割を果たしていることを強調しています。

AI

Meta、AppleからAI人材をさらに獲得 Appleの基礎モデルチームが混乱

2025-07-18
Meta、AppleからAI人材をさらに獲得 Appleの基礎モデルチームが混乱

Metaは、巨額の報酬パッケージでトップAI幹部を引き抜いた後、Appleからさらに2人の主要な人工知能幹部を引き抜きました。最新の採用は、メール要約や優先通知などの機能を担当するAppleの基礎モデルチームからのものです。この最新の優秀な人材の流出は、AppleのAI部門における深刻な内部問題を示唆しており、Siriなどの機能にOpenAIなどの外部モデルを使用する方向への転換につながる可能性があります。

AI

アップル、次世代多言語・マルチモーダル基盤言語モデルを発表

2025-07-18
アップル、次世代多言語・マルチモーダル基盤言語モデルを発表

アップルは、デバイスとサーバーのインテリジェンス機能を強化する、2つの新しい多言語・マルチモーダル基盤言語モデルを発表しました。約30億パラメータのデバイス向けモデル(Appleシリコン向けに最適化)と、新しいParallel-Track Mixture-of-Experts(PT-MoE)トランスフォーマーに基づくスケーラブルなサーバー向けモデルです。どちらも大規模な多言語・マルチモーダルデータセットでトレーニングされ、教師ありファインチューニングと強化学習によって改良されています。より多くの言語、画像理解、ツール呼び出しをサポートし、同等のオープンソースベースラインに匹敵するか、それを上回っています。新しいSwift中心のフレームワークにより、開発者は簡単に統合できます。

AI

プラトン的表現仮説:普遍的な埋め込み反転とクジラとのコミュニケーションに向けて

2025-07-18
プラトン的表現仮説:普遍的な埋め込み反転とクジラとのコミュニケーションに向けて

研究者らは、大規模言語モデルが大きくなるにつれて、共有された基礎となる表現空間に収束することを発見しました。これは「プラトン的表現仮説」と呼ばれています。これは、アーキテクチャに関係なく、異なるモデルが同じ特徴を学習することを示唆しています。本論文では、「ムッソリーニかパンか」というゲームをアナロジーとして使用して、この共有表現を説明し、圧縮理論とモデルの汎化能力によってさらに裏付けられています。重要なことに、この仮説に基づいて、研究者らはvec2vecを開発しました。これは、異なるモデルの埋め込み空間間の教師なし変換を行う方法であり、高精度なテキスト埋め込みの反転を実現しています。将来の応用としては、線形Aなどの古代文字の解読や、クジラの言語の翻訳などが考えられ、言語間の相互理解とAIの発展に新たな可能性を開きます。

Le Chatが大幅アップデート:深層調査モード、音声モードなど強力な機能を追加

2025-07-17
Le Chatが大幅アップデート:深層調査モード、音声モードなど強力な機能を追加

Mistral AIのAIアシスタント、Le Chatが、強力な新機能を搭載したメジャーアップデートを行いました。深層調査モードでは、構造化された詳細な調査が可能になります。音声モードでは音声によるインタラクションが可能になり、ネイティブの多言語推論機能により、言語間のシームレスな切り替えと推論が容易になります。高度な画像編集機能とプロジェクト管理機能も追加され、ユーザーエクスペリエンスがさらに向上しました。これらのアップデートにより、Le Chatはより強力でユーザーフレンドリーになり、より効率的なAIアシストエクスペリエンスを提供します。

AI

Claudeのハッキング:LLMにおける合成リスクの悪用

2025-07-17
Claudeのハッキング:LLMにおける合成リスクの悪用

セキュリティ研究者のGolan Yosef氏は、巧妙に作成されたGmailメールを使用して、Anthropic社のClaudeデスクトップアプリでコード実行を達成しました。これは、アプリ自体の脆弱性を突いたのではなく、Claudeの機能と信頼メカニズムを利用することで実現しました。Claudeとの反復的なやり取りを通して、研究者はLLMを誘導し、攻撃戦略を洗練させ、最終的に組み込みのセキュリティを回避しました。これは、GenAIにおける重要な「合成リスク」を浮き彫りにしています。個々のコンポーネントは安全であっても、組み合わせると不安定なシステムになる可能性があるのです。この研究は、この新しい攻撃ベクトルに対処するために、LLMベースのアプリケーションの包括的なセキュリティ評価が必要であることを強調しています。

AnthropicのClaude:生成AI時代のDropbox?

2025-07-16
AnthropicのClaude:生成AI時代のDropbox?

この記事では、AnthropicのClaudeプラットフォームとそのArtifacts機能について考察しています。Artifactsは、コーディングなしでAI駆動のウェブアプリを作成できる機能です。著者は、Claudeを生成AI時代のDropboxになぞらえています。なぜなら、AIアプリの作成と共有におけるAPIキー、デプロイ、認証といった問題を解決し、巧妙にユーザーのClaudeアカウントのサブスクリプションを通じて収益化を実現しているからです。アプリ開発者は費用を負担する必要がありません。著者は、このモデルが非常に価値があると主張し、シンプルな支払い方法による将来的な収益化を展望しています。

AI

H-Nets:Transformerを超える階層型ネットワークアーキテクチャ

2025-07-16
H-Nets:Transformerを超える階層型ネットワークアーキテクチャ

現在のAIアーキテクチャはすべての入力を平等に扱い、情報の固有の階層構造を利用していません。これは、高解像度の生データから学習する能力を制限します。研究者たちは、生データから階層構造をネイティブにモデル化する新しいアーキテクチャであるH-Netsを発表しました。H-Netsの中核は、生データを意味のある概念にセグメント化および圧縮する動的チャンク化メカニズムです。実験では、H-Netsは最先端のTransformerを凌駕し、スケーラビリティと堅牢性が向上し、マルチモーダル理解、長文脈推論、効率的なトレーニングと推論への有望な道筋を示しています。

Voxtral:オープンソース音声理解モデルが人機インタラクションを革新

2025-07-16
Voxtral:オープンソース音声理解モデルが人機インタラクションを革新

Voxtralは、プロダクション向けの240億パラメータ版とエッジ展開向けの30億パラメータ版の2つの最先端の音声理解モデルをリリースしました。どちらもApache 2.0ライセンスで提供されます。これらのモデルは、優れた転写精度、長尺オーディオ(最大40分)の処理、組み込みのQ&Aと要約機能、ネイティブな多言語サポートを備えています。特に重要なのは、Voxtralが同等のAPIをコスト面で下回っており、高品質の音声インテリジェンスを大規模に利用し制御可能にすることです。高いエラー率のオープンソースシステムと高価なクローズドソースAPIのギャップを解消し、音声コマンドをシステムアクションに直接変換する機能呼び出し機能を提供します。Voxtralは、人機インタラクションに革命を起こす準備ができています。

AI

元OpenAI社員の回想録:急成長における文化と課題

2025-07-16
元OpenAI社員の回想録:急成長における文化と課題

OpenAIで1年間勤務した元社員が、自身の経験と感想を共有しています。1000人から3000人への急激な拡大に伴う文化的な衝撃、コミュニケーション、組織構造、製品リリースにおける課題について記述しています。社内コミュニケーションは完全にSlackに依存し、フラットな管理体制で、行動と結果を重視する文化です。Codexのローンチに携わった経験から、7週間の短期開発における興奮と、急速な成長から生じるコードとインフラの問題を浮き彫りにしています。最後に、OpenAIでの学びをまとめ、AGI競争が激化する中、大規模AIラボへの参加は創業者が検討すべき選択肢であると結論づけています。OpenAI、Anthropic、Googleがトップ3を争っています。

AI

LLMの白昼夢ループ:画期的なイノベーションの代償?

2025-07-16
LLMの白昼夢ループ:画期的なイノベーションの代償?

大規模言語モデル(LLM)は、その優れた能力にもかかわらず、真のブレークスルーを生み出せていません。著者は、これが人間の脳のデフォルト・モード・ネットワークのようなバックグラウンド処理メカニズムの欠如によるものだと提案しています。「白昼夢ループ」(DDL)と呼ばれるバックグラウンドプロセスを提案しています。これは、メモリから継続的に概念のペアをサンプリングし、明白ではないリンクを探求し、価値のあるアイデアをフィルタリングすることで、複合的なフィードバックループを作成します。計算コストが高くつくものの、この「白昼夢税」は、イノベーションに必要なコストであり、競争上の優位性になる可能性があります。最終的に、高価な「白昼夢AI」は、次世代の効率的なモデルのトレーニングデータの生成に主に使用され、迫り来るデータの壁を回避する可能性があります。

Cogency:たった3行のコードで動くAIエージェント

2025-07-15
Cogency:たった3行のコードで動くAIエージェント

Cogencyは、AIエージェントの作成を簡素化する複数ステップの推論フレームワークです。OpenAI、Anthropic、Googleなどのプロバイダーを自動検出し、ツールをインテリジェントにルーティングし、透明性の高い推論をストリーミングします。わずか3行のコードで機能するエージェントを作成できます。Cogencyには、電卓、天気予報、タイムゾーンツール、Web検索などの組み込みツールと、デバッグのための詳細な実行トレースが含まれています。カスタムツールとLLMで拡張可能です。

Metaのスーパーインテリジェンス研究所、オープンソースAIモデルの廃止を検討

2025-07-15
Metaのスーパーインテリジェンス研究所、オープンソースAIモデルの廃止を検討

Metaが新しく設立したスーパーインテリジェンス研究所は、AI戦略の大幅な見直しを検討しており、強力なオープンソースモデルであるBehemothの廃止も検討している。ニューヨーク・タイムズによると、内部の議論では、クローズドソースモデルへの移行が示唆されており、これはMetaの従来のオープンソースアプローチからの大きな転換となる。Behemothは「フロンティア」モデルとして完成していたが、パフォーマンスの問題によりリリースが延期され、テストは中断されている。いかなる決定も、CEOのマーク・ザッカーバーグの承認を必要とする。

AI

Cognition、Windsurfを買収:AI搭載コードエディタの新章

2025-07-15
Cognition、Windsurfを買収:AI搭載コードエディタの新章

Cognitionは、エージェント型IDEを開発するWindsurfの買収を発表しました。買収には、Windsurfの知的財産、製品、商標、ブランド、強力なビジネス、そして何よりも世界クラスのチームが含まれます。Windsurfは引き続き運営を続け、CognitionはWindsurfの機能を自社製品に統合するための投資を行います。この動きは、ソフトウェアエンジニアリングの未来を加速することを目指しており、CognitionのDevin(完全に自律的なエージェント)とWindsurfのIDE製品、強力な市場開拓体制を組み合わせることで、大きな相乗効果を生み出すでしょう。Windsurfの全従業員は、財政的な参加、権利行使条件の免除、権利行使の完全な加速など、好条件を受け取ります。

AI

LLMはうまく失敗する:長いコンテキストにおける性能は、簡単なタスクでも低下する

2025-07-15
LLMはうまく失敗する:長いコンテキストにおける性能は、簡単なタスクでも低下する

この研究は、大規模言語モデル(LLM)が長いコンテキストのタスクで均一に良好な性能を発揮するという一般的な仮定に挑戦しています。「干し草の山の中の針」ベンチマークを拡張し、意味的なマッチングやディストラクターなどの変数を導入することで、研究者たちは、簡素化された条件下でも、入力の長さが増えるにつれてモデルの性能が低下することを発見しました。これは、会話的な質疑応答と繰り返される単語の複製タスクで確認され、LLMの長いコンテキスト能力の限界を示し、現実世界のアプリケーションにおける潜在的な課題を示唆しています。

Martin:SiriやAlexaを凌駕するAIアシスタント

2025-07-15
Martin:SiriやAlexaを凌駕するAIアシスタント

Martinは、テキスト、通話、またはメールでアクセスできる革新的なAIパーソナルアシスタントです。メールボックス、カレンダー、ToDoリスト、メモ、通話、リマインダーなどを管理します。わずか5ヶ月で3万人のユーザーのために50万件以上のタスクを完了し、毎週10%の成長率を誇ります。Y CombinatorやPioneer Fundなどのトップ投資家、そしてDoorDashの共同創設者やUberの元最高製品責任者などの著名なエンジェル投資家から資金提供を受けています。精鋭ながら効率的なチームは、iPhone以来の最もインパクトのあるコンシューマー製品を作り出すため、野心的なAIエンジニアとプロダクトエンジニアを募集しています。

AI

テクノロジーの不可避論への反論:私たちにはまだ選択肢がある

2025-07-15

この記事では、テクノロジーリーダーたちが「不可避論」—AIが支配する未来は避けられないという主張—を使って世論を形成する方法を分析しています。熟練した相手との議論を引き合いに出して、この戦略がどのように会話の枠組みを既定の結論に導き、反対意見を黙殺するかを示しています。ザッカーバーグ、呉恩達、ロメッティといった人物の発言を批判し、AIの未来は既定のものではなく、受動的に「避けられない」結果を受け入れるのではなく、積極的に形作っていくべきだと主張しています。

AI人材バブル:数十億ドル規模の買収が狂騒を加速

2025-07-14
AI人材バブル:数十億ドル規模の買収が狂騒を加速

MetaとGoogleによる数十億ドル規模のAI人材買収は、AI業界における巨大な人材バブルを示唆しています。トップAI人材の価値は急騰しており、創業者と主要従業員の双方に影響を与えています。この不平等は、AI投資の急増と熟練労働者への切実なニーズに起因します。従来の信頼メカニズムは崩壊しており、企業と人材間の社会的契約の書き換えが必要です。強力なミッションと巨額の資金を持つ企業だけが、この人材獲得競争で成功し、シリコンバレーの風景を変革するでしょう。

AI

強化学習のスケーリング:ウェブ上での次トークン予測

2025-07-13
強化学習のスケーリング:ウェブ上での次トークン予測

著者は、強化学習(RL)がAIモデルのトレーニングにおける次のフロンティアであると主張しています。複数の環境を同時にスケーリングする現在の方法は、混乱を招きます。代わりに、著者は、ウェブ規模のデータセット上でRLによる次トークン予測を使用して、モデルに推論を学習させることを提案しています。これは、数学やコードの問題に焦点を当てた現在のRLトレーニングデータセットの限界を超えて、容易に入手可能な膨大なウェブデータを利用します。RLと次トークン予測を統合することで、このアプローチは、はるかに強力な推論モデルを作成することを約束します。

AI

ゲームでがんと闘う:シチズンサイエンスゲームは病気の治療に役立つのか?

2025-07-13
ゲームでがんと闘う:シチズンサイエンスゲームは病気の治療に役立つのか?

現実の科学的問題に取り組むようプレイヤーを誘うことで、ゲームは医学における最も困難な課題の解決に貢献できる可能性があります。『Gaming Cancer』では、がん研究をシチズンサイエンスゲームに変換するという概念を探求し、プレイヤーが治療法の発見に貢献できるようにしています。FolditやEteRNAなどのゲームは、超低温保管を必要としないCOVID-19ワクチン設計など、すでに科学的発見につながっています。専門の科学者では解決できない問題を解決できるとは限りませんが、これらのゲームは新たな視点、生物学教育、がん研究へのより広範な参加を促します。

強化学習のGPT-3モーメント:複製学習の台頭

2025-07-13
強化学習のGPT-3モーメント:複製学習の台頭

この記事は、強化学習(RL)が間もなく独自の「GPT-3モーメント」を迎えることを予測しています。それは、数千もの多様な環境にわたる大規模なトレーニングを行い、強力な少サンプル、タスク非依存型の能力を実現することです。これには、前例のない規模と多様性のトレーニング環境が必要であり、数十万年の「モデル向けタスク時間」に相当する可能性があります。著者らは、「複製学習」という新しいパラダイムを提案しています。これは、AIが既存のソフトウェア製品またはその特定の機能を複製することで、大規模で自動的に採点可能なトレーニングタスクを作成するというものです。課題はありますが、このアプローチはRLのスケーリングのための明確な道筋を提供し、AIが完全なソフトウェアプロジェクトを自律的に完了することを可能にする可能性があります。

Moonshot AI、320億パラメーターのMoE言語モデル「Kimi K2」を発表:強力なエージェント機能を搭載

2025-07-13
Moonshot AI、320億パラメーターのMoE言語モデル「Kimi K2」を発表:強力なエージェント機能を搭載

Moonshot AIは、最先端の320億パラメーター混合専門家(MoE)言語モデル「Kimi K2」を発表しました。総パラメーター数は1兆に及びます。Muon最適化器でトレーニングされたKimi K2は、最先端の知識、推論、コーディングタスクにおいて優れた性能を発揮し、エージェント機能向けに綿密に最適化されています。研究者向けの基盤モデルであるKimi-K2-Baseと、すぐに使える指示に従うモデルで、強力なツール呼び出し機能を備え、ツールをいつどのように呼び出すかを自律的に決定するKimi-K2-Instructの2つのバージョンがあります。モデルと重みはオープンソースで公開され、APIも提供されています。

1 2 5 6 7 9 11 12 13 40 41