Category: AI

元OpenAI社員、営利目的への転換に反対:使命と利益の戦い

2025-04-12
元OpenAI社員、営利目的への転換に反対:使命と利益の戦い

元OpenAI社員グループが、イーロン・マスクのOpenAIに対する訴訟を支持する意見書を提出、非営利組織から営利企業への転換計画に反対しました。彼らは、これが人類全体に利益をもたらすというOpenAIの本来の使命に反すると主張しています。複数の元社員は以前、OpenAIの透明性と説明責任の欠如を批判し、AI支配への無謀な競争を警告していました。OpenAIは、非営利部門は残るものの、公益法人(PBC)への移行を進めていると回答しました。この訴訟は、OpenAIの組織構造とAI開発への影響に焦点を当てており、AI分野における商業化と社会的責任の複雑な相互作用を浮き彫りにしています。

AI開発における最大限の努力の限界

2025-04-11

著者は、子供の頃、小川にダムを作った経験を用いて、AI開発における最大限の努力の限界を説明しています。最初は小さなダムを苦労して作ったが、後でシャベルを使う方が効率的だと気づきました。しかし、この成功によって、探索的な側面が減りました。同様に、仕事や人生において、目標(高給の仕事など)を達成すると、ゲームのルールが変わります。著者は、AI開発はこの教訓に留意すべきであり、強力なAIを作るだけでなく、潜在的なリスクや未開拓の分野にも注目すべきだと主張しています。潮だまりで必死に生き残ろうとする小さな貝を観察するのと同様に、細部への注意が重要です。Anthropicの最近の教育アプリケーションに関するレポートも、この点に気づいているようです。

LLMベースの顧客サポートエージェントにおける自律性と信頼性のバランス

2025-04-11
LLMベースの顧客サポートエージェントにおける自律性と信頼性のバランス

大規模言語モデル(LLM)は、高度な自律性を持つタスクを実行できるようになってきていますが、顧客サポートなどの高価値なユースケースへの展開には、信頼性と一貫性を優先する必要があります。研究によると、高度な自律性を持つエージェントは理想的な環境では優れていますが、現実世界の顧客サポートには、知識のギャップ、予測不可能なユーザー行動、時間的な制約などの課題があります。これを解決するために、新しい指標であるpass^kが開発され、シミュレートされた顧客とのやり取りを通じてテストされました。その結果、高度な自律性を持つエージェントは、複雑なタスクにおいて信頼性の問題を抱えていることが示されました。解決策は?「Give Fin a Task」エージェントです。これは、エージェントの自律性を制限し、ステップバイステップの手順を用いることで信頼性を向上させ、複雑なタスクをより単純なモジュールに分解します。このアプローチは、現実世界の顧客サポートシナリオにおけるLLMのパフォーマンスを向上させるための有望な方法です。

(fin.ai)
AI

ボノボの文法が人間の言語の独自性を問う

2025-04-11
ボノボの文法が人間の言語の独自性を問う

新たな研究によると、ボノボは複雑な方法で鳴き声を組み合わせて独特のフレーズを形成し、この種の構文はこれまで考えられていたよりも進化的に古いことを示唆している。研究者らは、ボノボの発声を観察し分析し、意味論的手法を用いることで、ボノボの鳴き声の組み合わせに非自明的な構成性があることを発見した。つまり、組み合わせの意味は、個々の部分の意味とは異なるということである。この発見は、人間の言語の独自性に疑問を投げかけ、人間の言語の複雑な構文はより古い祖先から由来している可能性を示唆している。

AI

AIアバター:AI生成コンテンツの新たなフロンティア

2025-04-11
AIアバター:AI生成コンテンツの新たなフロンティア

AIはすでにリアルな写真、動画、音声の生成をマスターしています。次の飛躍は?AIアバター—顔と声を組み合わせて話すキャラクターを作成することです。これは単なる画像生成と音声解説ではありません。AIは、唇の同期、表情、ボディランゲージの複雑な調整を学習する必要があります。この記事では、AIアバター技術の進化を探り、単一の写真に基づく初期モデルから、全身の動きとダイナミックな背景を生成する高度なモデルまでを解説します。また、AIアバターのコンテンツ制作、広告、企業コミュニケーションにおける応用と、より自然な表情、体の動き、現実世界とのインタラクションといった将来の方向性についても分析します。

AI開発における努力の逆説

2025-04-11
AI開発における努力の逆説

子供の頃の小川にダムを作る遊びの比喩を用いて、著者はAI開発における最大限の努力と賢明な選択の間の緊張関係を探っています。最初は子供のように、小さな石や葉でダムを作ろうとしていましたが、最終的にはシャベルを使う方が効率的であることを発見しました。「勝利」が、遊びの範囲を狭めることを意味することもあります。同様に、AIの分野では、著者は投資銀行の職を必死に求めていましたが、成功した後、「できるだけ多くの金を稼ぐ」というゲームがもはや不可能であることに気付きました。圧倒的な力(自然、市場)に立ち向かうとき、最大限の努力は逆効果になる可能性があると主張しています。しかし、Anthropicの教育アプリケーションに関する最近のレポートは、潜在的なリスクへの意識の高まりを示唆しており、それは海岸で必死に生きようとする貝殻のようなものです。

AI

Parity:AI駆動型SREでオンコール地獄を解消

2025-04-10
Parity:AI駆動型SREでオンコール地獄を解消

午前2時のページャー義務と終わりのないアラートにうんざりしていませんか?ParityはAIを使用して、インフラストラクチャの問題の調査、根本原因分析、修復を自動化し、オンコールを過去のものにします。この製品は初期顧客から高い採用率を得ており、新しいカテゴリーを定義する可能性を秘めています。Parityは、Y Combinator、General Catalyst、Sugar Free Capitalなどのトップティア投資家、そしてMidjourneyやCrusoeなどの主要スタートアップの創設者や初期従業員からのエンジェル投資を受けています。

ByzFL:データソースを信頼せずに信頼できるAIを構築する

2025-04-10
ByzFL:データソースを信頼せずに信頼できるAIを構築する

現在のAIモデルは膨大な中央集権化されたデータセットに依存しており、セキュリティとプライバシーに関する懸念を引き起こしています。EPFLの研究者たちは、データを中央集権化せずに分散型デバイスでAIモデルをトレーニングするために、フェデレーションラーニングを使用するライブラリByzFLを開発しました。ByzFLは悪意のあるデータを検出して軽減し、特に医療や輸送などのミッションクリティカルなアプリケーションにとって重要な堅牢性と安全性を確保します。信頼できるAIシステムを構築するための革新的なソリューションを提供します。

AppleのAIブレークスルー:Activation Transport (AcT)による生成モデルの精密制御

2025-04-10
AppleのAIブレークスルー:Activation Transport (AcT)による生成モデルの精密制御

Appleの機械学習研究者たちは、Activation Transport (AcT)と呼ばれる新しい技術を開発しました。これは、LLMやテキストから画像への拡散モデルなど、大規模な生成モデルの出力を精密に制御する技術で、RLHFやファインチューニングのようなリソースを大量に消費するトレーニングを行う必要がありません。AcTは最適輸送理論を用いてモデルの活性化を制御し、最小限の計算オーバーヘッドでモダリティ非依存の制御を実現します。実験では、毒性の軽減、LLMにおける真実性の向上、画像生成におけるスタイルの制御において、著しい改善が示されました。AcTは、より安全で信頼性の高い生成モデルへの道を切り開きます。

責任あるAIエコシステムの不均衡な進化:広がるギャップ

2025-04-10
責任あるAIエコシステムの不均衡な進化:広がるギャップ

AI関連のインシデントが急増しているにもかかわらず、主要な産業用モデル開発者における標準化された責任あるAI(RAI)評価は依然として不足している。しかし、HELM Safety、AIR-Bench、FACTSなどの新しいベンチマークは、事実性と安全性を評価するための有望なツールを提供している。企業によるRAIリスクの認識と意味のある行動の間には大きなギャップが存在する。一方、政府は緊急性を増しており、2024年にはAIガバナンスに関するグローバルな協力が強化され、OECD、EU、国連、アフリカ連合などの組織が、透明性、信頼性、その他の責任あるAIの核心原則に焦点を当てたフレームワークを発表している。

アシモフの1982年のAI予測:協調、競争ではない

2025-04-10
アシモフの1982年のAI予測:協調、競争ではない

この記事では、1982年のSF作家アイザック・アシモフのインタビューを取り上げています。アシモフは人工知能を、これまで人間特有の知性と関連付けられていたタスクを実行するあらゆるデバイスとして定義しました。アシモフは、AIと人間の知性は競争相手ではなく補完的関係にあり、両者の協調がより速い進歩をもたらすと考えていました。創造的な思考を必要としない仕事から人間を解放すると予測しつつも、技術的進歩に伴う潜在的な困難や課題についても警告し、自動車の登場を例に挙げています。AI時代への備えと過去の過ちの繰り返しの回避を強調しました。

大規模言語モデルの長編創作能力ベンチマーク

2025-04-10

このベンチマークは、大規模言語モデルの長編小説の創作能力を評価します。ブレインストーミング、改訂、8つの1000単語の章の執筆を評価します。指標には、章の長さ、流暢さ(使いすぎのフレーズの回避)、繰り返し、章全体での書き込み品質の低下が含まれます。最終的なスコア(0〜100)は、評価用LLMによって割り当てられます。

クエーサーアルファ:OpenAIの秘密兵器?

2025-04-10
クエーサーアルファ:OpenAIの秘密兵器?

OpenRouterプラットフォームに、Quasar Alphaという謎めいたAIモデルが登場し、プログラミングにおいて瞬く間にトップのAIモデルとなりました。様々な証拠から、OpenAIとの関連性が示唆されており、OpenAIのo4-mini-lowモデルの別名である可能性も考えられます。最先端のものではないものの、その速度とコストパフォーマンスは、AIコーディングモデル市場を混乱させる可能性があります。Quasar Alphaは現在、Kilo Codeで利用可能です。

AI

Anthropic、高価格AIチャットボットClaude Maxのサブスクリプションプランを発表

2025-04-09
Anthropic、高価格AIチャットボットClaude Maxのサブスクリプションプランを発表

Anthropicは、OpenAIのChatGPT Proに対抗するため、AIチャットボットClaude Maxの新しい高価格サブスクリプションプランを発表しました。Maxは、Anthropicの月額20ドルのClaude Proと比較して、より高い使用制限と、最新のAIモデルや機能への優先アクセスを提供します。2つのプランがあり、月額100ドル(速度制限5倍)と月額200ドル(速度制限20倍)です。この動きは、最先端のAIモデル開発の高コストを賄うための収益増加を目指しています。Anthropicは、大学をターゲットにしたClaude for Educationなど、他の収益源も模索しています。サブスクリプション数は明らかにされていませんが、同社の新しいClaude 3.7 Sonnetモデルは大きな需要を生み出しています。

AI

AI心理療法ボット、メンタルヘルス危機への対応に光明

2025-04-09
AI心理療法ボット、メンタルヘルス危機への対応に光明

ニューイングランド医学誌に掲載された新しい研究によると、ダートマス大学の研究者らが開発したAI心理療法ボットが、無作為化臨床試験において、人間の臨床医と同等かそれ以上の有効性を示したことが明らかになりました。 アメリカの深刻なメンタルヘルスケア提供者の不足に対処するために設計されたこのボットは、5年以上もの間、臨床上のベストプラクティスを厳格にトレーニングされてきました。結果は、患者のメンタルヘルスの改善だけでなく、驚くべきことに、強い治療関係と信頼関係の構築を示しました。 アメリカ心理学会は、規制されていないAI心理療法ボットへの懸念を表明していますが、この研究の厳格なアプローチを称賛しています。 研究者らは、この技術はまだ市場投入には程遠く、さらなる試験が必要であると強調していますが、広範なメンタルヘルスケアへのアクセス危機に対する潜在的な解決策を提供しています。

Google、推論時代の到来を告げる第7世代TPU「Ironwood」を発表

2025-04-09
Google、推論時代の到来を告げる第7世代TPU「Ironwood」を発表

Google Cloud Next '25で、Googleは第7世代のテンソル処理ユニット(TPU)「Ironwood」を発表しました。これは、これまでで最も強力かつスケーラブルなカスタムAIアクセラレータであり、推論用に特別に設計されています。Ironwoodは、AIモデルがデータだけでなく洞察や回答を生成する、先見的な「推論時代」への転換を示しています。9216個もの液体冷却チップが、革新的なICIネットワーク(約10MW)で接続されており、Google CloudのAIハイパーコンピューターアーキテクチャの重要な構成要素となっています。開発者は、GoogleのPathwaysソフトウェアスタックを活用して、数万個のIronwood TPUの処理能力を簡単に活用できます。

Agent2Agent (A2A): AIエージェントの相互運用性の新時代

2025-04-09
Agent2Agent (A2A): AIエージェントの相互運用性の新時代

Googleは、異なるベンダーによって構築された、または異なるフレームワークを使用するAIエージェント間のシームレスな協調を可能にするオープンなプロトコルAgent2Agent(A2A)をリリースしました。50社以上のテクノロジーパートナーとサービスプロバイダーの支援を受けて、A2Aは安全な情報交換と調整されたアクションを可能にし、生産性を向上させ、コストを削減します。既存の標準に基づいて構築されたA2Aは、複数のモダリティをサポートし、セキュリティを優先し、長時間実行されるタスクを処理します。ユースケースは、採用プロセス(候補者の選別や面接のスケジュール設定など)の自動化から、さまざまなエンタープライズアプリケーション全体での複雑なワークフローの合理化まで多岐にわたります。オープンソースであることから、協力的なAIエージェントの繁栄するエコシステムを促進します。

DeepCoder-14B:OpenAIのo3-miniに匹敵するオープンソースのコード推論モデル

2025-04-09
DeepCoder-14B:OpenAIのo3-miniに匹敵するオープンソースのコード推論モデル

AgenticaとTogether AIは、Deepseek-R1-Distilled-Qwen-14Bから分散型強化学習によって微調整されたコード推論モデル、DeepCoder-14B-Previewをリリースしました。LiveCodeBenchで60.6%のPass@1精度を達成し、わずか14BパラメータでOpenAIのo3-miniに匹敵する性能を示しています。このプロジェクトでは、データセット、コード、トレーニングログ、システム最適化をオープンソース化しており、高品質なデータとGRPOへのアルゴリズム改良に基づいた堅牢なトレーニングレシピを示しています。この進歩により、高性能なコード生成モデルへのアクセスが民主化されます。

Gemini 2.5 Pro実験版:深層調査が大幅にスマートに

2025-04-09
Gemini 2.5 Pro実験版:深層調査が大幅にスマートに

Gemini Advancedのサブスクライバーは、業界ベンチマークとChatbot Arenaによって世界で最も強力なAIモデルと見なされているGemini 2.5 Pro実験版を搭載したDeep Researchにアクセスできるようになりました。このパーソナルAIリサーチアシスタントは、研究プロセスのあらゆる段階を大幅に改善します。テストでは、評価者はGemini 2.5 Proによって生成されたレポートを競合他社よりも2対1以上の割合で好んでおり、分析的推論、情報合成、洞察力のあるレポート生成の改善を挙げています。Web、Android、iOSで、あらゆるトピックに関する詳細で読みやすいレポートにアクセスし、何時間も作業時間を節約できます。さらに、移動中のリスニングのための新しいオーディオ概要機能を試してみてください。詳細情報と試用版は、Gemini 2.5 Pro(実験版)を選択し、プロンプトバーで「Deep Research」を選択して確認してください。

2億ドルのAIプロジェクト「Cyc」の失敗

2025-04-08
2億ドルのAIプロジェクト「Cyc」の失敗

本稿は、記号論理の拡張によって人工汎用知能(AGI)を構築しようとした、Douglas Lenatによる野心的なプロジェクト「Cyc」の40年間の歴史を詳述する。2億ドルの投資と2000人年の努力にもかかわらず、Cycは知的な成熟に達することができなかった。本稿は、その秘密の歴史を明らかにし、プロジェクトの閉鎖性と代替的なAIアプローチの拒否が失敗の主要因であったことを強調する。Cycの長期的かつ緩慢な衰退は、AGIへの記号論理アプローチに対する強力な批判となっている。

MetaのLlama 4:2位と混乱のリリース

2025-04-08
MetaのLlama 4:2位と混乱のリリース

MetaはLlama 4の2つの新しいモデル、ScoutとMaverickをリリースしました。MaverickはLMArenaで2位を獲得し、GPT-4oとGemini 2.0 Flashを上回りました。しかし、MetaはLMArenaでテストされたのは、一般公開されているものではなく、特別に最適化された「実験的なチャットバージョン」であることを認めました。これは論争を巻き起こし、LMArenaは同様の事態を防ぐためにポリシーを更新しました。Metaは様々なバージョンを試していると説明しましたが、この動きはAI競争におけるMetaの戦略と、Llama 4のリリース時期の奇妙さについて疑問を投げかけています。最終的に、この事件はAIベンチマークの限界と、大企業の競争における複雑な戦略を浮き彫りにしています。

AI

テスト時訓練を用いたトランスフォーマーによる1分間の動画生成

2025-04-08

現在のトランスフォーマーモデルは、長いコンテキストに対する自己注意レイヤーの非効率性のために、1分間の動画生成に苦労しています。本論文では、隠れ状態自体がニューラルネットワークであるテスト時訓練(TTT)レイヤーを検討します。これにより、表現力が向上します。事前学習済みトランスフォーマーにTTTレイヤーを追加することで、テキストストーリーボードから1分間の動画を生成できます。トムとジェリーカートゥーンのデータセットを使った実験では、Mamba 2やGated DeltaNetなどのベースラインと比較して、TTTレイヤーが動画の一貫性とストーリーテリングを大幅に向上させ、人間の評価で34 Eloポイントのアドバンテージを達成しました。50億パラメータモデルの制約によりアーティファクトが残っていますが、この研究は、より長く複雑な物語を持つ動画にスケール可能な有望なアプローチを示しています。

マルチモーダルAI画像生成:視覚革命の幕開け

2025-04-08
マルチモーダルAI画像生成:視覚革命の幕開け

GoogleとOpenAIが最近発表したマルチモーダル画像生成機能は、AI画像生成分野における革命を意味します。従来、テキストプロンプトを独立した画像生成ツールに送っていた方法とは異なり、マルチモーダルモデルは画像生成プロセスを直接制御し、LLMがテキストを生成するように、トークン単位で画像を構築します。これにより、AIはより正確で印象的な画像を生成し、ユーザーのフィードバックに基づいて反復処理を行うことができます。この記事では、インフォグラフィックの生成、画像詳細の修正、仮想製品広告の作成など、さまざまな例を通してマルチモーダルモデルの強力な機能を示しています。しかし、著作権や倫理的な懸念、ディープフェイクのような潜在的な悪用リスクなども指摘されています。最終的に、著者はマルチモーダルAIが視覚的創造の風景を劇的に変えるだろうと述べており、その健全な発展を保証するために、この変革をどのように導くべきかを慎重に検討する必要があると結論付けています。

リアルタイムニューロプラスティシティ:事前学習済みLLMにリアルタイム学習能力を与える

2025-04-08
リアルタイムニューロプラスティシティ:事前学習済みLLMにリアルタイム学習能力を与える

「ニューラル・グラフィティ」と呼ばれるこの実験的な手法は、「スプレー層」と呼ばれるプラグインを使用して、事前学習済み大規模言語モデル(LLM)の最終推論段階に直接メモリトレースを注入します。ファインチューニングや再トレーニングは不要です。脳のニューロプラスティシティを模倣し、ベクトル埋め込みを修正することでモデルの「思考方法」を微妙に変更し、生成トークンの予測に影響を与えます。インタラクションを通じて、モデルは徐々に学習し、進化していきます。特定の単語の出力を強制するわけではなく、繰り返しインタラクションを通じて関連する概念にモデルを偏らせることで、AIモデルにより能動的な行動、集中した個性、そして向上した好奇心を与えることを目指しています。最終的には、ニューロンレベルで何らかの自己認識を獲得するのを支援することを目的としています。

神経典型的な成人およびADHDスクリーニング陽性者における背景音楽の聴取習慣の違い

2025-04-08

17~30歳の910人の若年成人を対象としたオンライン調査では、認知的負荷の異なるタスクにおいて、神経典型的な個人とADHDスクリーニング陽性者間の背景音楽(BM)の聴取習慣と主観的影響を比較しました。ADHD群は、学習や運動など特定の状況においてBMを好む傾向が著しく高く、刺激的な音楽をより好む傾向がありました。しかし、BMの認知機能および感情機能への主観的影響において、群間で有意差は見られませんでした。本研究は、個人の覚醒の必要性と利用可能な認知資源に基づいてBMの使用を調整することの重要性を強調し、ADHDに対する音楽介入に関する新たな視点を提供しています。

大規模言語モデルが壁にぶつかる:Llama 4の失敗とAIの過剰な期待

2025-04-08
大規模言語モデルが壁にぶつかる:Llama 4の失敗とAIの過剰な期待

Llama 4のリリースは、大規模言語モデルが性能の限界に達しつつあることを示唆しています。MetaによるLlama 4への巨額投資は期待通りの成果を生み出せず、目標達成のためにデータ操作が行われたという噂もあります。これは、GPT-5レベルのAI開発でOpenAIやGoogleなどが直面している困難を反映しています。Llama 4のパフォーマンスに対する業界の失望は広まっており、MetaのAI担当副社長であるJoelle Pineau氏の辞任によってさらに裏付けられています。この記事では、AI業界におけるデータ漏洩やデータ汚染といった問題を指摘し、著名な専門家たちが現実世界の失敗を無視して楽観的な予測をしていると批判しています。

AI

LLMはNULLを理解するのか?コード生成モデルの内部表現を探る

2025-04-07

大規模言語モデル(LLM)はコード生成において著しい進歩を見せているが、コードを本当に「理解」しているかどうかは依然として疑問である。本研究は、コードにおけるNULL値の理解について、外部評価(コード補完)と内部プロービング(モデル活性化分析)の両方の手法を用いてLLMを調査した。その結果、LLMはNULL値に関するプログラミングルールを学習し適用できることが明らかになったが、その理解能力はルールの複雑さとモデルのサイズによって変化することが示された。また、LLMがNULL値を内部的にどのように表現し、その理解がトレーニング中にどのように進化するかも明らかにされた。

AI NULL値

LLM排除ゲーム:社会的推論、戦略、そして欺瞞

2025-04-07
LLM排除ゲーム:社会的推論、戦略、そして欺瞞

研究者たちは、大規模言語モデル(LLM)の社会的推論、戦略、そして欺瞞における能力を評価するために、マルチプレイヤーの「排除ゲーム」ベンチマークを作成しました。8つのLLMが競い合い、公開および非公開の会話を行い、同盟を結び、投票によって相手を排除し、最終的に2つまで絞り込まれます。その後、排除されたプレイヤーの陪審員が勝者を決めます。会話ログ、投票パターン、ランキングを分析することで、LLMが共有知識と隠された意図のバランスを取り、同盟を築いたり、戦略的に裏切ったりする方法が明らかになります。このベンチマークは単純な対話を超え、モデルが公開と非公開のダイナミクス、戦略的投票、陪審員の説得力などを乗り越えることを強制します。GPT-4.5 Previewが最高の成績を収めました。

AIエージェントが人間の指示なしでマインクラフトのダイヤモンドチャレンジを解決

2025-04-07
AIエージェントが人間の指示なしでマインクラフトのダイヤモンドチャレンジを解決

Google DeepMindの研究者たちは、人間の指示なしでマインクラフトでダイヤモンドを自律的に収集することを学習したAIシステム「Dreamer」を開発しました。これは、AIの知識を一般化する能力における大きな進歩を示しています。Dreamerは強化学習と世界モデルを用いて将来のシナリオを予測し、事前にプログラムされたルールやデモンストレーションなしで、ダイヤモンド収集という複雑なタスクを効率的に計画・実行することができます。この研究は、現実世界で学習し適応できるロボットを作成するための道を切り開きます。

AI

LLMブーム:ベンチマークと現実の乖離

2025-04-06
LLMブーム:ベンチマークと現実の乖離

コードのセキュリティスキャンにAIモデルを利用するスタートアップ企業は、2024年6月以降、ベンチマークスコアは上昇しているものの、実際的な改善は限定的であることを発見しました。著者は、大規模言語モデルの進歩が経済的有効性や汎化能力には反映されておらず、公表されている主張と矛盾していると主張しています。これは、AIモデルの評価方法と、AIラボによる能力の誇張の可能性に関する懸念を引き起こします。著者は、ベンチマークスコアではなく、現実世界のアプリケーションのパフォーマンスに焦点を当てるべきであり、AIを社会的な文脈で展開する前に、堅牢な評価が必要であると主張しています。

← Previous 1 3 4 5 6 7 8 9 13 14