Category: AI

ルカン:大規模言語モデルは5年以内に時代遅れになる

2025-04-05
ルカン:大規模言語モデルは5年以内に時代遅れになる

MetaのチーフAIサイエンティストであるヤン・ルカンは、大規模言語モデル(LLM)は5年以内にほぼ時代遅れになると予測しています。彼は、現在のLLMは物理世界への理解を欠いており、単純で離散的な空間(言語)で動作する特殊なツールに過ぎないと主張しています。ルカンと彼のチームは、視覚入力から物理世界の表現を作成することを目指すJEPAと呼ばれる代替アプローチを開発しており、これにより、LLMを凌駕する真の推論と計画能力が可能になります。彼は、AIが人間を置き換えるのではなく、人間の知性を増強することで社会を変革すると予想しており、AIが実存的リスクをもたらすという主張を否定しています。

AI

画期的なOCRシステム:AI教育データセットを強化

2025-04-05
画期的なOCRシステム:AI教育データセットを強化

機械学習向けに最適化された画期的なOCRシステムが、試験問題などの複雑な教育資料から構造化データを抽出します。多言語テキスト、数式、表、図表に対応し、高品質なトレーニングデータセットの作成に最適です。このシステムは、抽出された要素に意味的な注釈を付け、図表の説明テキストなど、自然言語による説明を自動的に生成します。日本語、韓国語、英語に対応し、他の言語にも容易にカスタマイズできます。出力は、数式の分かりやすい説明、表の要約、図表のキャプションなどを含む、AI対応のJSONまたはMarkdown形式です。実世界の学術データセットで90~95%以上の精度を達成し、科学的内容が密集した複雑なレイアウトや豊富な視覚要素を処理します。

AI

OpenAIのo3モデル、ARC-AGIテストでブレークスルー達成もAGIの定義は依然として議論の的

2025-04-04
OpenAIのo3モデル、ARC-AGIテストでブレークスルー達成もAGIの定義は依然として議論の的

OpenAIの最新モデルo3は、François Cholletが開発したARC-AGIテストで驚異の87%というスコアを達成し、初めて人間のレベルに到達したことで、AGI(汎用人工知能)が実現したかどうかの激しい議論が巻き起こった。しかし、Cholletはすぐに、より難しいARC-AGI-2テストを発表し、o3のスコアは大幅に低下。AGIの定義と測定基準に対する業界の見解を改めて問うこととなった。この記事では、様々な意見や、AGIの定義と商業的利益の複雑な関係を探り、汎用人工知能の本質について深く考察する。

AI

LLMがビザンチン音楽記譜法の暗号を解読

2025-04-04

研究者たちは、ClaudeやGPT-4などの大規模言語モデルが、ビザンチン音楽記譜法のUnicodeブロックに基づく特殊な暗号を解読できることを発見しました。この暗号はシーザー暗号に似ていますが、オフセットが118784です。モデルは、思考連鎖なしでこの暗号を直接解読でき、通常のシーザー暗号よりも高い成功率を達成します。研究者たちは、特定のUnicode範囲における加算とトークンスペースにおける加算との間に線形関係があるため、モデルがこの関係に基づいたシフト暗号を学習できると仮定しています。この現象は、LLM内部にまだ完全に理解されていないメカニズムが存在することを示唆しています。

AI

Google、Sec-Gemini v1を発表:AIによるサイバーセキュリティの新時代

2025-04-04
Google、Sec-Gemini v1を発表:AIによるサイバーセキュリティの新時代

Googleは、サイバーセキュリティAIの限界を押し広げることを目的とした実験的なAIモデル、Sec-Gemini v1を発表しました。Geminiの高度な機能とほぼリアルタイムのサイバーセキュリティ知識とツールを組み合わせることで、Sec-Gemini v1は、インシデントの根本原因分析、脅威分析、脆弱性の影響の理解などの主要なワークフローにおいて優れた性能を発揮します。主要なベンチマークで他のモデルを上回り、CTI-MCQでは少なくとも11%、CTI-Root Cause Mappingでは少なくとも10.5%の改善を示しています。Googleは、協力関係を促進し、サイバーセキュリティにおけるAIの進歩を促進するために、Sec-Gemini v1を厳選された組織、機関、専門家、NGOに研究目的で無料で提供します。

AI

DeepMindによる安全なAGI開発の青写真:2030年のリスクへの対応

2025-04-04
DeepMindによる安全なAGI開発の青写真:2030年のリスクへの対応

AIブームが最高潮に達する中、焦点が人工汎用知能(AGI)に移っています。DeepMindの新しい108ページの論文は、安全なAGI開発という重要な問題に取り組んでおり、2030年までにAGIが登場する可能性を予測しています。この論文では、誤用、ずれ、間違い、構造上のリスクという4つの主要なリスクカテゴリを概説しています。これらのリスクを軽減するために、DeepMindは厳格なテスト、トレーニング後の堅牢な安全プロトコル、さらには危険な能力の「忘れさせる」可能性さえも提案しています。これは大きな課題です。この先見性のあるアプローチは、人間レベルのAIが引き起こす可能性のある深刻な被害を防ぐことを目的としています。

AI

ボノボの複雑な言語:部分の総和を超えて

2025-04-03
ボノボの複雑な言語:部分の総和を超えて

スイスの科学者たちは、ボノボが単純な音声信号を組み合わせ、複雑な意味構造を作り出せることを発見しました。これは、彼らのコミュニケーションが個々の音声の単純な合計ではなく、非自明な構成性を持っていることを意味します—かつては人間特有と考えられていた特徴です。研究者たちは、ボノボの鳴き声の大規模なデータベースを作成し、分布意味論を用いてその意味を解読しました。これにより、野生でのボノボのコミュニケーションに対する貴重な洞察が得られました。この研究は大変な労力を要し、研究者たちは早朝にボノボの巣まで行き、一日中鳴き声と文脈情報を記録する必要がありました。

AI 言語

AI画像生成:ジブリ風模倣が著作権問題を浮き彫りに

2025-04-03
AI画像生成:ジブリ風模倣が著作権問題を浮き彫りに

GPT画像生成の最近のアップデートにより、ユーザーはあらゆる画像をジブリ風に変換できるようになりました。これはAIのスタイル模倣能力の高さを示していますが、同時に深刻な著作権問題も提起しています。著者は実験を行い、GPTが、IPを明示的に言及しなくても、有名IPキャラクターに驚くほど似た画像を簡単に生成できることを示しました。これは驚くべきことであると同時に懸念事項でもあり、AIが知的財産権の盗用を助長する可能性を浮き彫りにしています。法律で視覚的なスタイルの模倣は認められていますが、その精度の高さは著作権法の境界線を曖昧にし、AI開発と著作権保護のバランスについて改めて考えるきっかけとなっています。

AI

2027年のAI:超知能への競争とリスク

2025-04-03
2027年のAI:超知能への競争とリスク

このレポートは、今後10年間に超人的なAIが及ぼす影響は計り知れず、産業革命を凌駕すると予測しています。OpenAIなどは、2つの可能性のある未来、つまり減速シナリオと競争シナリオをモデル化しました。このレポートは、2025年初頭のぎこちないエージェントから、コーディングと研究において人間を凌駕する能力を持つ2027年の超知能に至るまで、AIシステムの急速な進歩を詳細に説明しています。しかし、この急速な発展は、モデルの安全性や中国とのAI軍拡競争など、非常に大きなリスクも伴います。このレポートは、AIが雇用市場と地政学に及ぼす大きな影響を強調し、潜在的な軽減戦略を探っています。

AI

Onyx:オープンソースのジェネレーティブAIプラットフォームが1000万ドルのシードラウンドを調達

2025-04-03
Onyx:オープンソースのジェネレーティブAIプラットフォームが1000万ドルのシードラウンドを調達

Onyxは、企業のドキュメント、アプリケーション、従業員を接続するオープンソースのジェネレーティブAIプラットフォームです。Google Drive、Slack、GitHub、Confluence、Salesforceなど、さまざまな情報源から情報を取得して同期し、質問をするためのセントラルハブを作成します。最も知識豊富な同僚が、24時間365日、すべて一箇所に集まっていると想像してみてください!Onyxは、今後5年以内にすべての現代的なチームが知識強化されたジェネレーティブAIを採用すると信じており、この技術を世界のすべてのチームに提供することを目指しています。Khosla VenturesとFirst Round Capitalが主導する1000万ドルのシードラウンドを完了したばかりで、Netflix、Ramp、Applied Intuitionなどの顧客に加え、Roku、Zendesk、L3Harrisなどのオープンソースユーザーもいます。

MIT教授が脳の言語処理メカニズムを解明

2025-04-03
MIT教授が脳の言語処理メカニズムを解明

旧ソ連で複数の言語を習得した経験から、MITの脳・認知科学准教授となったEvelina Fedorenko博士は、脳の言語処理領域の研究に尽力しています。彼女の研究はfMRIを用いて、これらの領域を正確に特定し、それらが言語処理に対して非常に選択的であり、音楽の聴取やコードの解読などの他の認知機能と重複しないことを明らかにしました。さらに、異なる脳領域における処理の時間的差異、幼少期の言語処理領域の発達、そして大規模言語モデルを用いた研究を通じて、脳の言語能力の可塑性と冗長性を探っています。

AIの盲点:画像・動画生成モデルにおける鏡の反射

2025-04-03
AIの盲点:画像・動画生成モデルにおける鏡の反射

最近のAIによる画像・動画生成モデルは、驚くほどリアルな画像を生成できるようになりましたが、大きな課題が残っています。それは、鏡の反射を正確にレンダリングすることです。研究者たちは複数の主要なモデルをテストし、正しい反射を生成することに一貫して苦労していることを発見しました。モデルは、歪んだ、矛盾した、あるいは完全に間違った画像を生成することがよくありました。例えば、Geminiは猫や椅子の反射に失敗し、Ideogramはグループ写真の人の反射に苦労しました。これは重要な制約を示しています。AIによる画像生成は急速に進歩していますが、物理的な精度、例えば現実的な鏡の反射を実現することは、依然として大きな課題です。

AI

Anthropic、ChatGPTに対抗する教育向けClaudeを発表

2025-04-03
Anthropic、ChatGPTに対抗する教育向けClaudeを発表

Anthropicは、高等教育向けの新しいAIチャットボットサービス「Claude for Education」を発表し、OpenAIのChatGPT Eduと直接競合しています。このサービスは、学生と教員にClaudeへのアクセスを提供し、批判的思考を促進するための新しい「ラーニングモード」を搭載しています。企業レベルのセキュリティとプライバシーも備えており、ノースイースタン大学やロンドン経済政治大学などとの契約を既に締結しています。Anthropicはこのサービスを通じて収益の増加と学生ユーザーの拡大を目指しています。

AI

Apple、屋内3D物体検出向けCA-1MデータセットとCubify Transformerモデルを発表

2025-04-02
Apple、屋内3D物体検出向けCA-1MデータセットとCubify Transformerモデルを発表

Appleは、屋内3D物体検出のための、大規模データセットCA-1Mと、Cubify Transformer(CuTR)モデルを発表しました。CA-1Mは、網羅的にアノテーションされた3Dバウンディングボックスとポーズが含まれています。CuTRモデルには、RGB-D画像とRGB画像のみを使用する2つのバリアントが提供されています。このデータセットは、NeRF Captureアプリを使ったリアルタイム検出をサポートしており、包括的な手順とコード例が含まれています。研究者は、このデータセットとモデルを活用して、屋内3D物体検出の研究を進めることができます。

AIエージェント:アイデンティティが決定要因

2025-04-02
AIエージェント:アイデンティティが決定要因

この記事では、しばしば混乱を招くAIエージェントの定義について論じています。著者は、AIエージェントとAIアシスタントを区別する鍵は「アイデンティティ」にあると主張します。真のAIエージェントは、独自のアイデンティティで行動し、監査ログに反映されます。一方、AIアシスタントは人間のユーザーのアイデンティティで動作します。このアイデンティティに基づく定義は、自律性、能力、推論能力を意味します。著者は法的代理人と比較し、自身の会社の製品を例に挙げて、この定義の実用的な適用を示しています。

AI

リアルタイム内省圧縮:トランスフォーマーに良心を与える

2025-04-02
リアルタイム内省圧縮:トランスフォーマーに良心を与える

大規模言語モデル(LLM)は、内省機能の欠如と一時的な認知という2つの主要な制約を抱えています。この記事では、これら両方の問題に対処する、新しいリアルタイム内省圧縮手法を提案します。軽量な「サイドカー」モデルをトレーニングして、トランスフォーマーの内部状態を圧縮することで、モデルの内部動作への効率的なアクセスと再生を実現します。この手法は、ゲームの状態を保存するのと同様に、トランスフォーマーの状態を低次元潜在空間に圧縮し、完全な状態を保存するという計算上の課題を克服します。これにより、推論の巻き戻し、思考軌跡に基づく強化学習、メモリ効率の良いチェックポイントの保存など、新しい機能が可能になり、最終的にはより強力で解釈可能なAIシステムにつながります。

AI

Ace:超人的な速度を誇るコンピューターオートパイロット

2025-04-02
Ace:超人的な速度を誇るコンピューターオートパイロット

Aceは、マウスとキーボードを使用してデスクトップでタスクを実行するコンピューターオートパイロットです。様々なコンピューター使用タスクにおいて、他のモデルを凌駕するパフォーマンスと、超人的な速度を誇ります。ソフトウェアスペシャリストとドメインエキスパートによって、100万件以上のタスクでトレーニングされたAceは、画面とプロンプトに基づいて、マウスクリックとキーストロークを実行します。開発中であり、時折エラーが発生しますが、トレーニングリソースが増えるにつれて精度が大幅に向上します。早期の研究プレビュー版が利用可能です。

AI

MathArena:数学コンペティションにおけるLLMの厳格な評価プラットフォーム

2025-04-02

MathArenaは、最新の数学コンペティションとオリンピックにおける大規模言語モデル(LLM)の性能を評価するためのプラットフォームです。リリース後のコンペティションでのみモデルをテストすることで、公平で偏りのない評価を保証し、潜在的に漏洩したデータの事後的な評価を回避します。各コンペティションのリーダーボードを公開し、異なるモデルの個々の問題のスコアと、全コンペティションの性能をまとめたメインテーブルを提供します。各問題は各モデルで4回実行され、平均スコアとモデルコスト(USD)が計算されます。評価コードはオープンソースです:https://github.com/eth-sri/matharena。

ボルヘスとサイモン:1970年ブエノスアイレスの異分野融合対話

2025-04-02
ボルヘスとサイモン:1970年ブエノスアイレスの異分野融合対話

1970年ブエノスアイレスで、アルゼンチンの作家ホルヘ・ルイス・ボルヘスとAIの先駆者ハーバート・A・サイモンは、魅力的な異分野融合対話を交わしました。自由意志対決定論をテーマに、人間の行動とコンピュータプログラムの類似点を探りました。ボルヘスの鋭い質問は、人間の行動の決定論的性質と個人のアイデンティティの維持との調和をサイモンに迫りました。この交流は、異分野融合思考の価値を示し、今日の学問界が直面する課題へのタイムリーな考察を提供し、人文科学とSTEM分野の協調の必要性を強調しています。また、AIを用いた歴史上の人物のシミュレーションについても考えさせられます。

GoogleのGemini Robotics:初試練でダンクシュート成功

2025-04-02
GoogleのGemini Robotics:初試練でダンクシュート成功

Googleは、新しいGemini Roboticsモデルを発表しました。このモデルにより、ロボットは特定のオブジェクトやアクションに関する事前トレーニングなしで、バスケットボールのダンクシュートを初回試行で成功させるなど、複雑なタスクを実行できるようになりました。Gemini 2.0をベースに、ロボット固有のデータで微調整されたこのモデルは、マルチモーダル出力(テキスト、ビデオ、オーディオ)を物理的なアクションに変換します。高い器用さ、インタラクティブ性、汎用性を備え、追加のトレーニングなしで新しいオブジェクト、環境、指示に適応します。Googleの目標は、日常的なタスクを支援するロボットを動かす具現化されたAIを構築することで、最終的には電話やコンピューターと同じくらい一般的なAIインターフェースになることです。

AI

Pulse:複雑な文書データ抽出に取り組むAIスタートアップ

2025-04-02
Pulse:複雑な文書データ抽出に取り組むAIスタートアップ

Pulseは、データインフラストラクチャにおける長年の課題、つまり複雑な文書から正確で構造化された情報を大規模に抽出することに取り組んでいます。その画期的なアプローチは、インテリジェントなスキーママッピングと微調整された抽出モデルを組み合わせることで、従来のOCRやその他の構文解析ツールを凌駕しています。サンフランシスコに拠点を置くこの急成長中のチームは、フォーチュン100企業、Y Combinatorのスタートアップなどを顧客としており、一流の投資家から支援を受けています。その多段階アーキテクチャには、レイアウトの理解、低遅延OCR、高度な読み取り順序アルゴリズム、独自のテーブル構造認識、およびチャートやテーブル向けのビジョン言語モデルが含まれています。コンピュータビジョン、NLP、データインフラストラクチャに情熱を燃やしているなら、Pulseは顧客に直接影響を与え、文書インテリジェンスの未来を形作る機会を提供します。

OpenAI、GPT-4oの学習に無許可の有料書籍を使用したと非難される

2025-04-02
OpenAI、GPT-4oの学習に無許可の有料書籍を使用したと非難される

AI Disclosures Projectの新たな論文で、OpenAIが、主にO'Reilly Mediaからのライセンスのない有料書籍をGPT-4oモデルの学習に使用したと非難されている。この論文はDE-COP手法を用いて、GPT-4oがO'Reillyの有料コンテンツをGPT-3.5 Turboよりもはるかに高い精度で認識していることを示しており、学習データに大量の無許可データが含まれていることを示唆している。OpenAIは一部のデータライセンスを保有し、オプトアウトメカニズムも提供しているものの、これは著作権に関する既存の法的課題に拍車を掛けるものとなる。論文の著者は、自身の方法論の限界を認めているものの、その知見はOpenAIのデータ取得方法に関する深刻な懸念を引き起こしている。

AI

回路トレース:LLMにおける計算グラフの解明

2025-04-02
回路トレース:LLMにおける計算グラフの解明

研究者らは、クロスレイヤー・トランスコーダー(CLT)を用いて深層学習モデルの内部動作を解釈する新しいアプローチを発表しました。CLTはモデルの活性化をスパースで解釈可能な特徴に分解し、特徴間の相互作用の因果グラフを構築することで、モデルがどのように出力を生成するかを明らかにします。この手法は、様々なプロンプト(例:頭字語生成、事実の想起、簡単な足し算など)に対するモデルの応答をうまく説明し、摂動実験によって検証されています。注意機構を完全に説明できないなどの限界はありますが、大規模言語モデルの内部動作を理解するための貴重なツールを提供します。

単純なエージェントの相互作用から生まれる経済:シミュレートされた市場

2025-04-02
単純なエージェントの相互作用から生まれる経済:シミュレートされた市場

本稿では、個々のエージェントの行動に基づいて構築されたシミュレートされた市場経済モデルを紹介します。単純な売買決定ルールを用いることで、複雑な市場ダイナミクスを生成します。各エージェントは、商品の個人的な評価と予想される市場価格に基づいて意思決定を行い、取引後に期待値を調整します。シミュレーションは、平均的な個人的価値への収束を示し、環境変化に適応します。これは、オープンワールドRPGにおける動的な経済システムに対する新しいアプローチを提供しますが、取引のタイミングと希少性の問題に対処する必要があります。

AIのコンテキストウィンドウ:普遍的な標準が必要な理由

2025-04-01
AIのコンテキストウィンドウ:普遍的な標準が必要な理由

現在のAIモデルの知識は、事前学習段階で固定され、高価なファインチューニングによって限定的なアップデートしか行われません。そのため、カットオフ日以降の情報に対しては盲目となります。この記事では、AIにおける「コンテキスト」を考察します。ユーザー入力、会話履歴、外部情報源など、すべて「コンテキストウィンドウ」によって制限されています。この制限を克服するために、外部データソースの普遍的な標準が不可欠であり、AIがリアルタイム情報にアクセスし、より高度な知能と機能を実現できるようにします。

DeepMindの論文発表規制が社内混乱を招く

2025-04-01
DeepMindの論文発表規制が社内混乱を招く

DeepMindの論文審査プロセスの厳格化が、社員の不満を招いている。OpenAIのChatGPTの脆弱性を明らかにした論文がブロックされたと報じられ、学問の自由よりも商業利益が優先されているのではないかという懸念が出ている。より厳格な審査プロセスは、社員の退職にもつながっており、研究者のキャリアにとって論文発表は不可欠である。さらに、社内リソースはDeepMindのGemini AI製品群の改善にますます重点が置かれている。GoogleのAI製品は市場で成功し、株価も上昇しているものの、社内の緊張は、学術研究と商業化の対立を浮き彫りにしている。

線虫の脳シミュレーション:全脳エミュレーションへの足掛かりか?

2025-04-01

人間の脳のシミュレーションは科学界の聖杯でしたが、その複雑さは大きな課題となっています。そこで科学者たちは、わずか302個のニューロンしか持たない線虫C. elegansに注目しました。25年間にわたる数々の失敗を経て、ライトシート顕微鏡、超解像顕微鏡、機械学習の進歩により、ついに線虫の脳シミュレーションが実現可能になりつつあります。これらの技術により、生きた線虫の脳のニューロン活動をリアルタイムで観察し、機械学習を用いてニューロンの生物物理学的パラメーターを推定することが可能になりました。C. elegansの脳をシミュレーションすることに成功すれば、それは画期的な科学的成果となるだけでなく、より複雑な脳、最終的には人間の脳のシミュレーションのための貴重な経験と手法を提供し、将来のAIと神経科学研究の道を切り開くでしょう。

意味の終末:AIアートと驚異の喪失

2025-04-01
意味の終末:AIアートと驚異の喪失

この記事は、AI生成アートがアートの意味に与える影響を探求し、かつては信じられないほど困難で高価だった顔料である群青を例に挙げています。著者は、AIアート作成の容易さが、伝統的なアートに関連付けられていた驚異感や独自性を低下させ、快楽の適応につながると主張しています。これはAI特有の問題ではなく、技術の進歩によってかつては稀だった経験が一般的になるという歴史的な繰り返しパターンです。提案されている解決策は技術的なものではなく、個人的なものです。つまり、子供のような驚異感を育み、世界に積極的に関わることで、簡単に手に入る豊かさによって引き起こされる感性の鈍化を克服することです。

Jargonic:業界特化型音声認識モデルの革命

2025-04-01
Jargonic:業界特化型音声認識モデルの革命

aiOla社は、業界特有の専門用語、騒音環境、リアルタイム適応性における既存のASRモデルの限界に対処する画期的な自動音声認識(ASR)モデル、Jargonicを発表しました。Jargonicは、高度なドメイン適応、リアルタイムコンテキストキーワード検出、ゼロショット学習を用いて、追加のトレーニングなしで業界固有の言語を処理します。独自のキーワード検出メカニズムとASRエンジンを組み合わせることで、特に専門用語を含む音声における転写精度が大幅に向上します。さらに、Jargonicは堅牢なノイズ処理機能を備え、複数の言語と騒音の多い産業環境で高いパフォーマンスを維持します。ベンチマークテストでは、OpenAI Whisperなどの競合他社を凌駕しています。

AI

生成AI市場の大変革:Gartner、市場統合と淘汰を予測

2025-04-01
生成AI市場の大変革:Gartner、市場統合と淘汰を予測

Gartnerは、生成AI(GenAI)市場において、大規模な統合が起こり、最終的には少数の主要プレイヤーしか残らないと予測しています。現在、多くの巨大言語モデル(LLM)プロバイダーは、激しい競争市場において、高額な開発・運用コストと苦戦しています。アナリストのJohn-David Lovelock氏は、AWS、Azure、Google Cloudのような状況を反映して、市場が少数の巨大企業によって支配されるようになると予測しています。企業は、独自のAIソフトウェアを開発するのではなく、市販のソリューションを採用する傾向が高まっています。GenAI市場は2025年までに6440億ドルに達すると予測されていますが、LLM開発者は収益よりも市場シェア獲得を優先しており、弱いプレイヤーが徐々に淘汰されると予想されます。これは、ドットコムバブル崩壊のような急速な崩壊ではなく、段階的な統合となります。

1 2 25 26 27 29 31 32 33 40 41