Category: AI

ボストン・ダイナミクス、Atlasロボットの強化学習向上のためRAI研究所と提携

2025-02-06
ボストン・ダイナミクス、Atlasロボットの強化学習向上のためRAI研究所と提携

ボストン・ダイナミクスは、自社のRobotics & AI Institute(RAI研究所)と提携し、電動型ヒューマノイドロボットAtlasの強化学習能力を向上させることを発表しました。この協力は、Atlasによる新しいタスクの学習を加速し、動的な走行や重い物体の操作などの現実世界の環境における動作や相互作用を改善することを目指しています。これは、ロボット工学における強化学習の大きな進歩であり、Figure AIがOpenAIとの提携を解消した事例と同様に、ロボットAIの垂直統合の重要性を強調しています。

集合論を用いた複雑系の解明:単純な因果関係を超えて

2025-02-06

この記事では、集合論の一分野であるメレオロジーに基づいた、複雑系における高次構造の理解のための新しいアプローチを紹介しています。ボロメオ環を例に、全体が部分の総和以上であることを示しています。著者らは、系のメレオロジーを構築し、メビウス反転公式を適用することで、巨視的な量を微視的な寄与の総和に分解し、高次相互作用の本質を明らかにできると提案しています。遺伝子の相互作用や情報理論における相互情報量といった例を通して、この手法の応用を示し、機械学習や物理学への応用可能性を示唆しています。

LLMのための推論モデル構築の4つのアプローチ

2025-02-06
LLMのための推論モデル構築の4つのアプローチ

この記事では、大規模言語モデル(LLM)の推論能力を高めるための4つの主要なアプローチを探ります。推論時間スケーリング、純粋な強化学習、教師ありファインチューニングと強化学習の組み合わせ、そしてモデル蒸留です。DeepSeek R1の開発をケーススタディとして使用し、これらの方法がどのように強力な推論モデルを構築できるか、そして予算の限られた研究者でも蒸留によって素晴らしい結果を得られるかを示します。また、DeepSeek R1とOpenAIのo1を比較し、費用対効果の高い推論モデルを構築するための戦略についても議論します。

AI

AIエージェントが人間のようにコンピューターを使うことを学習

2025-02-06
AIエージェントが人間のようにコンピューターを使うことを学習

r1-computer-useプロジェクトは、ファイルシステム、Webブラウザ、コマンドラインなど、人間のようにコンピューターを操作できるAIエージェントを訓練することを目指しています。DeepSeek-R1の強化学習技術に触発されたこのプロジェクトは、従来のハードコーディングされた検証器の代わりに、エージェントのアクションの正しさや有用性を評価するためのニューラル報酬モデルを使用しています。トレーニングパイプラインは、専門家のデモンストレーションから報酬モデルによるポリシー最適化とファインチューニングまで、複数の段階を含み、最終的には複雑なタスクを実行できる安全で信頼性の高いAIエージェントを目指しています。

50ドル以下で最先端AIモデルに匹敵する推論モデルが登場

2025-02-06
50ドル以下で最先端AIモデルに匹敵する推論モデルが登場

スタンフォード大学とワシントン大学の研究者らが、クラウドコンピューティング費用50ドル以下で、s1というAI推論モデルを開発した。s1は、数学やコーディング能力を測るテストにおいて、OpenAIのo1やDeepSeekのR1などの最先端の推論モデルと同等の性能を示す。チームは、GoogleのGemini 2.0 Flash Thinking Experimentalを教師モデルとして、厳選された1000問の質問と回答のデータセットを用いた知識蒸留法を利用した。この低コストでの再現は、AIモデルの商品化に関する議論を巻き起こし、大手AIラボを動揺させていると伝えられている。

1890年代のキネトスコープ:AI時代の孤独の予兆?

2025-02-05
1890年代のキネトスコープ:AI時代の孤独の予兆?

この記事は、1890年代の単独利用者向けキネトスコープと、今日のAI技術、特に大規模言語モデルとの類似点を論じています。記事は、両方の技術が大量生産されたコンテンツを提供しながら、同時に相互接続されながらも原子化された体験を生み出し、新しい種類のテクノロジーによる孤独をもたらすと主張しています。著者は、エジソンの発明の歴史的文脈とその驚くほど先見の明のある設計上の選択を探り、パーソナライズされたアルゴリズムフィードやAIコンパニオンへの現在の依存との奇妙な類似点を強調しています。これは、技術の進歩の方向性とその個人の経験への影響について熟考するきっかけとなります。

AI

ヘルクラネウム・パピルス5:インク検出におけるブレイクスルー

2025-02-05
ヘルクラネウム・パピルス5:インク検出におけるブレイクスルー

オックスフォードのボドリアン図書館にあるP.Herc. 172(スクロール5)のインク検出とセグメンテーションにおいて、大きな進歩が達成されました。このスクロールは、異常に目に見えるインクを示しており、インク検出モデルのトレーニングに大いに役立っています。セグメンテーションにはさらなる改良が必要ですが、予備的な分析では、フィロデモスが著者である可能性が示唆されており、「嫌悪感」、「恐怖」、「人生」などの単語や、完成した作品を示唆する記号が識別されました。スクロール5の独自の特性は、他のスクロールのインク検出における「ロゼッタストーン」としての可能性を提供します。チームは、研究を促進するために、広範なセグメンテーションデータを開放しました。

Gemini 2.0ファミリーの大幅アップデート:パフォーマンス向上とマルチモーダル機能強化

2025-02-05
Gemini 2.0ファミリーの大幅アップデート:パフォーマンス向上とマルチモーダル機能強化

GoogleがGemini 2.0ファミリーのモデルを大幅にアップデートしました!2.0 FlashモデルがAPI経由で一般公開され、開発者は本番アプリケーションを構築できるようになりました。コーディングパフォーマンスと複雑なプロンプト処理に優れた200万トークンのコンテキストウィンドウを持つ2.0 Proの試験版もリリースされました。コスト効率の高い2.0 Flash-Liteモデルもパブリックプレビューで利用可能です。全てのモデルは現在、テキスト出力によるマルチモーダル入力をサポートしており、今後数ヶ月でさらに多くのモダリティが追加される予定です。今回のアップデートはパフォーマンスを大幅に向上させ、適用範囲を拡大し、AI分野におけるGeminiの大きな一歩となりました。

AI

Netflix賞:機械学習におけるマイルストーンと苦い教訓

2025-02-05
Netflix賞:機械学習におけるマイルストーンと苦い教訓

2006年、Netflixは推薦システムを改善するために100万ドルのコンテストを開催しました。このコンテストは数千ものチームを引きつけ、機械学習分野の進歩に大きく貢献しました。結果は、シンプルなアルゴリズムでも驚くほど良い成果が得られること、より大きなモデルの方がスコアが高くなること、過学習が常に問題になるわけではないことを示しました。しかし、このコンテストは苦い教訓も残しました。データプライバシーに関する懸念から、Netflixは今後のコンテストを中止し、推薦システムアルゴリズムに関する公開研究を制限しました。テクノロジー企業によるデータへの支配はかつてないほど強まっています。

AI

6ドルのAIモデルがLLMの状況を一変:S1が登場

2025-02-05
6ドルのAIモデルがLLMの状況を一変:S1が登場

新しい論文で、わずか6ドルでトレーニングされたAIモデルS1が発表されました。標準的なラップトップで動作しながら、最先端の性能に匹敵する結果を示しています。その秘密は、巧妙な「推論時間スケーリング」手法にあります。LLMの思考プロセス中に「待機」コマンドを挿入することで、思考時間を制御し、パフォーマンスを最適化します。これはEntropixテクニックと共通点があり、どちらもモデルの内部状態を操作して性能向上を図ります。S1はデータ使用量が極めて少なく、厳選された1000個のサンプルのみで驚くべき成果を上げており、AI研究に新たな道を切り開くとともに、モデル蒸留と知的財産の議論を引き起こしています。S1の低コストと高効率は、AI開発のペースが加速することを示唆しています。

Toma:1.5兆ドル規模の自動車業界向けAI労働力の構築

2025-02-05
Toma:1.5兆ドル規模の自動車業界向けAI労働力の構築

Tomaは、1.5兆ドル規模の自動車業界向けにエンドツーエンドのAI労働力を構築しています。主要顧客は、AIで容易に自動化できるプロセス(顧客サービス、修理注文管理、保証処理、販売など)に年間15億ドル以上を費やしています。Tomaチームは、成功したAIアプリケーションの構築と販売の実績、クラス最高の音声AI製品、そして自動車ディーラーとの直接的な協力と研究から得られた深い現場経験を誇っています。チーム重視、責任あるアプローチで運営され、データ主導の意思決定と大きな自律性を重視しています。サンフランシスコのDogpatch地区に拠点を置くTomaは、優れた人材が大きな影響を与えることができる、迅速で飾り気のない環境を提供しています。週5日間オフィスで勤務しています。

AI

Google、兵器や監視のためのAI開発を誓約から削除

2025-02-04
Google、兵器や監視のためのAI開発を誓約から削除

Googleは今週、兵器や監視のためのAIを開発しないと誓約していた声明をウェブサイトから静かに削除しました。Bloombergが最初に報じたこの変更は論争を巻き起こしました。Googleは現在、国際法と人権に沿った責任あるAI開発を強調していますが、米国とイスラエル軍との契約、そしてペンタゴンがGoogleのAIが軍の「キルチェーン」を加速させているという主張は、表明された原則と行動のギャップに関する懸念を引き起こしています。従業員の内部抗議と世間の注目は、AI開発と展開を取り巻く倫理的なジレンマを浮き彫りにしています。

LLMの高効率学習の錬金術:計算能力の限界を超えて

2025-02-04

この記事では、大規模言語モデル(LLM)を大規模に効率的に学習させる方法について深く掘り下げています。著者は、数万ものアクセラレータを使用する場合でも、比較的単純な原則によってモデルのパフォーマンスを大幅に向上させられると主張しています。取り上げられているトピックには、モデルのパフォーマンス評価、さまざまな規模での並列処理スキームの選択、大規模Transformerモデルの費用と時間の推定、特定のハードウェアの利点を活用したアルゴリズムの設計などがあります。TPUとGPUアーキテクチャの詳細な説明とTransformerアーキテクチャの綿密な分析を通して、読者はスケーリングのボトルネックをよりよく理解し、より効率的なモデルとアルゴリズムを設計できるようになります。

OmniHuman-1:1段階条件付きヒューマンアニメーションモデルのスケーリングの再考

2025-02-04

OmniHuman-1は、リアルな人間ビデオを生成できるAIモデルです。様々な視覚的および音声的なスタイルをサポートし、任意のアスペクト比と体の比率(ポートレート、半身、全身)でビデオを生成します。リアリズムは、包括的なモーション、ライティング、テクスチャの詳細から生まれます。このモデルは、歌、会話、様々なポーズなど、多様な入力を処理し、漫画や難しいポーズからも対応します。正確な制御のために、オーディオとビデオの駆動信号を利用しています。倫理的な考慮事項にも対処されており、画像は公共ドメインまたは生成されたモデルから取得されています。

Radiant Foam:リアルタイム微分可能レイ トレーシングのブレークスルー

2025-02-04

研究者らは、ボリューメトリックメッシュレイ トレーシングの効率性とスプラッティング手法の再構成品質を組み合わせた新しいシーン表現法「Radiant Foam」を発表しました。Voronoi図とDelaunay三角形分割を利用することで、Radiant Foamはハードウェアアクセラレーションされたガウスレイ トレーシングを速度で上回り、ガウススプラッティング手法の再構成品質に匹敵するリアルタイムレイ トレーシングを実現します。複雑なアクセラレーション構造や特別なハードウェア/APIを必要とせず、標準的なプログラマブルGPUのみで動作します。この画期的な技術は、リアルタイムレンダリング技術の飛躍的な進歩を約束します。

OpenAIがソフトバンクと30億ドルの合弁事業、モデルのオープンソース化も示唆

2025-02-04
OpenAIがソフトバンクと30億ドルの合弁事業、モデルのオープンソース化も示唆

OpenAIは月曜日に、日本のソフトバンクとの合弁事業を発表しました。ソフトバンクはOpenAIのソフトウェアを使用するために年間30億ドルを投資します。これは、DeepSeekの予想外の台頭を踏まえた戦略変更のようです。中国企業DeepSeekの先端人工知能モデルは、OpenAIのChatGPTなどの製品に比べてごくわずかなコンピューティングパワーしか使用せず、AI拡大の技術的、財務的要件に関する広く行き渡っていた仮定を覆しました。一方、OpenAIのCEOであるSam Altman氏は、DeepSeekのように製品をオープンソース化する可能性を検討していると述べ、OpenAIのモデルを誰でも使用して再利用できるようになる可能性を示唆しました。Altman氏はRedditで、OpenAIはソースコードを非公開にしてきたことを「歴史の誤った側に立っていた」と述べました。

ボノボは他者の無知を理解する:心の理論研究のブレークスルー

2025-02-04
ボノボは他者の無知を理解する:心の理論研究のブレークスルー

新しい研究によると、ボノボは心の理論を持っており、他者の知識の欠如を理解し、それに応じて行動することが示されました。研究者たちは、ボノボが実験者を手伝って隠されたおやつを見つける実験を行いました。その結果、ボノボは実験者がおやつの場所を知らないことに気づくと、より早く、より頻繁に指さしをすることがわかりました。これは、ボノボが異なる視点を追跡し、それに反応することを示しており、心の理論が以前考えられていたよりも古く、共通の祖先に存在していた可能性があることを示唆しています。

Auto-AVSR:オープンソースの唇読み音声認識フレームワーク

2025-02-03
Auto-AVSR:オープンソースの唇読み音声認識フレームワーク

Auto-AVSRは、視覚的な音声(唇読み)に焦点を当てた、エンドツーエンドのオーディオビジュアル音声認識(AV-ASR)のためのオープンソースフレームワークです。LRS3ベンチマークで、視覚音声認識(VSR)で20.3%、音声認識(ASR)で1.0%の単語誤り率(WER)を達成しました。トレーニング、評価、APIの使用に関するコードとチュートリアルを提供し、マルチノードトレーニングをサポートしています。ユーザーは、事前トレーニングされたモデルを利用するか、ゼロからトレーニングし、必要に応じてハイパーパラメータをカスタマイズできます。

OpenEuroLLM:ヨーロッパが推進するオープンソース多言語LLM

2025-02-03

20の主要な欧州の研究機関と企業のコンソーシアムが、高性能な多言語大規模言語モデル(LLM)ファミリーを構築するプロジェクト、OpenEuroLLMを立ち上げました。このイニシアチブは、オープンソースの原則を通じて高品質なAI技術へのアクセスを民主化することで、ヨーロッパのAI競争力を高めることを目指しています。これにより、欧州企業と公共機関は、影響力のある製品とサービスを開発できるようになります。OpenEuroLLMは、欧州の規制枠組みの中で運営され、オープンソースコミュニティと協力して、モデル、ソフトウェア、データ、評価の完全なオープン性を確保し、公共部門と民間部門の多様なニーズに対応しながら、言語と文化の多様性を維持しています。

AI

失われたIBM研修資料:コンピューターは責任を問われない(1979年)

2025-02-03
失われたIBM研修資料:コンピューターは責任を問われない(1979年)

1979年のIBM社内研修資料の伝説的なページがオンラインで再浮上し、「コンピューターは決して責任を問われることはできない。したがって、コンピューターは決して経営上の意思決定を行ってはならない。」と述べている。元の資料は紛失しており、洪水で破壊されたと伝えられている。この声明は、AI主導の現代において強い反響を呼び、AIの責任と意思決定について熟考を促している。

s1:シンプルなテスト時スケーリングによる強力な推論性能

2025-02-03
s1:シンプルなテスト時スケーリングによる強力な推論性能

この論文では、s1というシンプルなテスト時スケーリング手法を紹介しています。わずか1000個のサンプルと予算制約だけで、o1-previewに匹敵する強力な推論性能を実現します。この手法は、巧妙なテスト時戦略により、大規模言語モデルのパフォーマンスを大幅に向上させます。コードとデータはオープンソース化されており、再現性とさらなる調査を容易にします。

Anthropicの憲法分類器:AIジェイルブレイクに対する新たな防御策

2025-02-03
Anthropicの憲法分類器:AIジェイルブレイクに対する新たな防御策

Anthropicのセーフガード研究チームは、AIジェイルブレイクに対する新たな防御策として、憲法分類器を発表しました。このシステムは、合成データでトレーニングされ、有害な出力を効果的にフィルタリングしながら、誤検知を最小限に抑えます。プロトタイプは、数千時間にわたる人間のレッドチームテストに耐え、ジェイルブレイクの成功率を大幅に削減しましたが、当初は高い拒否率と計算オーバーヘッドに悩まされていました。更新版は、拒否率のわずかな増加と適度な計算コストだけで、堅牢性を維持しています。期間限定のライブデモでは、セキュリティ専門家を招いて耐性をテストし、ますます強力になるAIモデルのより安全な展開への道を切り開きます。

Klarity:生成モデルにおける不確実性の解明

2025-02-03
Klarity:生成モデルにおける不確実性の解明

Klarityは、生成モデルの出力における不確実性を分析するためのツールです。生の確率分析と意味理解を組み合わせることで、テキスト生成中のモデルの動作に関する深い洞察を提供します。このライブラリは、二重エントロピー分析、意味クラスタリング、構造化されたJSON出力、そして人間が読める洞察を提供するAI駆動型分析を提供します。現在Hugging Face Transformersをサポートしており、より幅広いフレームワークとモデルのサポートを計画しています。

知覚整合型動的顔面投影マッピング:高速顔トラッキングと同軸設定

2025-02-03
知覚整合型動的顔面投影マッピング:高速顔トラッキングと同軸設定

研究者らは、位置ずれアーティファクトを大幅に低減する、新しい高速動的顔面投影マッピング(DFPM)システムを開発しました。これは、切り抜き領域に限定した補間/外挿に基づく顔検出と、高速な回帰木アンサンブル(ERT)によるランドマーク検出(0.107ミリ秒)を用いた高速顔トラッキング手法によって実現されます。レンズシフト付き同軸プロジェクターカメラ設定は、最小限の誤差(1m~2m間で1.274ピクセル)で高い光学アライメントを維持します。このシステムはほぼ完璧なアライメントを実現し、メイクアップやエンターテイメントにおける没入型体験を向上させます。

ベイズ主義的認識論入門:確信度、証拠、合理性

2025-02-03

このチュートリアルでは、ベイズ主義的認識論を紹介し、その中核となる規範である確率主義と条件化の原理に焦点を当てています。エディントンによる日食観測をケーススタディとして使用し、ベイズ的方法がどのように仮説への確信度を更新するかを示します。その後、事前確率、コヒーレンス、条件化の範囲に関するベイズ主義内部の相違点を検討し、オランダのブック・アルゴリズム、精度優位性アルゴリズム、比較確率からのアルゴリズムなどの基本的な議論を紹介します。最後に、理想化の問題と、科学におけるベイズ的方法の応用について論じます。

真の思考 vs. 偽の思考:AI時代の覚醒

2025-02-03
真の思考 vs. 偽の思考:AI時代の覚醒

このエッセイは、「真の思考」と「偽の思考」の違いを探求しています。著者は、「真の思考」とは単に具体的な事柄について考えることではなく、抽象的な概念や既存の枠組みにとらわれず、世界を真に理解することに焦点を当てた、より深く、洞察力のある思考方法であると主張しています。AIリスク、哲学、討論会などを例に、「真の思考」のいくつかの側面を概説し、速度を落とす、好奇心を追求する、思考の動機に注意を払うなど、この能力を養う方法を提案しています。著者は、AI時代に覚醒を保ち、「偽の思考」の罠を避け、真に変化を理解し、対応することを求めています。

TopoNets:脳のようなトポグラフィーを持つ高性能な視覚・言語モデル

2025-02-03
TopoNets:脳のようなトポグラフィーを持つ高性能な視覚・言語モデル

研究者らは、TopoLossという新しい手法を発表しました。この手法は、最小限のパフォーマンス低下で、主要なAIアーキテクチャ(畳み込みニューラルネットワークとトランスフォーマー)に脳のようなトポグラフィーを取り込むことができます。結果として得られるTopoNetsは、教師ありトポグラフィックニューラルネットワークの中で最高性能を達成します。TopoLossは簡単に実装でき、実験により、TopoNetsは高い性能を維持しながら、脳のような空間的な組織構造を示すことが明らかになりました。さらに、TopoNetsは、スパースでパラメータ効率の良い言語モデルを生み出し、画像認識において脳の視覚皮質と同様の領域選択性を示し、言語モデルにおいては脳のニューロンと同様の時間的統合ウィンドウ特性を示します。これは、脳の視覚皮質や言語処理領域で観察されるパターンを反映しています。

AI

OpenAIの「ストロベリー」プロジェクト:AIの深層推論を目指す

2025-02-03
OpenAIの「ストロベリー」プロジェクト:AIの深層推論を目指す

OpenAIは、「ストロベリー」というコードネームのプロジェクトを秘密裏に開発しており、現在のAIモデルの推論能力の限界を克服することを目指しています。このプロジェクトは、AIが単に質問に答えるだけでなく、自律的にインターネット上で深い調査を行うための計画を立てられるようにすることを目指しています。内部文書によると、「ストロベリー」モデルは、特殊なポストトレーニング手法と、自己学習と計画能力を組み合わせることで、複雑な問題を確実に解決します。これは、科学的発見やソフトウェア開発におけるAIの役割に革命を起こす可能性がある大きなブレークスルーと見なされていますが、同時に、将来のAI能力に関する倫理的な懸念も引き起こしています。

AI

中国のAIチャットボットDeepSeek、「戦車男」の写真を検閲、米国市場を揺るがす

2025-02-02
中国のAIチャットボットDeepSeek、「戦車男」の写真を検閲、米国市場を揺るがす

中国のAIチャットボットDeepSeekが、1989年の天安門広場の象徴的な「戦車男」の写真に関する質問に答えることを拒否し、論争を巻き起こしている。このチャットボットは、写真や中国に関するその他のデリケートな話題に関する議論を突然打ち切りますが、英国首相などの世界指導者に関する質問には詳細な回答を提供します。同時に、DeepSeekの強力な画像生成機能(Janus-Pro-7B)と驚くほど低い開発コスト(伝えられるところによるとわずか600万ドル)は、米国市場に衝撃を与え、Nvidiaの株価が過去最大の17%下落し、米国のテクノロジー大手や政治家から懸念の声が上がっています。

SF作家テッド・チャンが語るAIとテクノロジーの未来

2025-02-02
SF作家テッド・チャンが語るAIとテクノロジーの未来

このインタビューでは、SF界の巨匠テッド・チャンが、自身の創作のインスピレーション、AIに対する批判的な視点、そしてテクノロジーの未来への懸念について語っています。チャンは、現在のAI、特に大規模言語モデルは、インターネットの低解像度画像のようなもので、信頼性と真の理解力に欠けていると主張します。彼は人間とツールの関係、そして人間がツールの中に自分自身を見出す傾向を強調しています。インタビューでは、言語の本質、AIの芸術創造における役割、テクノロジー開発における倫理的な考慮事項についても触れられています。チャンはテクノロジーへの楽観的な見方は慎重で、潜在的な悪影響に留意し、その害を軽減する努力をする必要があると考えています。

AI
1 2 33 34 35 36 37 38 40