Category: AI

Sesame AI、10億パラメーターの会話型音声モデルを発表

2025-03-18
Sesame AI、10億パラメーターの会話型音声モデルを発表

Sesame AI Labsは、Llamaアーキテクチャに基づく10億パラメーターの会話型音声モデルCSM(Conversational Speech Model)を発表しました。CSMは、テキストと音声入力からRVQオーディオコードを生成します。CSMのチェックポイントはHugging Faceで公開されており、インタラクティブな音声デモと、音声生成をテストするためのHugging Faceスペースも提供されています。様々な声を生成できますが、特定の声に微調整されておらず、多言語対応は限られています。Sesame AIは、研究と教育目的でのみ使用することを強調し、なりすまし、虚偽情報の拡散、違法行為を禁止しています。

AI

モデルこそが製品:AI投資の次のフロンティア

2025-03-18

AIの次の波に関する憶測は多い。著者は、答えは明らかだと主張する。モデルそのものが製品なのだ。汎用モデルのスケーリングは鈍化し、専門的なトレーニングは期待を上回り、推論コストは低下している。これにより、モデルプロバイダーはバリューチェーンを上昇せざるを得なくなり、アプリケーション層は自動化と破壊に直面する。OpenAIのDeepResearchとAnthropicのClaude 3.7はこれを示している。単なるLLMやチャットボットではなく、特定のタスクのために設計されたモデルだ。これはAIの新たな段階を示している。モデルトレーナーが支配し、アプリケーション開発者は置き換えられるリスクがある。アプリケーション層への投資は失敗する可能性があり、モデルトレーニングが真の価値を有する。AIの将来の成功は、モデルをトレーニングできる能力を持ち、多様な専門知識を持つチームと強い集中力を持つ企業にある。

DustのQuery Tables:構造化データ分析を可能にするAIエージェント

2025-03-18
DustのQuery Tables:構造化データ分析を可能にするAIエージェント

Dustは、構造化データに対するSQLクエリを可能にする強力なAIエージェントツール「Query Tables」を構築しました。当初はCSVファイルに対応していましたが、Notionデータベース、Googleスプレッドシート、Office 365スプレッドシートへと進化し、最終的にはSnowflakeやBigQueryなどのエンタープライズデータウェアハウスへの接続を実現しました。統一された抽象化レイヤーにより、ユーザーは同じSQLインターフェースを使用して様々なデータソースをクエリし、異なるソースからのデータを組み合わせて分析することもできます。将来的な計画には、Salesforceとの統合によるデータ分析能力の更なる拡張が含まれています。

オープンソース大規模言語モデルOLMo-2がGPT-3.5を凌駕?Macでも簡単に実行可能!

2025-03-18
オープンソース大規模言語モデルOLMo-2がGPT-3.5を凌駕?Macでも簡単に実行可能!

320億パラメーターを持つオープンソースの大規模言語モデルOLMo-2は、GPT-3.5-TurboとGPT-4 miniを上回る性能を謳っています。データ、コード、重み、詳細情報すべてが自由に利用可能です。この記事では、llm-mlxプラグインを使ってMacで簡単にインストールし、実行する方法を説明します。17GBのモデルを数コマンドでダウンロードし、対話型チャットや画像生成(例:自転車に乗るペリカンのSVG画像)を実行できます。

AI

量子アルゴリズムDQI:最適化問題におけるブレークスルー?

2025-03-17
量子アルゴリズムDQI:最適化問題におけるブレークスルー?

Google Quantum AIチームは、広範な最適化問題を解く際に、既知の古典的アルゴリズムすべてを凌駕する、Decoded Quantum Interferometry(DQI)と呼ばれる新しい量子アルゴリズムを開発しました。このアルゴリズムは特定の問題を対象としたものではなく、問題を量子波に変換し、復号化技術を適用して最適解を見つけるというものです。実験的検証のための十分な量子ハードウェアが不足していること、そして将来的に匹敵する古典的アルゴリズムが登場する可能性があるものの、DQIは最適化問題における潜在的な優位性と、符号化や暗号化分野への応用可能性から、量子コンピューティングコミュニティで大きな注目を集めています。量子アルゴリズムにおける重要なブレークスルーと考えられています。

GoogleのGemini 2.0 Flash:強力なAI画像編集ツールだが、著作権問題を引き起こす

2025-03-17
GoogleのGemini 2.0 Flash:強力なAI画像編集ツールだが、著作権問題を引き起こす

Googleの新しいAIモデルGemini 2.0 Flashは、強力な画像編集機能を備えており、Getty Imagesなどの有名な画像素材提供会社からの画像を含む、画像から透かしを簡単に削除できます。この機能は、許可なく透かしを削除することは米国の著作権法で一般的に違法であるため、著作権に関する懸念を引き起こしています。Googleは、この機能を実験的なものとして、開発者のみが利用できるようにしていますが、強力な透かし削除機能と利用制限の欠如により、著作権侵害の潜在的なツールとなっています。AnthropicのClaude 3.7 SonnetやOpenAIのGPT-4oなどの他のAIモデルは、透かしの削除を明示的に拒否しており、非倫理的で違法の可能性があると見なしています。

神経系最優先のAIスタートアップが、画期的なブレイン・コンピューター・インターフェース構築のためのエンジニアを募集

2025-03-17
神経系最優先のAIスタートアップが、画期的なブレイン・コンピューター・インターフェース構築のためのエンジニアを募集

Piramidal社は、神経データに焦点を当てたAIシステムを構築し、これまで不可能だったタスクを実現するための研究エンジニアを募集しています。理想的な候補者は、大規模分散型機械学習システムの設計、実装、強化、および神経科学の基礎知識を含む、強力なエンジニアリングスキルを備えています。同社は、競争力のある報酬と株式報酬を提供しており、テクノロジーを通じて人間の可能性を高め、認知の自由を擁護し、心の商品化に反対するという使命感に突き動かされています。

AI

GoogleのAI、10年越しのスーパーバグの謎をわずか2日で解明

2025-03-17
GoogleのAI、10年越しのスーパーバグの謎をわずか2日で解明

Googleの新AIツールが、10年もの間科学者を悩ませてきた謎をわずか2日で解明しました。それは、スーパーバグにおける抗生物質耐性メカニズムです。インペリアル・カレッジ・ロンドンのチームは、特定のスーパーバグがどのように耐性を獲得するかを10年間研究してきましたが、Googleの「共同研究者」AIツールは、簡単な指示だけで、チームの未発表の発見と同じ結論をわずか48時間で導き出しました。これは、AIが証拠を統合し、研究の方向性を示し、実験を設計する可能性を示しており、科学の進歩に革命を起こす可能性があります。しかし、科学研究におけるAIの使用に関する倫理的な問題や信頼性に関する懸念も引き起こしています。

Kastleの創設メンバー:応用AIエンジニア募集 - AIで住宅ローンサービスに革命を起こす

2025-03-16
Kastleの創設メンバー:応用AIエンジニア募集 - AIで住宅ローンサービスに革命を起こす

アメリカの主要な住宅ローン貸し手にサービスを提供するAIプラットフォームであるKastleは、創設メンバーとなる応用AIエンジニアを募集しています。Y Combinatorなどの有力投資家から支援を受けているKastleは、住宅ローンのサービスを再定義しようとしています。この役割には、応用AI分野で3年以上の経験、Pythonとディープラーニングフレームワークの習熟度、そしてLLMのファインチューニング経験が必要です。責任としては、プラットフォームへのAI統合、AIワークフローの設計、規制への準拠(FDCPA、RESPA、TILA)、パフォーマンスとスケーラビリティの最適化などが含まれます。急速に成長するAIスタートアップの基盤を構築する絶好のチャンスです。

AI

オープンアクセスリポジトリへのAIの脅威

2025-03-16
オープンアクセスリポジトリへのAIの脅威

オープンアクセス運動の理想とAIモデルトレーニングの現実との衝突が深刻化しています。貢献者たちは、自分の作品が営利目的で利用され、有害なプロジェクトにさえ利用されていることを発見し、知識共有の持続可能性に疑問を抱いています。この記事では、制限的なライセンスを超えた解決策を探り、Wikimedia EnterpriseやCreative Commonsの選好シグナルのような、公正な協調モデルを提唱しています。団体交渉により、AI企業がインフラコストを公正に補償し、帰属を示し、コモンズに再投資することで、普遍的な知識アクセスというビジョンを実現することができます。

MITの学生、数百行のコードで最先端HPCライブラリを凌駕

2025-03-16
MITの学生、数百行のコードで最先端HPCライブラリを凌駕

MITのCSAILの研究者らは、コンパイラがコードを生成する方法を明示的に制御する「スケジュール」をプログラマが記述できるようにする新しいプログラミング言語Exo 2を開発しました。既存のユーザー・スケジューラブル言語(USL)とは異なり、Exo 2では、コンパイラ外部で新しいスケジューリング操作を定義できるため、再利用可能なスケジューリングライブラリを作成できます。これにより、エンジニアは、劇的にコードを削減しながら、最先端のHPCライブラリと同等、あるいはそれ以上の性能を実現できるようになり、AIや機械学習アプリケーションの効率に革命を起こします。

AI

AIエージェント乗っ取りリスクの評価:敵対的テストが脆弱性を明らかに

2025-03-16
AIエージェント乗っ取りリスクの評価:敵対的テストが脆弱性を明らかに

米国AI安全研究所(US AISI)は、AgentDojoフレームワークを用いて、AnthropicのClaude 3.5 SonnetモデルについてAIエージェント乗っ取りリスクを評価しました。主要な知見として、評価フレームワークの継続的な改善、進化する攻撃手法に対応した適応型評価、タスク固有の攻撃成功率分析の重要性が強調されています。本研究では、リモートコード実行、データベースからのデータ流出、自動化されたフィッシングなどの新たな攻撃シナリオが導入され、それらの有効性が様々な環境で示されました。この研究は、AIエージェント乗っ取りという絶えず進化する脅威に対処するために、AIセキュリティ評価フレームワークを繰り返し改善していく必要性を浮き彫りにしています。

ジェーンストリートのクオンツ:数学コンテストからAI駆動型トレーディングへ

2025-03-16
ジェーンストリートのクオンツ:数学コンテストからAI駆動型トレーディングへ

ジェーンストリートのクオンツトレーダーであるIn Young Choは、医学部進学を目指していたことから量的取引への非伝統的なキャリアパスを共有します。彼女はジェーンストリートでのインターンシップと仕事の経験を語っており、OCamlやVBAなどのプログラミング言語を取引と開発に使用したこと、そしてブローカーとのやり取りに関するユーモラスな逸話を含みます。このエピソードでは、ジェーンストリートの取引調査を深く掘り下げ、単純な線形モデルから複雑な深層ニューラルネットワークまで、頻繁な体制変更の影響を受ける低データ、高ノイズの環境で機械学習をどのように活用しているかを説明します。In Young Choは、彼女の研究プロセスの4つの段階、つまり探索、データ収集、モデリング、プロダクション化を詳細に説明し、柔軟な研究ツールと堅牢な生産システムのバランスについて議論します。最後に、彼女は、より多くの資産クラスとデータモダリティへの拡大、トレーダーの効率向上のためのAIの活用など、ジェーンストリートの機械学習研究の将来の方向性について展望を示します。

Parahelp:人間のサポートエージェントに取って代わるAI同僚の構築

2025-03-15
Parahelp:人間のサポートエージェントに取って代わるAI同僚の構築

Parahelpは、ソフトウェア企業向けのAI駆動型サポートエージェントを構築しています。彼らのエージェントは、既存のインフラストラクチャ(Slack、Stripeなど)を使用して、サポートチケットをエンドツーエンドで解決し、人間のサポートエージェントを完全に置き換えることを目指しています。彼らは、将来のAI同僚にとって、知性ではなくコンテキストがボトルネックになると考えています。2024年8月にローンチされたParahelpは、Y Combinatorなどの著名な投資家から支援を受けており、すでにPerplexityやFramerなどの大手企業と協力しています。

AI

メイヨー・クリニック、逆RAG技術でLLMの幻覚問題を解決

2025-03-15
メイヨー・クリニック、逆RAG技術でLLMの幻覚問題を解決

大規模言語モデル(LLM)は「幻覚」—不正確な情報を生成する—という問題を抱えています。これは医療分野では特に危険です。メイヨー・クリニックはこの問題を解決するために、革新的な「逆RAG」技術を採用しました。この技術は、モデルが抽出した情報を元のデータソースにリンクすることで、データ検索に基づく幻覚をほぼすべて排除し、臨床現場へのモデル展開を可能にしました。この技術はCUREアルゴリズムとベクトルデータベースを組み合わせることで、すべてのデータポイントの元のソースへの追跡可能性を確保します。これにより、モデルの信頼性と信頼度が向上し、医師の業務負担が大幅に軽減され、パーソナライズド医療の可能性が広がります。

AI 逆RAG

Optifye:YC卒業のAI工場最適化スタートアップが創業チームを募集

2025-03-15
Optifye:YC卒業のAI工場最適化スタートアップが創業チームを募集

Optifyeは、工場向けのAIパフォーマンス監視システムで、コンピュータービジョンを使用してリアルタイムで生産ラインの非効率性を検出します。衣料品、自動車、医療、FMCG業界の主要メーカー3大陸にシステムを導入し、顧客の生産性を12%向上させています。YC W25バッチを卒業し、急成長フェーズに突入したため、創業チームメンバーの採用を急いでいます。今後4ヶ月で100本の製造ラインへの導入を目指しています。GPU/CPU/メモリの深い最適化知識、本番環境でのCVアプリケーションのスケーリング経験、クラウド上でのコンテナ化されたデプロイメントの設計、AWSの専門知識が必須です。あなたは、今まで入ったどの部屋でも最も賢い人であり、他人の遅さにイライラし、他の人が「会議」をしている間も本番環境の問題をデバッグするような人かもしれません。非常にハードワークですが、成功すれば周囲よりも高いリターンを得られるでしょう。

ダグラス・ホフスタッター、GPT-4生成の「GEBを書いた理由」を「偽物」と批判、LLMへの懸念を表明

2025-03-15
ダグラス・ホフスタッター、GPT-4生成の「GEBを書いた理由」を「偽物」と批判、LLMへの懸念を表明

人工知能のパイオニアであるダグラス・ホフスタッターは、彼の代表作『ゲーデル、エッシャー、バッハ』を要約したとされるGPT-4生成のテキスト「GEBを書いた理由」を強く批判した。彼は、そのテキストが一般的な陳腐な言葉で満たされており、彼の実際の書き方や本の創作過程を著しく歪めていると主張する。ホフスタッターは、LLMの独創性の欠如と虚偽の物語の創作を指摘する。彼はGEBの真の創作過程を詳しく説明し、ゲーデルの不完全性定理への初期の関心からエッシャーとバッハの作品の統合に至るまで、真のインスピレーションと苦労を明らかにする。彼はLLMの急増と、世界を虚偽の情報で氾濫させる可能性について深刻な懸念を表明し、その固有のリスクに対する批判的な評価を求めている。

AI

SiriのAIアップグレード延期:アップル内部の苦境とプレッシャー

2025-03-15
SiriのAIアップグレード延期:アップル内部の苦境とプレッシャー

アップルのSiriチームの内部会議で、昨年6月に約束されたSiriの人工知能アップグレードが期限なしで延期されたことが明らかになりました。この決定はチーム内に不安とプレッシャーを引き起こし、アップルがAI競争において遅れを取っていることを露呈しました。会議では、延期は社内リソースの再配分と、マーケティング部門とのコミュニケーション不足による過剰な宣伝が原因であることが判明しました。アップルの幹部が遅延の責任を負っていますが、Siriの未来は技術的な問題やユーザーの期待管理など、多くの課題に直面しています。

AI

GeminiがGoogleアシスタントに取って代わる:生成AIの時代到来

2025-03-14
GeminiがGoogleアシスタントに取って代わる:生成AIの時代到来

発売から1年以上を経て、GoogleはGemini AIアシスタントが2025年後半にAndroid搭載スマートフォン上のGoogleアシスタントに取って代わることを発表しました。これは、モバイルデバイスにおける生成AIの普及に向けた重要な一歩です。初期バージョンのGeminiは機能が限定されていましたが、Googleは継続的なアップデートとウェアラブル、車、タブレット、ヘッドホンなどへの拡張によってそのギャップを埋めてきました。Googleは、数百万人のユーザーが既にGeminiに切り替えたと主張し、パーソナライズされた世界認識機能と生産性向上機能を強調しています。この置換は、基本的な音声アシスタントから今日の生成AIに至るまでの自然言語処理の10年間の発展も示しており、急速な技術進歩を物語っています。

オープンソースのマルチエージェントフレームワークOWLがGAIAベンチマークでトップに

2025-03-14
オープンソースのマルチエージェントフレームワークOWLがGAIAベンチマークでトップに

CAMEL-AIフレームワーク上に構築された最先端のマルチエージェント連携フレームワークであるOWLが、GAIAベンチマークで平均スコア58.18点を達成し、1位を獲得しました!動的なエージェント間の相互作用により、様々な分野における、より自然で効率的、そして堅牢なタスクの自動化を実現します。OWLはオープンソースであり、様々なインストール方法とモデル(OpenAI、Qwen、DeepSeekなど)をサポートしており、ブラウザの自動化、マルチモーダル処理、ドキュメント解析などの豊富なツールキットを備えています。ユーザーフレンドリーなWebインターフェースも提供されています。OWLチームは、ユースケースへのコミュニティからの貢献を積極的に求めており、フレームワークの継続的な改善に取り組んでいます。

アンデスから進化心理学へ:偶然の科学的旅

2025-03-14
アンデスから進化心理学へ:偶然の科学的旅

著者が母親に驚くほど似たペルーの先住民女性と偶然出会ったことが、進化心理学への旅の始まりとなりました。これは、東アジア人とアメリカ先住民の類似点、そして共通のシベリア起源についての調査につながりました。学界におけるイデオロギー的な検閲や資金調達の課題を克服し、彼は独立して研究を行い、極端な気候が人間の心理に与える影響に関する論文を発表しました。彼の研究は、東アジアと熱帯地域の社会が長年抱える社会文化的諸問題の解決策を約束しています。

AIエージェント:ブームか、未来の仕事か?

2025-03-14
AIエージェント:ブームか、未来の仕事か?

シリコンバレーはAIエージェントに大きく賭けていますが、AIエージェントが正確に何を意味するのかについては、大きなコンセンサスがありません。OpenAI、Microsoft、Salesforceなどの企業は、AIエージェントを将来の労働力と見なしていますが、その機能と実装方法は大きく異なります。定義は、完全に自律的なシステムから、事前に定義されたワークフローに従うツールまで幅広く、業界の専門家さえも混乱させています。この曖昧さは、急速な技術革新とマーケティングの誇大宣伝に起因し、イノベーションの機会と、期待のずれや不確実なROIの可能性の両方をもたらします。最終的に、AIエージェントが本当に世界を変えるかどうかは、業界が統一的な定義を確立できるかどうかにかかっています。

確率的時系列予測:予測分析のパラダイムシフト

2025-03-14
確率的時系列予測:予測分析のパラダイムシフト

単一値予測に別れを告げましょう!確率的時系列予測は、単一の値ではなく、起こりうる結果とその確率を含む完全な確率分布を提供することで、予測分析に革命を起こします。これにより、より微妙で信頼性の高い意思決定が可能になります。研究によると、予測精度、誤差の低減、特に極端なイベントの予測において、大幅な改善が見られます。金融、医療、製造業など、さまざまなセクターが、リスク評価、リソース配分、在庫管理の改善から恩恵を受けています。この包括的なガイドでは、確率的予測の原理、方法(ベイズ法、ガウス過程、深層確率モデル)、およびさまざまな分野でのアプリケーションについて詳しく説明します。データの前処理、モデルの選択、不確実性の較正などの重要な技術についても取り上げます。

OpenAI、トランプ氏のAI行動計画に賭ける、著作権論争の解決へ

2025-03-14
OpenAI、トランプ氏のAI行動計画に賭ける、著作権論争の解決へ

OpenAIは、7月に発表予定のドナルド・トランプ氏のAI行動計画が、AIトレーニングをフェアユースと宣言することを期待している。これにより、著作権論争が解決し、AI企業がトレーニングデータへの無制限アクセスを得られるようになるという。OpenAIは、これは中国とのAI競争において勝利するために不可欠だと主張している。現在、裁判所ではAIトレーニングがフェアユースに当たるかどうかが議論されており、権利保有者は、AIモデルが市場における地位を脅かし、人間の創造性を全体的に低下させると主張している。OpenAIは数十件の訴訟に関与しており、AIが著作権で保護された作品を変換し、AIの出力はオリジナル作品にとって代わるものではないと主張している。OpenAIは、トランプ氏の計画が、権利保有者を支持する判決(AIトレーニングはフェアユースではないと判断)のような判決を回避することを期待している。OpenAIは、米国がAI業界の「学習の自由」を優先することで、中国が米国企業がアクセスできない著作権で保護されたデータにアクセスすることで優位に立つことを防ぐべきだと提案している。

AI

GoogleのGemini 2.0:強力なAI機能が無料に、しかしその代償は?

2025-03-13
GoogleのGemini 2.0:強力なAI機能が無料に、しかしその代償は?

GoogleはGeminiを広く普及させるため、Gemini 2.0に大幅なアップデートを提供しました。強化されたDeep Researchや検索履歴を活用した推論モデルなど、主要な機能改善が無料で利用可能になりました。この強化されたモデルは、100万トークンのコンテキストウィンドウ、ファイルアップロード、高速処理、カレンダーや写真などのGoogleアプリとの統合を備えています。Googleはユーザーによる制御と検索履歴へのアクセス無効化の機能を強調していますが、プライバシーに関する懸念は残ります。

AI

AIと数学:文化の衝突と協調への呼びかけ

2025-03-13

2025年の合同数学会議では、AIと数学の交点が注目を集め、学術的な数学者と産業界のAI研究者の間にある文化的な溝が明らかになった。数学者は理解を優先する一方、AI研究者は結果を重視することが多い。この違いは、オープン性、透明性、そして証明の性質自体に対する対照的なアプローチに表れている。この記事は、数学の本質、その文化と価値観を掘り下げ、文献管理、定理検証などの分野におけるAIの潜在的な応用を探っている。著者は、AIは人間の数学的能力を高めるためのツールとして機能すべきであり、人間の数学者を置き換えるべきではないと主張し、分野の進歩のために相互の尊重と協力の必要性を強調している。

Anthropic CEO、中国による米国AI企業の秘密情報窃取を警告

2025-03-13
Anthropic CEO、中国による米国AI企業の秘密情報窃取を警告

AnthropicのCEOであるダリオ・アモデイは、中国のスパイがアメリカのトップAI企業から高価な「アルゴリズムの秘密」を盗んでいる可能性があると警告し、米国政府の介入を求めています。彼は、中国の産業スパイの歴史と、一見単純なコード断片の潜在的な価値(数億ドルの可能性がある)を強調しました。アモデイは、米国政府とAI企業の連携強化を主張し、主要なAIラボのセキュリティ強化、そして米国情報機関や同盟国との協力の可能性を示唆しています。この懸念は、アモデイが以前表明した、中国によるAIの権威主義的および軍事目的での使用に関する懸念、そして中国へのAIチップ輸出に対するより厳しい輸出規制の呼びかけと一致しています。彼の立場は、AIにおける米中協調が制御不能なAI軍拡競争を防ぐために必要だと考える一部の人々から批判を受けています。

Google DeepMind、ジェミニロボティクスを発表:巧みなロボット制御のためのAI

2025-03-12
Google DeepMind、ジェミニロボティクスを発表:巧みなロボット制御のためのAI

Google DeepMindは、前例のない器用さと精度でロボットを制御するように設計された2つの新しいAIモデル、ジェミニロボティクスとジェミニロボティクス-ERを発表しました。Gemini 2.0の大規模言語モデルをベースとしたこれらのモデルは、ビジョン-ランゲージ-アクション(VLA)機能と強化された空間推論機能を統合しています。ジェミニロボティクスは、ロボットが「バナナを拾ってバスケットに入れる」などの複雑なコマンドを理解し実行することを可能にします。一方、ジェミニロボティクス-ERは、既存のロボット制御システムとのシームレスな統合に焦点を当てています。これは、特に複雑な物理的マニピュレーションの処理と強力な汎化能力のデモにおいて、ロボット工学における大きな飛躍を表しています。Googleは、Gemini 2.0を使用して次世代の人型ロボットを構築するために、Apptronikと提携しており、広範な採用可能性を示しています。しかし、Googleは安全性の重要性も強調しており、研究者がロボットの行動の安全上の影響を評価するのを支援するための「ASIMOV」データセットをリリースしています。

AI

Gemini 2.0 Flash:Googleのネイティブ画像生成モデルが開発者向け実験段階に

2025-03-12
Gemini 2.0 Flash:Googleのネイティブ画像生成モデルが開発者向け実験段階に

Googleは、高度な推論と自然言語理解を備えたマルチモーダルAIモデル、Gemini 2.0 Flashをリリースしました。テキストから画像を生成し、イラスト付きのストーリーを作成、会話形式による画像編集を可能にし、長いテキストシーケンスもきれいにレンダリングします。Google AI StudioとGemini APIを通じて利用可能で、AIエージェントや視覚的に豊かなアプリケーション開発にエキサイティングな可能性を提供します。

AI

Google DeepMind、Gemini Roboticsを発表:次世代ロボットへのパワーアップ

2025-03-12
Google DeepMind、Gemini Roboticsを発表:次世代ロボットへのパワーアップ

Google DeepMindは、Gemini 2.0をベースとした2つの新しいAIモデル、Gemini RoboticsとGemini Robotics-ERを発表しました。これにより、ロボットはより幅広い現実世界のタスクを実行できるようになります。Gemini Roboticsは、ロボットを直接制御する高度なビジョン・ランゲージ・アクションモデルです。Gemini Robotics-ERは高度な空間認識能力を備え、ロボティクス研究者がGeminiの具現化された推論能力を使って独自のプログラムを実行することを可能にします。どちらのモデルも、汎用性、インタラクティブ性、器用さを備え、さまざまなタスクや環境に対応し、人間との協調性を高めます。DeepMindは、具現化されたAIとロボット工学における意味的安全性評価・向上のための新しいデータセットASIMOVもリリースし、Apptronikなどの企業と提携して次世代の人型ロボットの開発を進めています。

1 2 29 30 31 33 35 36 37 40 41