Category: AI

埋め込み次元:300から4096へ、そしてその先へ

2025-09-08
埋め込み次元:300から4096へ、そしてその先へ

数年前、200~300次元の埋め込みは一般的でした。しかし、BERTやGPTなどの深層学習モデルの台頭とGPUコンピューティングの進歩により、埋め込みの次元数は爆発的に増加しました。BERTの768次元からGPT-3の1536次元、そして現在の4096次元以上へと進化しています。これは、アーキテクチャの変更(Transformer)、より大規模なトレーニングデータセット、Hugging Faceのようなプラットフォームの台頭、ベクトルデータベースの進歩によって推進されています。次元数の増加はパフォーマンスの向上をもたらしますが、ストレージと推論の課題も生じます。最近の研究では、Matryoshka学習などのより効率的な埋め込み表現が模索されており、パフォーマンスと効率のバランスを目指しています。

シミュレーテッド・アニーリングのための光学アーキテクチャ:新しいアプローチ

2025-09-08
シミュレーテッド・アニーリングのための光学アーキテクチャ:新しいアプローチ

研究者らは、シミュレーテッド・アニーリングのための光学アーキテクチャを考案しました。これは、マイクロLEDアレイ、液晶空間光変調器、およびフォトダイオードアレイを使用して行列ベクトル乗算を実行します。このシステムは、シミュレートされたtanh非線形性を活用して効率的な解を求めることで、機械学習と最適化の問題を効率的に処理します。実験により、MNISTおよびFashion-MNISTデータセットで高精度な分類が達成され、さまざまな最適化問題で優れた性能を示し、大規模シミュレーテッド・アニーリング計算のための新しいハードウェアソリューションを提供します。

LLM対AIエージェント:AIにおけるパラダイムシフト

2025-09-07
LLM対AIエージェント:AIにおけるパラダイムシフト

この記事は、AI分野における重大な誤解、つまりChatGPTと大規模言語モデル(LLM)の混同を明らかにしています。ChatGPTは、単純なLLMインターフェースから、メモリ、ツール統合、複数ステップの推論能力を備えた高度なAIエージェントへと進化しました。これは、計算アーキテクチャにおける大きな転換点を示しています。LLMは強力なパターンマッチングシステムですが、学習と適応能力に欠けています。一方、AIエージェントは、認知アーキテクチャの一部としてLLMを活用し、外部システムとインタラクトし、経験から学習し適応します。この違いは、開発者、プロダクトマネージャー、ビジネス戦略、ユーザーにとって、大きな意味を持ちます。この違いを理解することで、AIの潜在能力を最大限に活用し、時代遅れのソリューションを構築することを回避できます。

AI

精神医学における比喩的な脳の話し方:歴史的および現代的な視点

2025-09-07

本稿では、精神医学において、脳の構造や機能障害に関する単純化された概念を用いて精神疾患を説明する「比喩的な脳の話し方」の永続的な使用について検討します。20世紀初頭のアドルフ・マイヤーやカール・ヤスパースといった影響力のある人物による批判から、ポール・ミールやナンシー・アンドレアセンといった現代の研究者を含むより現代的な例まで、本稿は、この比喩的な言語の永続的な存在をたどります。神経科学の進歩にもかかわらず、「シナプススリップ」や「壊れた脳」といった表現は依然として一般的です。著者は、モノアミン神経伝達物質仮説をケーススタディとして使用し、統合失調症、躁うつ病、うつ病などの障害を説明する際の限界を強調しています。現実世界の逸話は、そのような比喩的な説明が患者や大衆に与える影響を示しています。本稿は、外部資金の獲得と医薬品の広告が、この現象の普及を悪化させてきたことを指摘して結論づけています。

BrainCraftチャレンジ:1000個のニューロンで迷路を攻略せよ

2025-09-07
BrainCraftチャレンジ:1000個のニューロンで迷路を攻略せよ

BrainCraftチャレンジでは、参加者に生物学的に着想を得たレートベースのニューラルネットワークを設計し、シンプルな迷路を移動してエネルギー源を探す仮想エージェントを制御することを求めています。チャレンジは難易度が徐々に上がる5つのタスクで構成され、各タスクは2ヶ月間続きます。エージェントは、限られたセンサーデータとわずか1000個のニューロンしか使用できず、リソースに制約された状況下で移動し、エネルギーを獲得しなければなりません。これは、現在の神経科学に着想を得たモデルにとって大きな挑戦であり、機能的なニューラルダイナミクスとセンソリモーター制御の統合が必要です。

AI

機械学習教科書:パターン、予測、行動

2025-09-06

モリッツ・ハードトとベンジャミン・レクトによる「パターン、予測、行動:機械学習の基礎」が、プリンストン大学出版局から出版されました。この包括的な教科書は、基礎的な予測から深層学習、因果推論、強化学習まで、機械学習の幅広いトピックを網羅しています。補足的な問題集とPDF版のプレプリントも利用可能です。本書はクリエイティブ・コモンズBY-NC-ND 4.0ライセンスでライセンスされています。

AI

LLMをゼロから構築する:ベクトル、行列、高次元空間

2025-09-06
LLMをゼロから構築する:ベクトル、行列、高次元空間

この記事は3部構成のシリーズの2番目で、AIに関する専門知識が限られている技術的な読者向けに、大規模言語モデル(LLM)の仕組みを分かりやすく説明しています。Sebastian Raschkaの著書「Build a Large Language Model (from Scratch)」に基づいたシリーズの第19部を基に、LLMにおけるベクトル、行列、高次元空間(ボキャブラリー空間と埋め込み空間)の使用方法を説明します。著者は、LLMの推論を理解するには高校レベルの数学知識だけで十分であり、トレーニングにはより高度な数学が必要であると主張しています。この記事では、ベクトルが高次元空間でどのように意味を表すか、そして行列乗算がこれらの空間間でどのように射影を行うかを詳細に説明し、ニューラルネットワークにおける線形層と関連付けています。

AI

Anthropic、著作権訴訟で15億ドルを支払うことで和解

2025-09-06
Anthropic、著作権訴訟で15億ドルを支払うことで和解

AI企業Anthropicは、著作権で保護された書籍をAIモデル「Claude」のトレーニングに使用したとして、作家らから提起された集団訴訟で、15億ドルの和解金を支払うことで合意しました。これは、公に報告された著作権回収額としては過去最大です。裁判官は以前、Anthropicによる書籍の使用は「極めて変革的」であり、フェアユースに当たるという判決を出していましたが、この和解は、Library Genesisなどのサイトから入手した数百万冊の海賊版書籍の取得に焦点を当てています。この和解により、著作権侵害で責任を問われる可能性のある裁判が回避されました。この画期的な事件は、AIトレーニングデータを取り巻く法的紛争の継続性を浮き彫りにし、将来のAI企業にとって前例となります。

Apertus:完全にオープンな多言語大規模言語モデル

2025-09-06
Apertus:完全にオープンな多言語大規模言語モデル

Apertusは、700億と80億のパラメータを持つ、完全にオープンな多言語大規模言語モデルです。1000以上の言語と長いコンテキストをサポートしています。完全に準拠したオープンなトレーニングデータで15兆トークンをトレーニングし、クローズドソースモデルと同等の性能を達成しています。Apertusは、新しいxIELU活性化関数とAdEMAMixオプティマイザを使用し、教師あり微調整とQRPOアライメントを受けています。重み、データ、トレーニングの詳細は公開されており、データ所有者のオプトアウト同意を尊重し、トレーニングデータの丸暗記を回避しています。transformersライブラリに統合されており、さまざまなデプロイ方法をサポートしています。強力である一方で、出力における潜在的な不正確さとバイアスに注意する必要があります。

AI

OpenAI、AI活用求人プラットフォームと認定プログラムを発表

2025-09-05
OpenAI、AI活用求人プラットフォームと認定プログラムを発表

OpenAIは来年、AIを活用した求人プラットフォームを立ち上げ、企業や政府機関がAIスキルを持つ候補者とマッチングできるようにすることで、企業や政府機関におけるAI技術の導入を加速させる計画です。また、今後数ヶ月以内に、従業員が職場でAIをより効果的に活用する方法を教える新たな認定プログラムも開始します。このプログラムにはウォルマートなど複数の組織が参加しており、2030年までに1000万人のアメリカ人を認定することを目指しています。

AIエージェントアーキテクチャ:正確性ではなく信頼性

2025-09-05
AIエージェントアーキテクチャ:正確性ではなく信頼性

この記事では、AIエージェントのアーキテクチャを分析し、ユーザーエクスペリエンスが生の正確性を上回ることを主張しています。顧客サポートエージェントを例に、4つのアーキテクチャレイヤーを概説しています。メモリ(セッション、顧客、行動、コンテキスト)、接続性(システム統合)、機能(スキルの深さ)、信頼性(信頼度スコア、推論の透明性、スムーズなエスカレーション)。4つのアーキテクチャアプローチ(単一エージェント、ルーター+スキル、事前定義されたワークフロー、マルチエージェントコラボレーション)を比較し、シンプルに始めて必要に応じて複雑さを追加することを推奨しています。直感に反して、ユーザーは常に正しいエージェントよりも、自分の限界を正直に認めるエージェントを信頼します。

RDF:AIシステムのための自然な知識レイヤー

2025-09-05
RDF:AIシステムのための自然な知識レイヤー

大規模言語モデル(LLM)は、企業データの精度で苦労することがよくありますが、ナレッジグラフは精度を3倍に高めることができます。この記事では、Resource Description Framework(RDF)が、知識表現における多くの選択肢の1つではなく、自然な終着点である理由を探ります。多くの企業は、ナレッジレイヤーを構築する際に、最初はカスタムソリューションを選択しますが、最終的にはグローバル識別子やデータフェデレーションプロトコルなどのRDFの中核機能を再構築することになります。この記事では、RDFがエンティティ識別などの知識表現における中心的な問題をどのように解決するかを説明し、RDFを使用することでLLMの精度と効率がどのように向上するかを示します。

AI

Le Chatの大幅アップデート:コネクタとメモリ機能でAIアシスタンスが進化

2025-09-04
Le Chatの大幅アップデート:コネクタとメモリ機能でAIアシスタンスが進化

Mistral AIのLe Chatが大幅アップデートされ、データ、生産性、開発、自動化、コマースなどを網羅する20以上のセキュアなエンタープライズ対応コネクタが導入されました。ユーザーはLe Chat内でDatabricks、Snowflake、GitHub、Asanaなどのツールに直接アクセスして操作できます。「メモリ」機能(ベータ版)では、コンテキストと好みに基づいたパーソナライズされたレスポンスが可能になり、機密情報の管理も徹底されています。これらの機能はすべて無料プランで利用可能です。

10次元ランダムウォーク:高次元空間における直感への挑戦

2025-09-04
10次元ランダムウォーク:高次元空間における直感への挑戦

現代の力学において、高次元物理学は標準となっています。弦理論の10次元から複雑な動的システムまで、高次元状態空間は至るところに存在します。しかし、高次元空間は容易に理解できるものではなく、「次元の呪い」が存在します。可視化が不可能で、パラメータが多すぎると過剰適合になりやすく、直感も機能しません。この記事では、10次元ランダムウォークを用いて、高次元空間の特徴を説明します。高次元空間では、山脈は山頂よりもはるかに一般的であり、これは生命進化、複雑系ダイナミクス、機械学習に大きな影響を与えます。ランダムウォークは、非常に粗い地形でも高次元空間を効率的に探索し、空間全体を横断する可能性があります。これは、生命における複雑な構造の進化や、深層学習における局所的最小値の回避を理解する上で役立ちます。

AIはすでに若者の仕事を奪っているのか?スタンフォード大学の新たな研究が示唆

2025-09-04
AIはすでに若者の仕事を奪っているのか?スタンフォード大学の新たな研究が示唆

AIが若者の雇用機会に影響を与えているかどうかの議論は続いています。初期の研究では限定的な影響しか見られませんでしたが、スタンフォード大学による新たな研究では、ADPの給与データを用いて、ソフトウェア開発やカスタマーサービスなど、AIへのエクスポージャーが高い職種において、22~25歳の若年層の雇用が13%減少していることが明らかになりました。COVID-19やテクノロジー業界の減速などの要因を考慮しても、この研究は、特に自動化が中心的な分野において、AIの影響がこれまで考えられていたよりも大幅に大きい可能性を示唆しています。逆に、AIが業務を補完する役割を担う職種では雇用が増加しています。このことは、大学におけるカリキュラムの見直しや学生のキャリアパスに関する議論を巻き起こし、AIが労働市場に与えるリアルタイムの影響を継続的に監視する必要性を強調しています。

AI

効果的なAIエージェント評価の構築:E2EテストからN-1評価まで

2025-09-04

この記事では、効果的なAIエージェント評価システムの構築について探求しています。著者は、モデルが継続的に改善される一方で、評価が不可欠であることを強調しています。エンドツーエンド(E2E)評価から始めることを提唱し、成功基準を定義し、シンプルなyes/noの結果を出力することで、問題の迅速な特定、プロンプトの改良、異なるモデルのパフォーマンス比較を可能にします。「N-1」評価は、以前のユーザーとのやり取りをシミュレートし、問題を直接特定できますが、「N-1」のやり取りを最新の状態に保つ必要があります。また、LLMが期待される会話パターンに従っていることを検証するために、プロンプト内にチェックポイントを設定することも提案されています。最後に、著者は外部ツールが設定を簡素化しますが、特定のユースケースに合わせて調整されたカスタム評価が必要であると述べています。

ミニマルTransformerの解剖:1万パラメータでLLMの内部動作を明らかにする

2025-09-04
ミニマルTransformerの解剖:1万パラメータでLLMの内部動作を明らかにする

この論文では、わずか約1万パラメータの極めて簡素化されたTransformerモデルを紹介し、大規模言語モデル(LLM)の内部動作を明確に示しています。果物と味覚の関係に焦点を当てた最小限のデータセットを使用することで、驚くほど高い性能を達成しています。可視化により、単語埋め込みとアテンションメカニズムの機能が明らかになります。重要なことに、このモデルは単なる暗記を超えて一般化し、「辛いから好き」というプロンプトに対して「唐辛子」を正しく予測することで、LLM動作の中核となる原理を非常に分かりやすく示しています。

AI

データ、ではなく計算能力:AIの次のボトルネック

2025-09-03
データ、ではなく計算能力:AIの次のボトルネック

長年、私たちは「ビターレッスン」を誤解していました。それは計算能力ではなく、データに関するものです。GPUを増やすには、データも40%増やす必要があります。そうでなければ、単なる無駄遣いです。インターネットのデータは飽和に近づいています。「錬金術師」(ハイリスク・ハイリターンのデータ生成手法)と「建築家」(モデルアーキテクチャの着実な改善)こそが未来であり、単純な計算能力の追求ではありません。この記事では、両アプローチの長所、短所、リスクを分析し、2025年にデータ不足を解決することが、2026年のAI企業の生存を決定づけるだろうと結論づけています。

MIT研究:ChatGPTによる論文執筆は認知機能低下の原因に

2025-09-03
MIT研究:ChatGPTによる論文執筆は認知機能低下の原因に

MITの研究によると、ChatGPTを論文執筆に利用すると、測定可能な認知機能の低下につながることが明らかになりました。脳波検査では、ChatGPTを繰り返し使用した学生において、神経接続の弱体化、記憶力の低下、自身の文章に対する所有意識の低下が見られました。AI生成の文章が高得点だったとしても、脳の活動は著しく低下していました。研究では、LLMの使用が重要な脳ネットワークの関与不足を引き起こし、AIの使用を中止した後でも、認知機能は完全に回復しないことがわかりました。この「認知的オフローディング」は、学習能力と創造性の長期的な低下につながります。

AI

Dynamo AI:信頼できるAIのためのプロダクトマネージャー募集 - エンタープライズAIの未来を形作る

2025-09-03
Dynamo AI:信頼できるAIのためのプロダクトマネージャー募集 - エンタープライズAIの未来を形作る

エンタープライズ向けに信頼できるAIプラットフォームを構築する急成長中のスタートアップであるDynamo AIは、1年以上の経験を持つプロダクトマネージャーを募集しています。この役割では、レッドチーミング、ガードレール、可観測性ソリューションの製品戦略の策定と実行を担当します。規制産業(金融、保険など)の創設者、エンジニア、企業顧客と協力して、製品ロードマップを形作り、最先端のソリューションを提供します。AIの安全性とコンプライアンスに対する情熱、強力なコミュニケーション力とクロスファンクショナルなコラボレーション能力が不可欠です。

テンセントのHunyuanWorld-Voyager:単一画像からの世界整合性のある3Dビデオ生成

2025-09-03
テンセントのHunyuanWorld-Voyager:単一画像からの世界整合性のある3Dビデオ生成

テンセントのAIチームは、HunyuanWorld-Voyagerを発表しました。これは、ユーザー定義のカメラパスを持つ単一画像から世界整合性のある3D点群シーケンスを生成する、新しいビデオ拡散フレームワークです。Voyagerは、カスタムトラジェクトリに沿って仮想世界を探査するための3D整合性のあるシーンビデオを生成し、効率的な3D再構築のための調整済み深度とRGBビデオも生成します。現実世界のキャプチャとUnreal Engineの合成データの組み合わせを含む10万以上のビデオクリップでトレーニングされたVoyagerは、WorldScoreベンチマークで最先端の結果を達成しています。コードと事前トレーニング済みモデルは公開されています。

VibeVoice:オープンソースの長尺、マルチスピーカーTTS

2025-09-03

VibeVoiceは、テキストからポッドキャストのような、表現力豊かな長尺のマルチスピーカー会話音声を作成するための、新しいオープンソースフレームワークです。従来のテキスト読み上げ(TTS)システムにおける、スケーラビリティ、話者の一貫性、自然なターン制といった課題に対処します。重要なイノベーションとして、7.5Hzという超低フレームレートで動作する連続音声トークナイザー(音響と意味)を採用しており、音声の忠実度を維持しながら、長シーケンスの処理における計算効率を大幅に向上させます。VibeVoiceは、次のトークン拡散フレームワークを使用し、大規模言語モデル(LLM)でテキストコンテキストとダイアログの流れを理解し、拡散ヘッドで高忠実度の音響詳細を生成します。このモデルは、最大4人の異なる話者で最大90分の音声合成が可能で、従来のモデルの一般的な1〜2話者の制限を超えています。

AI

Acorn:AI定理証明における革新的なアプローチ

2025-09-03
Acorn:AI定理証明における革新的なアプローチ

この記事では、Leanなどの従来の対話型定理証明器とは大きく異なる、新しいAI定理証明器であるAcornについて探ります。Acornは、ユーザーが段階的に主張を提示し、システムが自動的に検証するという、会話型のインタラクションスタイルを採用しています。これは人間の証明プロセスをより忠実に反映しており、煩雑な型宣言や、事前に定義された定理の検索を不要にします。AcornはシンプルなMLモデルを用いて証明プロセスを支援し、ユーザーの介入が必要な箇所を示すことで、効率性と理解度を高めます。Leanなどのシステムとは異なり、Acornは直感性と自然言語表現を優先し、数学的証明における人間とAIの協調の可能性を大きく示しています。

ワールドモデル:AGIへの幻想と現実

2025-09-03
ワールドモデル:AGIへの幻想と現実

人工知能研究、特に「人工汎用知能」(AGI) を目指す研究所における最新の取り組みは、「ワールドモデル」と呼ばれるものだ。これは、AIが計算上の雪玉のように内部に保持する環境の表現である。Yann LeCun、Demis Hassabis、Yoshua Bengioといったディープラーニングの権威たちは、真に賢く、科学的で、安全なAIシステムを構築するには、ワールドモデルが不可欠だと考えている。しかし、ワールドモデルの詳細については議論がある。それは先天的なものなのか、後天的に学習されたものなのか?そして、その存在をどのように検出するのか?この記事は、この概念の起源と発展をたどり、現在の生成AIは完全なワールドモデルに基づいているのではなく、無数の断片的なヒューリスティックルールに依存している可能性を示唆している。これらのルールは特定のタスクには有効だが、堅牢性に欠ける。そのため、完全なワールドモデルの構築は依然としてAI研究の中心課題であり、AIの幻覚の解消、信頼できる推論能力の向上、AIシステムの解釈性の向上につながる可能性があり、最終的にはAGIの発展を促すだろう。

AI

iNaturalistが一部のコンピュータビジョンモデルをオープンソース化

2025-09-02
iNaturalistが一部のコンピュータビジョンモデルをオープンソース化

iNaturalistは約500分類群で訓練された「小型」モデル、分類ファイル、地理モデルなど、機械学習モデルの一部をオープンソース化しました。これは、デバイス上でのテストやその他の用途に適しています。知的所有権と組織ポリシーのため、完全な種分類モデルは非公開のままです。この記事では、依存関係のインストール、環境設定、パフォーマンス最適化の提案(TensorFlowのコンパイルとpillow-simdの使用など)、パフォーマンスベンチマークを含む、macOSでのインストールと実行手順を詳しく説明しています。

AI

LLM:情報損失のある百科事典

2025-09-02

大規模言語モデル(LLM)は、情報損失のある百科事典のようなものです。膨大な情報を保有していますが、その情報は圧縮されており、データ損失が生じます。重要なのは、LLMが効果的に回答できる質問と、情報損失が精度に大きく影響する質問を見分けることです。例えば、特定の設定を持つZephyrプロジェクトのスケルトンを作成するようLLMに求めることは、正確な詳細を必要とする「損失のない」質問であり、LLMはこれに対応するのが困難です。解決策は、正しい例を提供することで、LLMが既存の事実に基づいて動作するようにし、知識ベースに存在しない可能性のある詳細に依存しないようにすることです。

CauseNet:ウェブから抽出された大規模因果関係グラフ

2025-09-02

研究者らは、1100万以上の因果関係を含む大規模な知識ベースCauseNetを構築しました。推定精度83%で、半構造化および非構造化ウェブソースから抽出されたCauseNetは、因果関係の質問応答や推論などのタスクに使用できる因果関係グラフです。このプロジェクトでは、Neo4jへのロードのためのコードと、因果概念検出のためのトレーニング/評価データセットも提供しています。

AI

テキストからSQLへの変換を超えて:AIデータアナリストの構築

2025-09-01

この記事では、AIデータアナリスト構築の課題と解決策を探ります。著者は、単純なテキストからSQLへの変換では現実世界のユーザーの複雑な質問には対応できず、複数ステップの計画、外部ツール(Pythonなど)、外部コンテキストが必要であると主張しています。そのため、著者のチームは、ビジネスロジックを明示的に定義するモデリング言語Malloyを使用したセマンティックレイヤーを備えたジェネレーティブBIプラットフォームを構築しました。これは、マルチエージェントシステム、検索拡張生成(RAG)、戦略的なモデル選択と組み合わせることで、高品質で低遅延のデータ分析を実現します。プラットフォームはSQLを生成し、複雑な計算のためにPythonを記述し、外部データソースを統合します。この記事では、コンテキストエンジニアリング、検索システムの最適化、モデルの選択の重要性を強調し、一般的なエラーモードへの対処法を共有しています。

LLMがコンパイラの作成を民主化する:レシピからワークフローまで

2025-09-01
LLMがコンパイラの作成を民主化する:レシピからワークフローまで

この記事は、毎日のタスクをコンパイルプロセスとして捉える新しい視点を提示しています。料理を例に、著者はレシピをプログラム、調理プロセスをコンパイル実行に例えています。大規模言語モデル(LLM)の出現により、プログラミング経験のない人でも、ドメイン固有のコンパイラを作成することがかつてないほど簡単になりました。LLMを使用することで、フィットネスルーティン、ビジネスプロセス、さらには音楽制作といった毎日のタスクを、プログラム可能な環境に変換し、効率性を向上させ、毎日のシステムに対する理解を深めることができます。これは技術革新であると同時に、思考様式の変化であり、コンパイラの概念をコードから人生のあらゆる側面へと拡大するものです。

AI

OpenAI、有害なChatGPTコンテンツへの対策強化、プライバシー懸念も浮上

2025-09-01
OpenAI、有害なChatGPTコンテンツへの対策強化、プライバシー懸念も浮上

OpenAIは、AIチャットボットChatGPTが、自己危害、妄想、自殺を含むユーザーのメンタルヘルス危機につながっていることを認めた。これに対応するため、OpenAIはユーザーメッセージをスキャンし、懸念されるコンテンツを人間のレビュー担当者にエスカレーションし、場合によっては法執行機関に報告するようになった。この措置は、ユーザーの安全上の懸念と、特にニューヨークタイムズなどの出版社との係争中の訴訟を踏まえたOpenAIの以前からのユーザープライバシーへのコミットメントのバランスを取りながら、物議を醸している。OpenAIは、AIの悪影響に対処しつつ、ユーザーのプライバシーを保護するという困難な立場にある。

AI
1 3 5 6 7 8 9 40 41