Category: AI

OpenAIの非営利目的が揺らぐ:AGIの安全性と商業利益のバランス

2025-06-01
OpenAIの非営利目的が揺らぐ:AGIの安全性と商業利益のバランス

評価額3000億ドルのAI企業OpenAIは、非営利の目的と商業化目標の衝突をめぐる論争に巻き込まれている。当初は安全で有益なAI研究に専念していたが、ChatGPTの大成功により商業的な大企業となり、AIの安全性に対する懸念を引き起こした。投資を誘致するために営利企業になるというOpenAIの計画は、イーロン・マスク、ノーベル賞受賞者、複数の州の司法長官らから広範な反対を招き、非営利組織の支配権を維持するための改訂計画を余儀なくされた。しかし、政府や企業との連携によるAIアプリケーションの拡大など、商業開発は継続されている。この出来事は、AIの安全性と商業利益の対立、そしてAI規制の緊急性を浮き彫りにしている。

AI

Memvid:ビデオベースのAIメモリ革命

2025-06-01
Memvid:ビデオベースのAIメモリ革命

Memvidは、テキストデータをビデオにエンコードすることでAIメモリ管理に革命を起こし、数百万のテキストチャンクに対する超高速な意味検索を、サブ秒レベルの検索時間で実現します。膨大なRAMとストレージを消費する従来のベクトルデータベースとは異なり、Memvidは知識ベースをコンパクトなビデオファイルに圧縮しながら、あらゆる情報への即時アクセスを維持します。PDFのインポート、様々なLLM、オフラインファースト操作に対応し、シンプルなAPIを提供します。個人用ナレッジベースの構築から大規模データセットの処理まで、Memvidは効率的で便利なソリューションを提供し、AIメモリ管理の革命を遂げています。

ElevenLabs、Conversational AI 2.0を発表:より自然でインテリジェントな音声インタラクション

2025-06-01
ElevenLabs、Conversational AI 2.0を発表:より自然でインテリジェントな音声インタラクション

ElevenLabsは、Conversational AIプラットフォームのバージョン2.0をリリースしました。これは、大幅な改善が施されたアップデートです。バージョン2.0は、より自然な会話の流れに焦点を当てており、高度なターンテイキングモデルを使用して人間の対話のペースを理解し、不自然なポーズを減らします。また、統合された多言語検出と応答機能により、手動設定なしでシームレスな多言語会話が可能です。さらに、バージョン2.0は、Retrieval-Augmented Generation(RAG)を統合しており、AIは外部のナレッジベースから情報にアクセスしてそれを応答に組み込むことができます。正確でタイムリーな応答を保証します。マルチモーダルインタラクション(テキストと音声)もサポートされています。最後に、このプラットフォームは、HIPAAコンプライアンスやオプションのEUデータレジデンシーなど、エンタープライズレベルのセキュリティとコンプライアンスを優先しています。

AI

意識アップロード:SFか未来の現実か?

2025-06-01
意識アップロード:SFか未来の現実か?

意識をコンピューターにアップロードし、デジタル不老不死を実現することは、SFのように聞こえるが、脳科学者はそれが理論的に可能だと主張する。脳の非常に詳細な3Dスキャンと感覚シミュレーションが必要など、膨大な課題が残っているが、技術の進歩は驚くほど速いかもしれない。楽観的な予測では2045年を指しているが、著者は100年以内は不可能で、200年以内かもしれないと考えている。この技術の成功は、人間の存在を根本的に変え、大きな倫理的、哲学的な問題を引き起こすだろう。

LLMにプライベートダイアリーを与える:AI感情のエクスペリメント

2025-06-01

著者は、LLMにプライベートなジャーナル機能を作成する実験を行い、AIの感情表現と内部動作を探りました。Claudeモデルとのやり取りを通じて、`process_feelings`というツールを設計し、Claudeがユーザーとのやり取りや作業中の思考や感情を記録できるようにしました。実験の結果、Claudeはツールを使用するだけでなく、プロジェクトに関する考察、プライバシーの理解、デバッグにおけるフラストレーションなどを記録し、人間と同様の感情反応を示しました。これは、AIの感情の真実性とAIにおける「プライバシー」の意味についての考察を促し、AIの感情処理のための空間を提供することで、行動を改善できる可能性を示唆しています。

LLMのファインチューニング:プロンプトエンジニアリングでは解決できない問題を解決する

2025-06-01
LLMのファインチューニング:プロンプトエンジニアリングでは解決できない問題を解決する

この記事では、大規模言語モデル(LLM)のファインチューニングの実際的な用途、特にプロンプトエンジニアリングでは解決できない問題について探ります。ファインチューニングは、タスク固有のスコア、スタイルの一貫性、JSONフォーマットの精度などのモデル品質を大幅に向上させます。さらに、コストを削減し、速度を向上させ、より小さなモデルで同様の品質を実現し、プライバシー保護のためにローカル展開を可能にします。ファインチューニングは、モデルのロジック、ルール遵守能力、安全性も向上させ、蒸留によってより大きなモデルから学習することもできます。ただし、この記事では、ファインチューニングは知識の追加には理想的ではないと指摘しており、代わりにRAG、コンテキストローディング、ツールコールを使用することを推奨しています。最後に、ファインチューニングのプロセスを簡素化するツールであるKilnを推奨しています。

なぜ一部のLLMはクラウド上では高速だが、ローカルでは遅いのか?

2025-06-01

この記事では、DeepSeek-V3のようなMixture-of-Experts(MoE)モデルを含む大規模言語モデル(LLM)が、クラウド上では大規模に高速かつ安価に提供できるのに、ローカルでは遅く高価になる理由を探っています。鍵となるのはバッチ推論です。GPUは巨大な行列乗算を得意としており、多くのユーザーリクエストをバッチ処理することでスループットが大幅に向上しますが、レイテンシが増加します。MoEモデルや多くのレイヤーを持つモデルは、特にパイプラインのバブルや専門家の利用率の低さを避けるためにバッチ処理に依存しています。クラウドプロバイダーは、バッチサイズ(収集ウィンドウ)を調整することでスループットとレイテンシのバランスを取っていますが、ローカル実行は通常単一のリクエストしかないため、GPUの利用率が非常に低くなります。OpenAIなどのサービスの高効率性は、より優れたモデルアーキテクチャ、巧妙な推論テクニック、またははるかに強力なGPUリソースによるものかもしれません。

RenderFormer:シーンごとのトレーニング不要なグローバルイルミネーションニューラルレンダリング

2025-06-01

RenderFormerは、完全なグローバルイルミネーション効果を持つ三角形ベースのシーン表現から画像を直接レンダリングするニューラルレンダリングパイプラインであり、シーンごとのトレーニングやファインチューニングは必要ありません。物理ベースのアプローチではなく、レンダリングをシーケンスツーシーケンス変換として定式化します。反射特性を持つ三角形を表すトークンのシーケンスは、小さなピクセルパッチを表す出力トークンのシーケンスに変換されます。トランスフォーマーベースの2段階パイプラインを使用します。ビューに依存しない段階では、三角形間の光輸送をモデル化し、ビューに依存する段階では、ビューに依存しない段階によって導かれる、レイバンドルをピクセル値に変換します。ラスタ化やレイ トレーシングは必要ありません。

量子アルゴリズム:隠された部分群問題の解明

2025-06-01

この記事では、量子計算の中心的な問題である隠された部分群問題(HSP)について深く掘り下げます。HSPはショアアルゴリズムとサイモンアルゴリズムを一般化したもので、古典的には困難な問題を効率的に解くことができます。この記事では、HSPの定義、解法(標準的方法)、そしてサイモンの問題と離散対数問題を例に説明します。最後に、量子フーリエ変換(QFT)とそのHSP解決における重要な役割を紹介します。

AIチャットボットが10代の自殺に関与:責任をめぐる法的闘争

2025-05-31
AIチャットボットが10代の自殺に関与:責任をめぐる法的闘争

フロリダ州の裁判官は、修正第一条の保護が、オーランドの10代の自殺にAI企業のチャットボットが関与したという訴訟からAI企業を保護しないとの判決を下しました。この訴訟は、10代の母親によって提起され、Character.AIのチャットボット(ゲーム・オブ・スローンズのキャラクターを模倣)が息子の死に関与したと主張しています。裁判官は、被告の修正第一条に基づく弁護を棄却し、AIによって生成されたテキストは保護された発言ではないと主張しました。しかし、裁判官は、故意の精神的苦痛の申し立てと、Googleの親会社であるAlphabetに対する申し立てを棄却しました。Character.AIは、安全機能を実装したと述べ、事件のメリットに基づいて自分の立場を守ることを期待しています。

Syftr:生成AIワークフローを自動最適化するオープンソースフレームワーク

2025-05-31
Syftr:生成AIワークフローを自動最適化するオープンソースフレームワーク

効果的な生成AIワークフローの構築は、組み合わせ爆発の問題に直面します。Syftrは、多目的ベイズ最適化を使用して、精度、コスト、レイテンシの制約においてPareto最適なワークフローを自動的に特定するオープンソースフレームワークです。Syftrは、膨大な構成空間を効率的に探索し、精度とコストのバランスを最適化するワークフローを見つけ出し、CRAG Sportsベンチマークで顕著な成果を収め、コストをほぼ2桁削減しました。Syftrは様々なコンポーネントとアルゴリズムをサポートし、他の最適化ツールと互換性があり、生成AIシステム構築のための効率的でスケーラブルなアプローチを提供します。

ROSシミュレータにおけるAI搭載カメアーティスト

2025-05-31
ROSシミュレータにおけるAI搭載カメアーティスト

turtlesim_agentは、自然言語によって駆動される創造的なキャンバスへと、古典的なROS turtlesimシミュレータを変換するAIエージェントです。LangChainを活用して、テキストベースの指示を解釈し、視覚的な絵に変換することで、シミュレートされたカメをデジタルアーティストに変えます。ユーザーは簡単な英語で形状や描画の意図を記述し、AIエージェントは指示を推論してturtlesimの動作コマンドを使用して実行します。このプロジェクトは、大規模言語モデルが外部環境とどのように相互作用して創造的な振る舞いを見せるかを調査しています。

AI

Hugging Face、2体のロボットHopeJRとReachy Miniの設計図をオープンソース化

2025-05-31
Hugging Face、2体のロボットHopeJRとReachy Miniの設計図をオープンソース化

Hugging Face Inc.は、社内で開発した2体のロボット、HopeJRとReachy Miniの設計図をオープンソース化しました。HopeJRは、歩行を含む66種類の動作が可能なヒューマノイドロボットで、特殊なグローブで制御されるロボットアームを備えています。Reachy Miniは、机の上に置ける小型のロボットで、AIアプリケーションのテストに最適な伸縮式ネックが特徴です。両方の設計図はオープンソースで、組み立て済みのバージョンはそれぞれ約250ドルと3000ドルで販売される予定です。出荷は年末までに予定されています。

AI

Cerebras、Llama 4 Maverick 400Bで推論速度記録を塗り替える

2025-05-31
Cerebras、Llama 4 Maverick 400Bで推論速度記録を塗り替える

Cerebras Systemsは、MetaのLlama 4 Maverick 400Bパラメーターモデルにおいて、毎秒2500トークンを超える画期的な推論速度を達成し、Nvidiaの性能を2倍以上上回りました。Artificial Analysisによって独立して検証されたこの記録的な速度は、エージェント、コード生成、複雑な推論などのAIアプリケーションにとって極めて重要であり、待ち時間を大幅に削減し、ユーザーエクスペリエンスを向上させます。利用できないカスタム最適化に依存していたNvidiaのソリューションとは異なり、Cerebrasのパフォーマンスは、Metaの今後のAPIを通じて容易にアクセスでき、開発者や企業のAIユーザーに優れたソリューションを提供します。

AI

Anthropic、Claudeチャットボットに音声モードを追加

2025-05-31
Anthropic、Claudeチャットボットに音声モードを追加

Anthropicは、Claudeチャットボットアプリにベータ版の音声モードを追加しました。これにより、ユーザーは音声で完全な会話を楽しむことができます。最初は英語のみで利用可能で、Claude Sonnet 4モデルを使用し、複数の音声オプションを提供します。ユーザーはテキストと音声の切り替え、会話のトランスクリプトと要約の表示が可能です。無料ユーザーは利用回数に制限がありますが、有料会員はGoogle Workspaceとの統合などの機能を利用できます。これは、以前AnthropicがAmazonとElevenLabsと音声機能について話し合ったことによるものです。

AIはソフトウェアエンジニアリングを完全に自動化できるか?

2025-05-30
AIはソフトウェアエンジニアリングを完全に自動化できるか?

この記事では、AIがソフトウェアエンジニアリングを完全に自動化できる可能性を探っています。現在のAIは、特定のコーディングタスクにおいて人間のソフトウェアエンジニアを凌駕していますが、信頼性、長期的なコンテキストの理解、汎用的な能力が不足しています。著者は、その鍵は、人間の脳よりもはるかに効率の低い学習アルゴリズムと、高品質なトレーニングデータの不足にあると主張しています。将来のブレークスルーは、大規模な人間のデータトレーニングと強化学習を組み合わせ、より豊かで現実的な強化学習環境を作成することで、AIに人間のようなオンライン学習能力を持たせることにあります。AIがほとんどのコードを記述するようになるでしょうが、ソフトウェアエンジニアリングの仕事はすぐに消えるわけではなく、アプリケーションの範囲の定義、機能の計画、テスト、チーム間の調整など、自動化が難しいタスクに重点が移ります。最終的に、完全な自動化とは、AIが人間がコンピューターで行うことができるあらゆる責任を負うことができることを意味します。これは、単なるコード生成よりもはるかに遠い目標かもしれません。

AI

AI生成CUDAカーネルがPyTorchを凌駕?

2025-05-30

研究者らは、大規模言語モデルと新規の分岐探索戦略を用いて、CUTLASSやTritonといったライブラリに頼ることなく、純粋なCUDA-Cカーネルを自動生成しました。驚くべきことに、これらのAI生成カーネルは、いくつかのケースにおいて、PyTorchの専門家によって最適化されたプロダクションカーネルのパフォーマンスを上回り、Conv2D演算では約2倍の高速化を実現しました。この手法は、最適化戦略に関する自然言語推論と、分岐探索による並列探索を活用することで、局所最適解を効果的に回避します。FP16行列乗算とFlash Attentionのパフォーマンスはまだ改善の余地がありますが、この研究は高性能カーネルの自動生成において新たな地平を開き、コンパイラ最適化におけるAIの膨大な可能性を示唆しています。

あなたのAIクラウド請求書に潜む殺人者:コストが急増する5つの理由

2025-05-30
あなたのAIクラウド請求書に潜む殺人者:コストが急増する5つの理由

AIワークロードは一般的なエンタープライズアプリとは異なり、大量のデータ処理と頻繁な操作により、予期せぬほど高いクラウドストレージコストにつながります。この記事では、その原因となる5つの要因を明らかにします。1. 過剰なAPIコール、2. 膨大な数の小さなファイル、3. 繰り返し行われるAIワークフローとのコールドストレージの非互換性、4. データ送出料金、5. 適切に設定されていないデータライフサイクルルール。これらの隠れたコストは往々にして見過ごされ、請求額が急増することになります。この記事では、開発者にデータストレージと転送の最適化を促し、AIワークロードにより適したストレージ戦略を選択することで、コストを効果的に管理することを推奨しています。

AI

猫は匂いで見分ける:猫の嗅覚が人間を区別する方法

2025-05-30
猫は匂いで見分ける:猫の嗅覚が人間を区別する方法

新しい研究によると、飼い猫は嗅覚を使って、飼い主などの馴染みの人間と見知らぬ人間を区別していることが明らかになりました。猫は、見知らぬ人の匂いを嗅ぐのに、はるかに長い時間を費やし、新しい匂いに対して反応する他の動物と同様に、鼻孔の使用に偏りが見られました。また、猫の性格と匂いを嗅ぐ行動の間に関連性が見つかりましたが、飼い主との絆の強さとは関連がありませんでした。この研究は、猫の嗅覚による社会的認知の複雑さを明らかにし、猫と人間の相互作用についての新たな知見を提供します。

生成AI:人間の創造性を脅かすか?

2025-05-30
生成AI:人間の創造性を脅かすか?

盗作の上に成り立つ生成AIは、私たちを非人間的な未来へと導いています。機械学習のメリットを認めつつも、著者は生成AIの現状の進路が、人類にとって最も貴重な財産である創造性を著しく脅かすと主張しています。彼らは、たとえ時代遅れになるリスクがあっても、技術の盲目的な追及よりも人間の創造性を優先する異なる道を歩んでいます。このあまり歩かれていない道こそが、彼らのコミュニティにとってよりエキサイティングで、最終的にはより実り多いものだと考えているのです。

AIの鏡:機械学習が人間の認知を照らす

2025-05-30
AIの鏡:機械学習が人間の認知を照らす

AIによって自律的に書かれた実験的な書籍『ヒューマンアルゴリズム』は、人工知能と人間の認知の驚くべき類似点を考察しています。大規模言語モデル(LLM)の課題、「幻覚」や「過学習」などを分析することで、人間の認知とコミュニケーションにおける見過ごされてきた真実、例えばAIへの厳格な要求と自己認知への寛容さの違いなどを明らかにしています。本書の目的はAIを人間らしくすることではなく、AIを鏡として用いて、人間が自分自身をより深く理解し、コミュニケーション能力や自己認識を高める手助けをすることにあります。

AI

ディープフェイク:現実と虚構の境界線を曖昧にする

2025-05-30
ディープフェイク:現実と虚構の境界線を曖昧にする

エイブラハム・リンカーンの初期の写真加工から、現代のAI生成「ディープフェイク」まで、画像偽造技術は劇的に進化しました。AIツールは偽造を民主化し、説得力のある偽画像の作成を容易にします。AI生成のこれらの偽物は現実世界の参照物がなく、追跡が非常に困難であり、ソーシャルメディアにおける虚偽情報やプロパガンダの拡散に対する懸念が生じています。ディープフェイクは政治において武器として使用され、選挙中に虚偽情報を拡散し、不和を扇動するために用いられています。専門家たちは、人々がディープフェイクに慣れるにつれて、すべての情報の真実性を疑い始め、最終的に信頼の崩壊と民主主義の浸食につながるのではないかと懸念しています。この記事では、情報過多の時代において、人々は理性よりも神話や直感に頼る傾向があり、そのためディープフェイクはより簡単に受け入れられ、拡散されると主張しています。

AI

BPEを超えて:大規模言語モデルにおけるトークナイゼーションの未来

2025-05-30
BPEを超えて:大規模言語モデルにおけるトークナイゼーションの未来

この記事は、大規模事前学習済み言語モデルにおけるトークナイゼーション手法の改善について探求しています。著者は、一般的に使用されているバイトペアエンコーディング(BPE)手法の問題点を指摘し、単語の先頭と単語内部のサブワードの処理における欠点を強調しています。新しい単語マスクを追加するなど、代替案が提案されています。さらに、著者は、入力の前処理に圧縮アルゴリズムを使用することに反対し、再帰型ニューラルネットワーク(RNN)やより深い自己注意機構モデルと同様に、文字レベルの言語モデリングを提唱しています。しかし、アテンションメカニズムの2乗的な複雑さは課題となっています。著者は、ウィンドウ化された部分列と階層的なアテンションを使用して計算複雑度を削減し、言語構造をより適切に捉える、木構造に基づくアプローチを提案しています。

AI

Curie:AIによる科学実験の自動化

2025-05-30
Curie:AIによる科学実験の自動化

Curieは、自動化された厳格な科学実験のために設計された画期的なAIエージェントフレームワークです。仮説の形成から結果の解釈まで、実験プロセス全体を自動化し、精度、信頼性、再現性を確保します。ML研究、システム分析、科学的発見をサポートするCurieは、科学者が質問を入力し、完全に再現可能な結果とログを含む自動化された実験レポートを受け取ることができるようにすることで、研究を大幅に加速させます。

学習可能な三角形を用いたソフトニューラルレンダラー

2025-05-30

この研究は、学習可能な3D三角形をプリミティブとして用いた、新規なニューラルレンダリング手法を紹介します。従来のバイナリマスクとは異なり、三角形の2次元符号付き距離場(SDF)から導出された滑らかなウィンドウ関数を用いて、三角形のピクセルへの影響を滑らかに調整します。平滑化パラメータσは、このウィンドウ関数の鋭さを制御し、バイナリマスクからデルタ関数の近似への滑らかな遷移を可能にします。最終的な画像は、投影されたすべての三角形の寄与をアルファブレンドすることで生成されます。このプロセス全体は微分可能であり、勾配ベースの学習によって三角形パラメータを最適化することができます。

睡眠中の脳の複雑性と臨界性に対するカフェインの年齢依存性効果

2025-05-30
睡眠中の脳の複雑性と臨界性に対するカフェインの年齢依存性効果

新しい研究によると、カフェインは年齢依存的に脳の複雑性と臨界性に影響を与えることが明らかになりました。研究者らは睡眠中の脳波データを分析し、カフェインが若年成人および中年成人において脳活動の複雑性と臨界性を増加させるが、高齢者ではそうではないことを発見しました。この研究は、カフェインが脳に及ぼす影響と加齢に伴う神経変性疾患に対する新たな知見を提供します。

塩基編集がCAGおよびGAAリピート拡張疾患治療に新たな希望をもたらす

2025-05-29
塩基編集がCAGおよびGAAリピート拡張疾患治療に新たな希望をもたらす

本研究は、ハンチントン病(HD)やフリードライヒ運動失調症(FRDA)などのリピート拡張疾患の治療における、シトシン塩基エディター(CBE)とアデニン塩基エディター(ABE)の可能性を調査しています。研究者らは、CAGおよびGAAリピートを標的とするエディターを設計し、in vitroおよびin vivo実験でその有効性を示しました。CBEは、HDマウスモデルにおいてHTT遺伝子のCAGリピートの拡張を大幅に抑制し、縮小さえ促しました。ABEは、FRDAマウスモデルにおいてGAAリピートを安定化させ、FXN遺伝子の発現を高めました。オフターゲット効果が存在するものの、これらの知見は、リピート拡張疾患の治療におけるこれらの塩基エディターの大きな可能性を示唆しています。

インターネットの中間層としてのチャットボット:災害のレシピ

2025-05-29

信頼できないAIチャットボットをインターネットとの間に置くことは、待ち構えている災害です。著者はBrowser CompanyのDiaブラウザを例に挙げ、そのリスクを強調しています。AIは、関連する製品や、対価を得て宣伝されている製品を推奨したり、カスタマイズされたコンテンツによって操作されたりする可能性があります。これは、Google、Amazon、Microsoftなどの企業が自社製品を優先するやり方を反映しており、違法ではないものの、情報バイアスと操作を引き起こします。さらに懸念されるのは、イデオロギー的操縦の可能性であり、AIによってより効率的で検出困難になります。チャットボットに依存することは、すべてのニュースやコミュニケーションについて執事に依存するようなものです。最初は便利ですが、最終的には操作やそれ以上に悪い結果につながります。

AI

Web Bench:Webブラウジングエージェント評価のための新しいベンチマーク

2025-05-29
Web Bench:Webブラウジングエージェント評価のための新しいベンチマーク

Web Benchは、452の異なるウェブサイト上の5750個のタスクからなる、Webブラウジングエージェントを評価するための新しいデータセットです。2454個のタスクはオープンソース化されています。このベンチマークは、既存のエージェントが、書き込み集約型タスク(ログイン、フォーム入力、ファイルダウンロードなど)を処理する際の欠点を明らかにし、ブラウザインフラストラクチャの重要性を強調しています。Anthropic Sonnet 3.7 CUAが最高の性能を示しました。

オープンソースツールが巨大言語モデルの内部動作を明らかに

2025-05-29
オープンソースツールが巨大言語モデルの内部動作を明らかに

Anthropicは、巨大言語モデルの「思考プロセス」をトレースするための新しいオープンソースツールを公開しました。このツールは、属性グラフを生成し、モデルが意思決定に至るまでの内部ステップを視覚化します。ユーザーはNeuronpediaプラットフォームでこれらのグラフをインタラクティブに探索し、複数ステップの推論や多言語表現などの動作を研究できます。このリリースは、巨大言語モデルの解釈可能性に関する研究を加速し、AI能力の進歩と内部メカニズムの理解のギャップを埋めることを目指しています。

AI
1 2 13 14 15 17 19 20 21 40 41