Webtagr - テクノロジーニュースダイジェスト

GoogleのGemma：軽量なマルチモーダルモデルファミリー

2025-03-12

Googleは、Geminiテクノロジーを基盤とした軽量なマルチモーダルモデルファミリーであるGemmaを発表しました。Gemma 3モデルはテキストと画像を処理し、128Kのコンテキストウィンドウと140以上の言語をサポートしています。パラメータサイズは1B、4B、12B、27Bとあり、質問応答、要約、推論などのタスクで優れた性能を発揮します。コンパクトな設計により、リソースの限られたデバイスへの展開も可能です。ベンチマークの結果は、様々なタスク、特に多言語およびマルチモーダル機能において、高いパフォーマンスを示しています。

(ollama.com)

AI 軽量モデル

アルゴリズムの天井を破る：誘導的モーメントマッチング（IMM）による効率的な生成的プリトレーニング

2025-03-12

Luma Labsは、生成的プリトレーニングにおけるアルゴリズム的イノベーションの停滞に対処する新しいプリトレーニング技術、誘導的モーメントマッチング（IMM）を発表しました。IMMは、サンプル品質とサンプリング効率の両方において、拡散モデルを大幅に上回り、後者では10倍以上の向上を実現します。ターゲットタイムステップを組み込むことで、IMMは各推論反復の柔軟性を高め、拡散モデルにおける線形補間の限界を克服します。実験により、ImageNetとCIFAR-10のデータセットで最先端のFIDスコアと優れたトレーニング安定性が示されました。この研究は、生成的プリトレーニングアルゴリズムにおける重要な進歩を示し、マルチモーダル基礎モデルの将来の発展への道を切り開きます。

(lumalabs.ai)

AI 生成的プリトレーニング効率的な推論

Mistralの新しいOCRモデルが期待外れ、Google Gemini 2.0がリード

2025-03-11

最近のテストで、Mistralが新しくリリースしたOCR専用モデルが、宣伝文句に反して性能が低いことが明らかになりました。開発者のWillisとDoriaは、複雑なレイアウトや手書き文字の処理において、都市名の繰り返し、数値の誤り、そして幻覚などの問題点を指摘しています。対照的に、GoogleのGemini 2.0 Flash Pro Experimentalは優れた性能を示し、Mistralでは処理できない複雑なPDFファイル、手書き文字を含むファイルも処理できます。大きなコンテキストウィンドウも大きな強みです。LLMベースのOCRは有望ですが、情報の捏造、指示の誤解、データの一般的な誤解釈などの問題を抱えています。

(arstechnica.com)

AI

Legion Health：AI駆動型精神医療 – 採用中！

2025-03-11

YC支援のLegion Healthは、AI駆動型の精神医療システム構築のため、トップレベルのAIエンジニアを採用しています。AIによる診断ではなく、AIを活用した運用最適化により、患者のケアを迅速かつ円滑でアクセスしやすいものにすることに注力しています。エンジニアは、LLMワークフローの最適化、スケジューリング、リスク評価、収益サイクル自動化のためのAIモデルの改善、フィードバックループの改良、強化学習ベースのAIトレーニングなどに携わります。理想的な候補者は、AI/MLエンジニアリングで3年以上の経験、PythonとML（LLM、NLP、PyTorch/TensorFlow）の深い知識、ヘルスケアにおけるAIへの関心を持つ方です。

(www.ycombinator.com)

AI

Firefly：AI搭載リアルタイムフィットネスフィードバックアプリ

2025-03-11

Fireflyは、信頼性の高いポーズトラッカーとトレーナーデータを使用して、リアルタイムのフォームフィードバックを提供する独自のワークアウトアプリです。ルーチンを提案するだけのアプリとは異なり、Fireflyはフォームを評価し、繰り返しごとに即座に修正を提供することで、適切なテクニックとけがの予防を保証します。その速度と精度は競合他社を上回り、信頼性の低いサードパーティのデータではなく、独自のトレーナーデータを利用しています。Fireflyは継続的なフィードバックを提供し、ミスをした場合でも改善を支援します。

(www.firefly.fitness)

AI AIフィットネスポーズトラッキングリアルタイムフィードバック

Whisperによる人間の脳言語活動の解読

2025-03-11

研究者らは、Whisperモデルを用いて、4人のてんかん患者が自然な会話を行っている間のECoG信号と音声信号を分析しました。その結果、Whisperの音響、音声、言語の埋め込みが、特に音声生成と理解中に、ニューラル活動を正確に予測することが示されました。音声埋め込みは知覚運動領域で優れており、言語埋め込みはより高次の言語領域で優れたパフォーマンスを示しました。この研究は、音声と言語の情報が脳の複数の領域でどのように符号化され、音声情報が言語処理にどのように影響するかを明らかにしています。また、音声生成と理解における情報の流れの異なる時間的ダイナミクス、そしてニューラル活動を予測する上での深層学習モデルと記号モデルの違いも発見されました。

(www.nature.com)

AI ブレインコンピュータインタフェース

ファクトリオ学習環境：LLMのための新たなベンチマーク

2025-03-11

大規模言語モデル（LLM）は既存のベンチマークを急速に凌駕しており、新たなオープンエンドな評価が必要となっています。ファクトリオ学習環境（FLE）は、ゲーム「ファクトリオ」を基盤とし、長期計画、プログラム合成、資源最適化におけるエージェントの能力をテストします。FLEは、基本的な自動化から、1秒間に数百万単位の資源を処理する複雑な工場まで、オープンエンドで指数関数的に拡大する課題を提供します。2つの設定があります。固定リソースを持つ24個の構造化されたタスクからなるラボプレイと、手続き的に生成されたマップ上でゼロから最大の工場を構築するという、無制限のタスクであるオープンプレイです。どちらの設定においても、モデルは依然として強力な空間推論能力を欠いていることが示されました。ラボプレイでは、LLMは短期的なスキルにおいて有望な結果を示しますが、制約のある環境では効果的に動作できず、エラー分析の限界を反映しています。オープンプレイでは、LLMは成長を向上させる自動化戦略（例：電動ドリル）を発見しますが、複雑な自動化（例：電子回路製造）を達成できません。

(jackhopkins.github.io)

AI ファクトリオ

意味理解の解明：AIにおけるコサイン類似度

2025-03-10

この記事では、コサイン類似度とそのAI、特に単語間の意味関係の理解における応用について明確に説明しています。ベクトルの説明から始まり、段階的な例を用いてコサイン類似度の計算を詳細に解説しています。コサイン類似度関数のTypeScript実装と、最適化されたバージョンが提供されています。その後、製品推薦や意味検索などの現実世界のWebアプリケーションでのユースケースを探求し、OpenAIの埋め込みモデルを活用して精度を向上させる方法を示しています。また、Math.hypot()を使った効率的な実装と、本番環境での埋め込みの事前計算の重要性も強調しています。

(alexop.dev)

AI ベクトル

AIは「圧縮された21世紀」をもたらすか？研究者の疑問

2025-03-10

著者は、AIがすぐに科学的ブレークスルーをもたらすという考えに異議を唱えます。自身の経験や歴史上の天才科学者たちの例を挙げて、真の科学的進歩は既存の知識の習得ではなく、既成概念への挑戦と破壊的な疑問の提起から生まれると主張します。現在のAIモデルは、独創的なアイデアを生み出すのではなく、「穴埋め」が得意です。著者は、既知の質問への正確な回答に焦点を当てるのではなく、AIが挑戦的な質問を提起し、パラダイムシフトを推進する能力を測定するための新しい評価指標が必要だと示唆しています。

(thomwolf.io)

AI 科学的ブレークスルーパラダイムシフト

LLMと人間はバイアスを示す：TTS音声の魅力度ランキング実験

2025-03-10

昨年、著者はLLMを使用してHacker Newsのユーザーをランク付けし、モデルがプロンプトで最初に言及されたユーザーを常に好むというバイアスを発見しました。今年、TTS音声の魅力度をランク付けする新しい実験では、画面の右側に表示された音声を好むという同様のバイアスが人間の参加者にも見られました。これは著者の以前の発見を強化し、AIと人間の判断の両方を使用する際に、バイアスを軽減するためにサンプルサイズとランダム化の重要性を強調しています。

(wilsoniumite.com)

AI 人間のバイアス TTS音声

Kuzu-WasmとWebLLMを使ったブラウザ内Graph RAGチャットボット

2025-03-10

このブログ記事では、Kuzu-WasmとWebLLMを使用して構築された、完全にブラウザ内で動作するチャットボットを紹介します。このチャットボットは、Graph Retrieval-Augmented Generation（Graph RAG）技術を利用して、LinkedInデータに関する自然言語クエリに答えます。このアプリケーションは、WebAssemblyの利点を活用し、データのローカル処理によるプライバシーの向上と、簡素化されたデプロイメントを実現しています。アーキテクチャ、実装、データの取り込み、WebLLMプロンプト、パフォーマンスの観測結果などが詳細に説明されています。モデルのサイズや速度などの現在の制限はありますが、WebAssembly技術の進歩と、より小さく、より優れたLLMの登場により、このような高度なパイプラインが完全にブラウザ内で動作する未来が期待できます。

(blog.kuzudb.com)

AI

RTX 5090のLlama.cpp AIベンチマーク：初期結果

2025-03-10

RTX 5090のCUDA、OpenCL、OptiXベンチマークテストの後、読者の関心からAIパフォーマンス、特にLlama.cppのパフォーマンスに関する調査が行われました。Llama.cpp（Llama 3.1とMistral 7Bモデルを使用）を用いたRTX 5090、RTX 40シリーズ、RTX 30シリーズのカードの比較ベンチマークでは、RTX 5090がテキスト生成とプロンプト処理において大幅なパフォーマンス向上を示しました。読者の関心に基づき、より詳細なベンチマークを今後実施する予定です。

(www.phoronix.com)

AI AIパフォーマンス

LLMの過熱感は終焉を迎えるか？

2025-03-10

この記事は、大規模言語モデル（LLM）の現状に対する慎重ながらも楽観的な見解を示しています。著者は、LLMが特定のタスクにおいて優れた性能を発揮する一方、現在の技術路線が人工汎用知能（AGI）につながる可能性は低いと主張しています。進歩は、微妙な改善やベンチマークの向上といった漸進的なものが多い一方で、根本的な能力の飛躍は見られないと指摘しています。著者は今後数年間、LLMは便利なツールとなるものの、AGIや広範な自動化をもたらすことはないだろうと予測しており、将来のブレークスルーには全く新しいアプローチが必要となる可能性があると結論付けています。

(www.lesswrong.com)

AI

変分損失付きオートエンコーダ：RNNが潜在変数を無視する場合

2025-03-09

この論文は、再帰型ニューラルネットワーク（RNN）と変分オートエンコーダ（VAE）を組み合わせる課題に取り組んでいます。VAEは潜在変数を使用してデータ表現を学習しますが、デコーダがRNNの場合、RNNはこれらの潜在変数を無視し、データ分布を直接学習することがよくあります。著者は、変分損失付きオートエンコーダ（VLAE）を提案します。これは、RNNの情報へのアクセスを制限し、グローバル構造をエンコードするために潜在変数を使用することを強制します。実験により、VLAEは圧縮され、意味的に豊かな潜在表現を学習することが示されています。

(theahura.substack.com)

AI 表現学習

進化型エージェントフレームワーク：協調的なAIエージェントエコシステム

2025-03-09

進化型エージェントフレームワークは、インテリジェントな通信を備えたAIエージェントを作成、管理、進化させるための本番環境対応のシステムです。これは、要件を意味的に理解し、経験から学習し、複雑なタスクを解決するために効果的に通信するエージェントの協調的なエコシステムを可能にします。主な機能には、エージェントの進化（再利用、適応、または作成）、YAMLワークフローシステムによるエージェント間の通信、OpenAI埋め込みによって強化されたセマンティック検索を備えたスマートライブラリ、継続的な学習による自己改善、およびマルチフレームワークサポート（BeeAI、OpenAIなど）が含まれます。このフレームワークは、セマンティックな類似性に基づいて、再利用、進化、または新しいエージェントを作成するかどうかを決定するシステムエージェントを使用し、ファームウェアによるガバナンスを含みます。包括的な例では、請求書分析などのタスクに対するエージェントの協調と進化を示しています。

(github.com)

AI 協調

AI：誇大宣伝と現実－技術的変化、スカイネットシナリオではない

2025-03-08

AIの急速な進歩は、雇用の減少や、存在自体への脅威さえも懸念させる広範な不安を引き起こしました。この記事は、AIの本質が、パターン認識エンジンであり、データから確率分布を学習して予測を行うものであり、真の思考ではないと主張しています。AIは画像生成やテキスト作成において驚くべき成果を上げていますが、幻覚や真の論理的推論の欠如など、依然として限界があります。著者は過去の技術的変化との類似点を指摘し、人類の適応能力を強調しています。AIは作業を自動化しますが、新たな機会も創造し、変化を積極的に受け入れ、より意義のある活動に人間のエネルギーを向けるよう促しています。

(tejo.substack.com)

AI 技術的変化

AIが3000年前の楔形文字を解読、古代研究に革命

2025-03-08

コーネル大学とテルアビブ大学の研究者らが、3000年前の粘土板から楔形文字を自動的に識別・複製するAIシステム「ProtoSnap」を開発した。拡散モデルを用いて、文字画像とプロトタイプ間の画素の類似性を比較することで、書体や時代の違いに関わらず正確に文字を復元する。これにより楔形文字の翻訳・研究が大幅に加速し、古代社会の研究に大量のデータを提供、宗教、経済、社会構造、法制度に関する新たな知見をもたらす。

(news.cornell.edu)

AI

Reflection AI、超知能実現に向け1億3000万ドルを調達

2025-03-08

元Google DeepMindの研究者によって設立されたAIスタートアップ、Reflection AIは、シードラウンドとシリーズAラウンドで1億3000万ドルの資金調達を行い、評価額5億5500万ドルに達しました。彼らの野心的な目標は「超知能」の開発であり、これはコンピューター関連のほとんどのタスクを処理できるAIです。最初の取り組みは、大規模言語モデル（LLM）と強化学習を活用し、Transformerを超えた新しいアーキテクチャを探求することで効率性を向上させる自律的なプログラミングツールです。このツールは、脆弱性スキャン、メモリ最適化、信頼性テストなどのタスクを自動化し、最終的には大規模なワークロードを自律的に処理することを目指しています。

(siliconangle.com)

AI

ロシアの虚偽情報ネットワークが西側AIチャットボットに侵入

2025-03-07

モスクワを拠点とする「Pravda」（ロシア語で「真実」の意）と呼ばれる虚偽情報ネットワークが、AIチャットボットのデータに侵入し、偽の主張とプロパガンダを注入して、ニュースへの反応を操作しています。プロクレムリンのプロパガンダで検索結果を氾濫させることで、大規模言語モデルが情報を処理する方法を歪めています。その結果、何百万ものロシアのプロパガンダ記事が西側のAIシステムに組み込まれ、その出力が感染しました。NewsGuardが主要な10のAIチャットボットを監査した結果、Pravdaネットワークからの誤った情報を33％の時間繰り返していることが明らかになりました。このネットワークはオリジナルコンテンツを作成するのではなく、クレムリンのプロパガンダのマネーロンダリングマシンとして機能し、一見独立した多数のウェブサイトから情報を集約しています。この大規模な作戦は、AIモデルが虚偽情報キャンペーンに対して脆弱であることを浮き彫りにしています。

(www.newsguardrealitycheck.com)

AI ロシアのプロパガンダ

Reflection AI：自律的なコーディングによるスーパーインテリジェンス構築

2025-03-07

Reflection AIは、超知能自律システムを構築しています。チームメンバーはAlphaGoなどのプロジェクトに携わり、強化学習と大規模言語モデルにおいて大きな進歩を遂げてきました。彼らは、自律的なコーディングがより広範な超知能実現の鍵だと考え、まず超知能自律コーディングシステムを構築し、その後、その設計図を他のすべてのコンピューターベースの作業に展開する計画です。同社は現実世界のアプリケーションを重視し、ユーザーフィードバックと繰り返し作業を行い、システムが現実世界のニーズを確実に満たし、AIの未来を責任ある形で形作ると確信しています。

(www.reflection.ai)

AI 超知能自律コーディング

AIがオゼンピックに匹敵する新たな減量分子を発見、副作用なし

2025-03-07

スタンフォード大学の研究者らは、AIアルゴリズムを用いて、食欲抑制と体重減少においてセマグルチド（オゼンピック）に匹敵する天然分子BRPを発見しました。重要なことに、動物実験では、BRPは吐き気、便秘、筋肉量の減少などの副作用を回避することが示されました。BRPは異なるが同様の代謝経路を通じて作用し、食欲を制御するために視床下部を標的とします。ヒト臨床試験を開始するために会社が設立されました。この画期的な発見は、AIによる数千種類のタンパク質のスクリーニングに依存しており、肥満治療のための有望な新たな道を提供します。

(medicalxpress.com)

AI

自己回帰モデルを超えて：AIの次のフロンティア

2025-03-07

現在の生成AIモデルのほとんどは自己回帰型であり、次のトークンを予測します。Transformerアーキテクチャは計算効率の高さから広く採用されています。しかし、自己回帰モデルは、計画や推論能力の不足、長期記憶の制限、そして「幻覚」を起こしやすいといった固有の限界があります。著者は、人間の思考は純粋に自己回帰的ではなく、非逐次的思考や計画が含まれると主張しています。人間の認知により近いAIを実現するため、研究者たちはJEPAや拡散モデルといった他のパラダイムを探求しています。これらのモデルは、反復的な改良やノイズからのノイズ除去によってコンテンツを生成し、人間の思考プロセスをより忠実に反映しています。

(wonderfall.dev)

AI モデルアーキテクチャ

InstantStyle：ワンクリックでスタイル転送、AI画像生成を簡単に

2025-03-07

InstantStyleは、画像のスタイル転送を行うシンプルながらも強力なフレームワークです。画像の内容とスタイル情報を巧みに分離することで、正確なスタイル制御を実現します。CLIPのグローバルフィーチャを活用し、特定のAttentionレイヤー（up_blocks.0.attentions.1とdown_blocks.2.attentions.1）に焦点を当ててスタイルとレイアウトを操作します。InstantStyleはdiffusersなどの主要なツールに統合されており、SDXLやSD1.5などのモデルをサポートし、オンラインデモや高解像度生成機能を提供することで、ワークフローを大幅に簡素化し、スタイリッシュな画像生成をユーザーに手軽に提供します。

(github.com)

AI スタイル転送

微分可能な論理セルオートマトン：ライフゲームから学習済み再帰回路によるパターン生成へ

2025-03-07

本論文は、完全に離散的なセル状態を用い、学習済みの再帰的なバイナリ回路によって更新される、新しいニューラルセルオートマトン(NCA)アーキテクチャであるDiffLogic CAを紹介します。ニューラルネットワークのコンポーネントをDeep Differentiable Logic Networksに置き換えることで、離散論理ゲートの微分可能なトレーニングが可能になります。微分可能な論理ゲートをセルオートマトンに適用する成功は、コンウェイのライフゲームの複製と、学習済み離散ダイナミクスによるパターンの生成によって示されています。これは、NCA内に離散論理を統合する可能性を示し、微分可能な論理ゲートネットワークが再帰アーキテクチャで効果的に学習できることを証明しています。有望な一方で、複雑な形状を生成するためのトレーニングは依然として課題であり、階層型アーキテクチャや状態管理を改善するための特殊なゲートに関する将来の研究を示唆しています。

(google-research.github.io)

AI 微分可能な論理ゲートパターン生成

拡散LLM：言語モデルにおけるパラダイムシフト

2025-03-06

Inception Labsは、従来の自己回帰アプローチに挑戦する画期的な拡散型大規模言語モデル（dLLM）を発表しました。トークンを逐次的に予測する自己回帰モデルとは異なり、dLLMはテキストセグメントを同時に生成し、繰り返し改良します。画像やビデオモデルで成功を収めたこの手法は、現在、コード生成において同規模の従来のLLMを凌駕し、速度と効率が5～10倍向上しています。最大の利点は幻覚の減少です。dLLMは重要な部分を生成して検証してから続行するため、チャットボットやインテリジェントエージェントなど、精度が求められるアプリケーションに不可欠です。このアプローチは、複数ステップのエージェントワークフローの改善、ループの回避、計画、推論、自己修正能力の向上を約束します。

(rnikhil.com)

AI

オープンソース音声ターン検出モデル：Smart Turn

2025-03-06

Pipecatチームは、音声活動検出（VAD）ベースの音声AIシステムを改善するために設計された、オープンソースの音声ターン検出モデルSmart Turnをリリースしました。Meta AIのWav2Vec2-BERTをバックボーンとして使用し、シンプルな2層分類ヘッドを追加しています。現時点では英語のみをサポートしており、初期の概念実証段階ですが、チームはパフォーマンスが急速に向上すると確信しています。彼らは、モデルの改善と、言語サポートおよび機能の拡張に貢献するようコミュニティを招待しています。

(github.com)

AI

Koko：AIを活用したメンタルヘルス非営利団体が技術リーダーを募集

2025-03-06

MITとAirbnbの元エンジニアによって設立されたメンタルヘルス技術非営利団体Kokoは、技術リーダーを募集しています。彼らは、TikTokやDiscordなどのプラットフォームに介入を統合することで、若者にオンラインで迅速なメンタルヘルスサポートを提供する、スケーラブルなAIシステムを構築しています。199カ国以上の400万人以上の若者を支援してきたKokoは、データ主導の製品意思決定、A/Bテスト、厳格な安全基準を重視しています。これは、AIを使って良い影響を与える絶好の機会です。

(www.ycombinator.com)

AI 非営利

低コスト推論モデルが巨大モデルを凌駕：強化学習による論理パズルの攻略

2025-03-06

研究者らは強化学習を用いて、より小さく、より安価なオープンソースの言語モデルを訓練し、「時間的手がかり」と呼ばれる推論を重視したゲームにおいて、DeepSeek R1、OpenAIのo1、o3-miniを上回り、AnthropicのSonnet 3.7に匹敵する性能を達成しました。推論時のコストは100倍以上削減されています。これは、慎重なタスク設計、ハイパーパラメータの調整、グループ相対方策最適化（GRPO）アルゴリズムとtorchtuneライブラリの使用によるものです。この研究は、強化学習が、限られたデータでも複雑な演繹タスクに対してオープンモデルを効率的に訓練できる可能性を示しており、わずか16個の訓練例で大きな性能向上を実現しました。

(openpipe.ai)

AI

AI専門家ウィリアム・J・ラパポート教授とのAMA：AIの未来とチューリングテスト

2025-03-06

3月27日、バッファロー大学のウィリアム・J・ラパポート教授（コンピュータサイエンス、エンジニアリング、哲学、言語学の各分野で教授職）と、AIに関するディスカッションを開催します。ラパポート教授は、AI分野の権威であり、『コンピュータサイエンスの哲学』などの著書や、AIの成功や大規模言語モデルとチューリングテストに関する最近の論文を発表しています。この機会に、質問をフォームから送ってください！AIの第一人者と直接意見交換できる貴重な機会です。

(docs.google.com)

AI 専門家

Mistral OCR：デジタル化された情報の力を解き放つ画期的なOCR API

2025-03-06

Mistral OCRは、新しい光学文字認識（OCR）APIであり、文書理解において新たな基準を打ち立てます。他のOCRとは異なり、メディア、テキスト、表、数式を前例のない精度と認識能力で理解します。画像とPDFを入力として受け取り、インターリーブされたテキストと画像としてコンテンツを抽出します。複雑な文書の最先端のパフォーマンス、多言語サポート、そしてトップレベルのベンチマークを誇るMistral OCRは、Le Chatで数百万人のユーザーにとってデフォルトモデルとなっています。ドキュメントをプロンプトとして使用できる機能と、構造化された出力（JSON）を提供し、機密データのために選択的なセルフホスティングも可能です。APIはla Plateformeで利用可能で、価格は1000ページあたり1ドル（バッチ推論ではさらに高い価値を提供します）。

(mistral.ai)

AI

Category: AI