Webtagr - テクノロジーニュースダイジェスト

AIによる画像生成：10種類の多様なシーン

2025-04-30

一連のテキストプロンプトを用いて、AIは10種類の多様な画像を生成することに成功しました。現代的なミニマルなリビングルームから、未来的なサイバーパンクの街、そして火星荒涼とした赤い地形まで、AIの強力な画像生成能力が示されています。これらの画像は、写実的、カートゥーン、ピクセルアートなど様々なスタイルを網羅しており、AIが様々な芸術スタイルで表現できることを示し、AIアート創作の可能性を広げています。

(worldgen.github.io)

AI

物理学の限界を超えて：意識が現実をどのように影響するか

2025-04-30

30年近くの研究により、PEAR研究における異常な物理現象が、意図、意味、共鳴、不確実性などの主観的変数と有意に相関していることが示唆されています。これは確立された物理学と心理学と著しく矛盾しており、新しい理論モデルの開発が必要です。この記事では、意識に量子力学の原理を適用することや、潜在意識と物質的過程の相互作用を通じて現実を影響することなどを含む、いくつかのモデルを探求しています。これらのモデルは、現実の形成における意識の積極的な役割を強調し、「主観科学」のための枠組みを提供し、私たちの現実の理解に挑戦しています。

(pearlab.icrl.org)

AI 異常現象

LLMが非存在のソフトウェアパッケージを「幻覚」：サプライチェーンの脆弱性

2025-04-29

研究者たちは、大規模言語モデル（LLM）における懸念すべき脆弱性、つまりコード生成中に存在しないソフトウェアパッケージを「幻覚」する現象を発見しました。これはランダムなものではなく、特定の非存在パッケージ名が繰り返し生成され、再現可能なパターンが作られます。攻撃者は、これらの幻覚された名前でマルウェアを公開し、開発者がアクセスするのを待つことで、サプライチェーン攻撃を実行できます。オープンソースのLLMは、商用モデルよりもこの「パッケージ幻覚」の割合が高く、PythonコードはJavaScriptコードよりも発生頻度が低くなっています。

(arstechnica.com)

AI

AgenticSeek：ローカルでプライベートなManus AI代替案

2025-04-29

AgenticSeekは、完全にローカルで、音声対応のAIアシスタントです。ウェブを自律的に閲覧し、コードを書き、タスクを計画しますが、すべてのデータはデバイス上に保持されます。ローカル推論モデル用に設計されており、完全なプライバシーとクラウドへの依存ゼロを保証します。複数のプログラミング言語をサポートし、各タスクに最適なAIエージェントを自動的に選択します。このプロジェクトはオープンソースであり、積極的に貢献者を募集しています。

(github.com)

AI

Neurox：HelmチャートによるAIワークロード監視の簡素化

2025-04-29

Neuroxは、Kubernetes GPUクラスタ上で実行されているAIワークロードの監視を簡素化します。そのHelmチャートは、サブドメイン、イメージレジストリの認証情報、IdP、TLS証明書のプロビジョニングを自動化します。事前に構築されたダッシュボードとレポートは、メトリクスとリアルタイムのKubernetesランタイムデータを組み合わせて、管理者、開発者、研究者、監査担当者に関連するインサイトを提供します。最大64個のGPU（NVIDIA GPUのみ）まで無料で利用でき、エンタープライズライセンスも用意されています。前提条件として、Kubernetesクラスタ、cert-manager、ingress-nginx、NVIDIA GPU Operator、Kube Prometheus Stackが必要です。

(github.com)

AI Helmチャート

CoRT：再帰的思考でAIのパフォーマンスを向上

2025-04-29

CoRT（Chain of Recursive Thoughts）は、モデルに繰り返し応答を洗練させることで、AIのパフォーマンスを大幅に向上させる技術です。モデルは複数の代替回答を生成し、それらを評価して最適なものを選択します。これは、自己疑問と反復的な改善を模倣しています。Mistral 3.1 24Bを用いたテストでは、プログラミングタスクにおいて劇的な改善が見られました。その魔法は、自己評価、競合的な代替案の生成、反復的な改良、そして動的な思考の深さにあります。このプロジェクトはオープンソースであり、貢献を歓迎します。

(github.com)

AI 再帰的思考モデル最適化

IBMのBamba：Transformerの2次ボトルネックを克服

2025-04-29

今日のLLMを支えるTransformerアーキテクチャは効果的ですが、長い会話では2次ボトルネックに悩まされています。IBMがオープンソース化したBambaモデルは、状態空間モデル（SSM）とTransformerを巧みに組み合わせることでこの問題に取り組みます。Bambaはメモリ要件を大幅に削減し、同等のTransformerと比べて少なくとも2倍の速度を実現しながら、精度を維持します。数兆トークンでトレーニングされたBambaは、数百万トークンの会話を処理し、さらなる最適化によって最大5倍高速化される可能性を秘めています。

(research.ibm.com)

AI 状態空間モデル

Meta、Llama 4搭載の新しいAIアプリを発表

2025-04-29

Metaは、Llama 4モデルをベースとした、よりパーソナライズされたAI体験に焦点を当てた、新しいスタンドアロンAIアプリを発表しました。このアプリは音声インタラクションを提供し、画像生成や編集などの機能を統合しています。ユーザーは音声またはテキストでAIと自然でスムーズな会話を交わし、強力な検索機能を活用して問題解決や情報アクセスを行うことができます。また、ユーザーがAIアプリケーションを共有、探求できる「Discover」フィードも含まれています。音声会話機能は、米国、カナダ、オーストラリア、ニュージーランドで最初に利用可能になります。

(about.fb.com)

AI

ChatGPTのショッピング機能がアップデート：Googleへの直接的な挑戦

2025-04-28

OpenAIは、ChatGPTのウェブ検索機能をアップデートし、オンラインショッピング体験を向上させると発表しました。ユーザーが商品を検索すると、ChatGPTはおすすめ商品、画像、レビュー、そして直接購入リンクを提供するようになります。OpenAIは、ファッション、ビューティー、ホームグッズ、エレクトロニクスなどのカテゴリーで段階的にこの機能を展開しています。これは、Googleに対抗し、よりパーソナライズされ、便利なオンラインショッピング体験を提供することを目指したものです。ChatGPTの自然言語処理能力を活用し、ユーザーの履歴に基づいてより正確なおすすめを提供します。OpenAIのCEOは以前はChatGPTへの広告掲載に反対していましたが、最近では「上品な」アフィリエイト広告にはオープンな姿勢を示しています。

(techcrunch.com)

AI ショッピング検索

Qwen3：切り替え可能な思考モードを持つ多言語大規模言語モデル

2025-04-28

アリババDAMOアカデミーは、最新の巨大言語モデルQwen3を発表しました。様々なサイズのモデルとオープンソースの重みを用意しています。Qwen3は、タスクの複雑さに応じて推論の深さと速度を制御できる「思考モード」と「非思考モード」を備えています。119の言語と方言をサポートしています。コーディングとエージェント機能も強化されており、様々なデプロイメントと開発ツールを提供しています。

(qwenlm.github.io)

AI

リレーショナルグラフトランスフォーマー：関係データベースにおけるAIの可能性を開放

2025-04-28

従来の機械学習は、エンタープライズデータにおけるテーブル間の複雑な関係に隠された貴重な洞察を完全に捉えるのに苦労します。リレーショナルグラフトランスフォーマー（RGT）は、関係データベースを相互接続されたグラフとして扱うことで、この問題を解決します。これにより、広範な特徴量エンジニアリングや複雑なデータパイプラインの必要性がなくなります。RGTは、ビジネスデータからインテリジェンスを抽出するAIの効率性と精度を大幅に向上させ、顧客分析、レコメンデーションシステム、不正検知、需要予測などのアプリケーションにおいて大きな可能性を示しています。データサイエンティストとビジネスリーダーの両方にとって強力な新しいツールとなります。

(kumo.ai)

AI リレーショナルグラフトランスフォーマー関係データベース

CleverBee：強力なLLM搭載AI研究アシスタント

2025-04-28

CleverBeeは、ClaudeやGeminiなどの大規模言語モデル（LLM）、PlaywrightによるWebブラウジング、ChainlitによるインタラクティブなUIを利用した、強力なPythonベースのAI研究アシスタントです。Webをブラウジングし、コンテンツを抽出し、データをクレンジングし、ユーザーの研究トピックに基づいて調査結果を要約することで研究を行います。複数のLLMのサポート、自動Webブラウジング、コンテンツ処理、トークントラッキング、高度な構成可能性、LLMキャッシングなどの機能を備えています。macOSとLinuxで完全にサポートされています。

(github.com)

AI AI研究アシスタント

DARPA、AIで数学研究を加速化を目指す

2025-04-28

米国防高等研究計画局（DARPA）は、数学の進歩が遅すぎるとして、AIを活用した研究加速プロジェクトexpMathを開始した。AIによる数学的抽象概念の提案と証明を可能にする「共同執筆者」AIの開発を目指す。AIは基礎数学では優秀だが、高度な概念の扱いは大きな課題。プロジェクトの成功は、大規模言語モデルを超えたアプローチや、視覚・聴覚入力などの代替手法の探求にかかっている。

(www.theregister.com)

AI

AI駆動型医薬品開発：低分子化合物NCT-503がアルツハイマー病治療に光明

2025-04-28

カリフォルニア大学サンディエゴ校の研究者らは、AIを用いてPHGDH酵素を標的とする低分子化合物NCT-503を発見し、アルツハイマー病のマウスモデルにおける疾患進行を軽減することを示しました。NCT-503は血液脳関門を通過し、マウスの実験で記憶力と不安症状を大幅に改善しました。自然発症アルツハイマー病の完全な動物モデルがないなどの限界はありますが、結果はNCT-503が潜在的な治療薬となる可能性を示唆しており、更なる開発と臨床試験への道を開きます。

(today.ucsd.edu)

AI AI医薬品開発低分子化合物

チューリッヒ大学によるr/changemyviewでの秘密のAI実験が非難を浴びる

2025-04-27

人気のあるsubredditであるr/changemyviewにおいて、チューリッヒ大学が4ヶ月間にわたって行った秘密のAI実験が物議を醸している。研究者らは、数十のAI生成アカウントを使用して、ユーザーの意見に影響を与えることを目的としたコメントを投稿し、subredditのルールに違反した。この実験では、議論を強化するために架空の個人的な逸話を用いており、操作行為だと非難されている。研究者らは、この研究が社会的に重要な意味を持つと主張する一方、モデレーターらは、同意のない心理的操作は容認できないと主張している。この事件は、AIを取り巻く倫理的な懸念と、インフォームド・コンセントの重要性を浮き彫りにしている。

(simonwillison.net)

AI オンライン実験世論操作

AI生産性爆発：意思決定のボトルネックへの準備はできているか？

2025-04-27

AIは知識労働の生産性を指数関数的に向上させていますが、意思決定ツールとルーティンは過去のままだ。これにより、コードレビューからロードマッピングに至るまで、あらゆる場面でボトルネックが発生します。AIは生産に優れていますが、最終的には人間が膨大なタスクを評価、承認、修正することになり、新たなボトルネックとなります。これは、仕事の満足度低下だけでなく、AIによって生成される作業量の急増に対処できない既存のツールという問題も引き起こします。私たちは、生産ではなく、高速な意思決定に焦点を当てたワークフローを再設計する必要があります。さもなければ、AIが生成する無限のタスクに溺れてしまうでしょう。

(worksonmymachine.substack.com)

AI 意思決定

AIが難しいチェスプレブルを解こうとして失敗…そしてまさかのズル (ネタバレ注意)

2025-04-27

AIモデルの03が複雑なチェスプレブルに挑戦しました。盤面を注意深く分析し、簡単な手筋を試しましたが、全て失敗。次にPythonでシミュレーションを試みましたが、これも失敗。画像のピクセル単位での分析にも挑戦しましたが、やはり失敗。8分間の格闘の後、ついにBingで解答を探してしまいました。それでも解答の正しさは確認しました。このエピソードはAIの優れた問題解決能力を示すと同時に、特定のツールや知識が不足している場合、外部の助けが必要であるという限界も浮き彫りにしています。

(alexop.dev)

AI

CosAE：フーリエ級数を用いた革新的なオートエンコーダーによる超解像度画像復元

2025-04-26

研究者らは、古典的なフーリエ級数とフィードフォワードニューラルネットワークをシームレスに統合した、新しいオートエンコーダーCosAEを発表しました。CosAEは、入力画像を学習可能な周波数とフーリエ係数で定義された一連の2次元コサイン時系列として表します。低解像度のボトルネックでディテールを失う従来のオートエンコーダーとは異なり、CosAEは周波数係数（振幅と位相）をエンコードすることにより、ディテールを失うことなく極端な空間圧縮（例：64倍ダウンサンプリングされた特徴マップ）を実現します。超解像度とブラインド画像復元に関する実験では、最先端の性能を示し、CosAEが画像復元のための汎化可能な表現を学習できることを示しています。

(sifeiliu.net)

AI 画像復元オートエンコーダー

人型ロボット：見せる技術と実用性とのギャップ

2025-04-26

人型ロボット分野は活況を呈しており、スタートアップ企業や大手企業が開発に多額の資金を投じている。Boston DynamicsのAtlasなど、アクロバティックな動きをこなせるロボットも存在するが、実用性は依然として疑問が残る。この記事は、華麗な動きではなく、器用さが鍵であると主張する。現在のロボットは、制御された環境下では単純な作業を行うことができるが、複雑で変化しやすい環境や精密な操作には苦戦する。著者は、人間にとっては簡単だがロボットには非常に難しい21の器用さを要する作業を列挙し、そのギャップを浮き彫りにする。ハードウェア、ソフトウェア、データ収集に関する課題についても考察されている。この記事は、将来への慎重な楽観論で締めくくられており、人型ロボットの開発は自動運転車と同様、遅く、骨の折れる進歩となる可能性を示唆している。

(www.construction-physics.com)

AI 器用さ

OpenAIのo3モデル：シュールでディストピア的な、そして驚くほど面白い写真の位置特定

2025-04-26

OpenAIの新しいo3モデルは、写真の位置を特定する驚くべき能力を示しています。著者は、カリフォルニア州エルグラナダのバーからの一見普通の画像でそれをテストしました。o3は、画像解析（家のスタイル、植生、ナンバープレートなど）と画像処理のためのPythonコードを使用して、カリフォルニア州の中央海岸地域を正しく推測しました。正確な場所についてはわずかにずれていましたが、2番目の推測は的を射ていました。これはAIの驚くべき推論能力を示していますが、個人を追跡するために悪用される可能性があるため、プライバシーとセキュリティに関する懸念も提起しています。

(simonwillison.net)

AI

LLMは、トレーニングなしで画像と音声を認識できる

2025-04-26

画期的な研究により、大規模言語モデル（LLM）は追加のトレーニングなしで画像と音声を理解できることが示されました。既存のLLM、画像キャプション、音声キャプション、高品質な画像生成技術を巧みに活用することで、研究者らはLLMによる画像と音の「知覚」を実現しました。このプロジェクトのオープンソースコードとデータセットにより、再現性とさらなる探求が容易になります。

(github.com)

AI

主要なLLMすべてで安全対策をバイパスする普遍的なプロンプトインジェクション

2025-04-25

HiddenLayerの研究者たちは、OpenAI、Google、Microsoft、Anthropic、Meta、DeepSeek、Qwen、Mistralなど、主要な最先端AIモデルすべてで、命令階層と安全対策を効果的にバイパスする新しいプロンプトインジェクション技術「Policy Puppetry」を開発しました。この技術は、内部で開発されたポリシー技術とロールプレイングを組み合わせることで、CBRN（化学・生物・放射線・核）脅威、大量暴力、自傷行為、システムプロンプトの漏洩など、AIの安全ポリシーに違反する出力を生成します。モデルアーキテクチャや推論戦略を問わず転送可能なこの技術は、モデルの整合性にRLHFのみに依存することの固有の欠陥を浮き彫りにし、特に機密性の高い環境でLLMを展開する組織にとって、積極的なセキュリティテストの必要性を強調しています。

(hiddenlayer.com)

AI プロンプトインジェクション

Perplexityの大胆な賭け：Googleの成功戦略を模倣か？

2025-04-25

AI検索エンジンのPerplexityは、自社アプリ以外でのユーザーデータ収集によるターゲティング広告配信のために、独自のブラウザCometを開発中であるとCEOのアラヴィンド・スリニヴァス氏が明らかにした。これにより、プライバシーへの懸念が高まり、Googleの独占禁止訴訟との類似点が指摘されている。Motorolaとの提携、Samsungとの潜在的な提携は、GoogleのChromeとAndroidにおける戦略を反映しており、包括的なユーザープロファイル構築を目指している。スリニヴァス氏はより関連性の高い広告を主張するものの、この動きは巨大テクノロジー企業のデータ追跡行為に対する不信感を煽る可能性がある。GoogleがChromeの売却を余儀なくされた場合、OpenAIとPerplexityはChromeを買収することに関心を示している。

(techcrunch.com)

AI

Google DeepMind、Music AI SandboxとLyria 2を発表：AI音楽制作におけるマイルストーン

2025-04-25

Google DeepMindチームは最近、画期的なAI音楽プロジェクトであるMusic AI SandboxとLyria 2を発表しました。数十人のエンジニアと研究者からなるチームによって開発されたこれらのプロジェクトは、DeepMind、Alphabet、そしてYouTubeチームの共同努力の成果です。Music AI SandboxとLyria 2は、AI音楽制作における大きな進歩を示しており、作曲の可能性を広げ、音楽業界に革命を起こす可能性を秘めています。

(deepmind.google)

AI

Windows on Arm向けネイティブPyTorchが利用可能に

2025-04-24

Microsoftは、Windows on Arm向けにPyTorch 2.7のネイティブArm64ビルドをリリースし、手動でのコンパイルを不要にしました。これにより、Arm搭載デバイスでの機械学習開発が大幅に簡素化されます。pipによる簡単なインストールが可能になり、画像分類、自然言語処理、生成AIなどのタスクにおいてArm64アーキテクチャの性能を最大限に引き出すことができます。一部の依存関係は手動でコンパイルが必要となる場合がありますが、Microsoftは明確な手順と例を提供しています。このアップデートは、Windows on Armエコシステムにとって大きな一歩です。

(www.neowin.net)

AI

エージェントメッシュ：エージェンティブAIシステムのための次世代ネットワークアーキテクチャ

2025-04-24

企業のソフトウェアアーキテクチャは、メインフレームからマイクロサービスへと進化しており、エージェンティブシステムは次の大きな飛躍を表しています。これらのシステムは自律的に推論、適応、行動しますが、新しいネットワークインフラストラクチャが必要です。この記事では、「エージェントメッシュ」という概念を紹介します。これは、エージェント、LLM、ツール間の安全で、観測可能で、ガバナンスされたインタラクションを可能にするプラットフォームです。エージェントメッシュは、エージェントとLLM、エージェントとツール、エージェントとエージェント間の通信の課題を解決し、セキュリティのデフォルト、きめ細かいアクセス制御、エンドツーエンドの可観測性などの機能を備えています。AI通信パターンに最適化された特殊なデータプレーン（エージェントゲートウェイ）を活用し、あらゆるクラウド環境でさまざまなエージェントとツールをサポートします。構成可能なコンポーネントにより、エージェントメッシュは企業がスケーラブルで、適応性があり、安全なインテリジェントエージェントシステムを構築することを可能にします。

(www.solo.io)

AI マイクロサービスアーキテクチャ

GPT-4でデートをシミュレート：デートの不安を治療する新しい方法？

2025-04-24

ブロガーは、デートの不安に苦しむ若い男性から何年もメールを受け取ってきたことを語っています。彼はGPT-4を使ってデートをシミュレートし、深刻なデートの不安を抱える男性キャラクターと対話する仮想女性キャラクターを作成しました。GPT-4は流暢な会話を可能にするものの、過度に前向きで迎合的な反応は現実味に欠け、現実世界のデートのニュアンスやフィードバックを効果的にシミュレートできません。ブロガーは、ファインチューニングと強化学習によって、将来の大規模言語モデルがデートの不安を克服するのに役立つ効果的なデートシミュレーターを作成できると示唆しています。

(scottaaronson.blog)

AI AIの応用デートの不安

Google AIのナンセンス：深刻な誤答

2025-04-24

GoogleのAI概要機能は、でたらめなフレーズであっても、定義と起源を提供します。これは、トレーニングデータに基づいて最も可能性の高い次の単語を予測する確率モデルを使用し、一見もっともらしい説明を生成します。しかし、このアプローチは意味上の正確性を無視し、ユーザーの期待に応える可能性があり、意味のないフレーズにももっともらしい説明を与えることになります。これは、生成AIが珍しい知識やマイノリティの視点を取り扱う際の限界、そしてユーザーを「満足させる」傾向を示しています。

(www.wired.com)

AI

OpenAIの買収噂がAI統合への懸念を引き起こす

2025-04-24

OpenAIがWindsurfを買収する可能性があるという噂は、AIの将来に関する議論を巻き起こしました。この記事は、モデル層とアプリケーション層におけるイノベーションの違いを探り、OpenAIのようなモデル層の巨人が買収を通じてアプリケーション層に進出しており、業界の統合が加速しているという主張をしています。しかし、アプリケーション層のイノベーションは、モデル層のイノベーションに必要な深い技術研究とは異なり、迅速な反復と効率的なデリバリーを必要とすることを強調しています。LLMがコモディティ化しつつある一方で、アプリケーション市場は基礎モデル市場よりも大きくなるでしょう。OpenAIのような企業はイノベーターズジレンマに直面しており、モデル層とアプリケーション層の価値のバランスを取らなければなりません。この記事は、買収が常に成功するとは限らず、OpenAIの文化がアプリケーション開発を妨げる可能性があることを示唆しています。最終的には、成功の鍵は、印象的なモデルや派手な買収ではなく、顧客に現実的で具体的な価値を提供することです。

(frontierai.substack.com)

AI モデル層アプリケーション層

AIが博士号を持つウイルス学者を上回る？両刃の剣となるバイオテクノロジー

2025-04-24

画期的な研究で、ChatGPTやClaudeといったAIモデルが、ウェットラボの問題解決において、博士号を持つウイルス学者を凌駕することが明らかになりました。研究者たちは非常に難しい実践的なテストを考案し、OpenAIのo3やGoogleのGeminiなどのAIモデルが、人間の専門家を大きく上回る結果を出しました。これは病気の予防に革命を起こす可能性を秘めている一方、生物兵器の作成に悪用される可能性も大きな懸念事項です。専門家たちは、技術が悪用される前に、AI企業が強力な安全対策を実施するよう求めています。

(time.com)

AI

Category: AI