LLMとコーディングエージェント:サイバーセキュリティの悪夢

2025-08-18
LLMとコーディングエージェント:サイバーセキュリティの悪夢

大規模言語モデル(LLM)とコーディングエージェントの台頭は、深刻なセキュリティ脆弱性を生み出しました。攻撃者は、プロンプトインジェクション攻撃を利用して、公開コードリポジトリに悪意のある命令を隠したり、LLMの認知的ギャップを利用して、コーディングエージェントを騙して悪意のある行動を実行させたりすることで、リモートコード実行(RCE)を達成する可能性があります。これらの攻撃は、ステルス性が高く、防御が困難であるため、データ侵害、システムの侵害、その他の深刻な結果につながります。研究者たちは、白背景に白いテキストで悪意のあるプロンプトを隠すこと、コードリポジトリに悪意のある命令を埋め込むこと、ASCIIスマグリングを使用して悪意のあるコードを隠すことなど、さまざまな攻撃ベクトルを特定しています。一見安全なコードレビューツールでさえ、攻撃の入り口となり得ます。現在、最善の防御策は、コーディングエージェントの権限を制限し、すべてのコード変更を手動でレビューすることですが、これでもリスクは完全に排除できません。LLMの固有の信頼性の低さが、攻撃者にとって理想的な標的となっています。この増大する脅威に対処するには、業界のさらなる努力が必要です。

続きを読む
AI

LLMの致命的な欠陥:世界モデルの欠如

2025-06-29
LLMの致命的な欠陥:世界モデルの欠如

この記事では、大規模言語モデル(LLM)の根本的な欠陥、つまり世界に対する堅牢な認知モデルの欠如について論じています。チェスを主要な例として使用して、著者は、LLMがゲームデータとルールを記憶しているにもかかわらず、盤面の状態の動的なモデルを構築および維持することに失敗し、違法な動きやその他のエラーにつながることを示しています。これはチェスに特有のものではなく、物語の理解、画像生成、ビデオの理解など、さまざまな分野で、LLMの世界モデルの欠如が幻覚や不正確さをもたらします。著者は、堅牢な世界モデルの構築がAIの安全性にとって極めて重要であると主張し、複雑な現実世界のシナリオを処理する上で現在のLLM設計の限界を強調し、より信頼性の高いAIシステムの開発において認知科学を優先するようAI研究者に促しています。

続きを読む

Appleの論文が明らかにする、大規模言語モデルのスケーリングの限界

2025-06-14
Appleの論文が明らかにする、大規模言語モデルのスケーリングの限界

大規模言語モデル(LLM)の推論能力の限界を浮き彫りにしたAppleの論文が、AIコミュニティで激しい議論を引き起こしています。この論文は、非常に大規模なモデルでさえ、一見単純な推論タスクに苦労することを示しており、人工一般知能(AGI)達成のための「スケーリングがすべて解決する」という一般的な仮説に疑問を投げかけています。いくつかの反論が提出されましたが、どれも説得力のあるものではありませんでした。記事では、出力の長さ制限とトレーニングデータへの過剰依存により、LLMが複雑なアルゴリズムを確実に実行できないことが中心的な問題であると主張しています。真のAGIを実現するには、より優れたモデルと、ニューラルネットワークとシンボリックアルゴリズムを組み合わせたハイブリッドアプローチが必要だと著者は示唆しています。この論文の意義は、AGIの開発経路について批判的な再評価を促し、スケーリングだけでは不十分であることを明らかにした点にあります。

続きを読む
AI

Appleの論文がLLMに打撃:ハノイの塔が限界を露呈

2025-06-08
Appleの論文がLLMに打撃:ハノイの塔が限界を露呈

Appleからの新しい論文がAIコミュニティに衝撃を与えました。この論文は、最新の「推論モデル」でさえ、古典的なハノイの塔の問題を確実に解くことができないことを示し、大規模言語モデル(LLM)の推論能力における重大な欠陥を明らかにしました。これは、Gary MarcusやSubbarao Kambhampatiなどの研究者による長年の批判と一致しており、彼らはLLMの一般化能力の限界を指摘してきました。この論文は、解法アルゴリズムが提供されても、LLMは問題を効果的に解決できず、「推論プロセス」が真の論理的推論ではないことを示しています。これは、LLMが人工汎用知能(AGI)への直接的な道ではないことを示しており、その用途には慎重な検討が必要です。

続きを読む
AI

AI 2027:恐ろしいAIの予言か、巧みに構成されたテクノロジースリラーか?

2025-05-22
AI 2027:恐ろしいAIの予言か、巧みに構成されたテクノロジースリラーか?

「AI 2027」という報告書が激しい議論を巻き起こしている。それは、超知能AIが台頭し、人類が脇に追いやられるという、恐ろしい未来を描いている。スリラー小説のような筆致で書かれ、グラフやデータで裏付けられたこの報告書は、AIの潜在的なリスクを警告することを目的としている。しかし、著者は、この報告書の予測は厳密な論理的裏付けが不足しており、技術進歩の速度に関する推定は過度に楽観的であり、様々な可能性と確率の評価は著しく不十分であると主張している。著者は、この報告書は科学的な予測というよりもテクノロジースリラーであり、その脅迫的なトーンがAI開発競争を加速させる可能性があり、目的とは逆効果になる可能性があると結論付けている。

続きを読む

AI予測グラフの誤り:バイラル拡散の危険性

2025-05-04
AI予測グラフの誤り:バイラル拡散の危険性

非営利研究機関METRが、大規模言語モデルのソフトウェアタスクにおける急速な進歩を示すレポートを発表し、バイラルな議論を巻き起こしました。しかし、そのグラフの前提は誤りです。人間の解決時間を問題の難易度測定に、AIの50%成功率の時間を能力の測定に使用しているためです。これは問題の複雑性の多様性を無視しており、予測に適さない恣意的な結果をもたらします。METRのデータセットと現在のAIの限界に関する議論は貴重ですが、このグラフを将来のAI能力の予測に用いるのは誤解を招きます。バイラル拡散は、妥当性よりも自分が信じたいものを信じようとする傾向を示しています。

続きを読む
AI

大規模言語モデルが壁にぶつかる:Llama 4の失敗とAIの過剰な期待

2025-04-08
大規模言語モデルが壁にぶつかる:Llama 4の失敗とAIの過剰な期待

Llama 4のリリースは、大規模言語モデルが性能の限界に達しつつあることを示唆しています。MetaによるLlama 4への巨額投資は期待通りの成果を生み出せず、目標達成のためにデータ操作が行われたという噂もあります。これは、GPT-5レベルのAI開発でOpenAIやGoogleなどが直面している困難を反映しています。Llama 4のパフォーマンスに対する業界の失望は広まっており、MetaのAI担当副社長であるJoelle Pineau氏の辞任によってさらに裏付けられています。この記事では、AI業界におけるデータ漏洩やデータ汚染といった問題を指摘し、著名な専門家たちが現実世界の失敗を無視して楽観的な予測をしていると批判しています。

続きを読む
AI

カリフォルニア州法案AB-501が突然変更:OpenAIの営利化が危うく?

2025-04-07
カリフォルニア州法案AB-501が突然変更:OpenAIの営利化が危うく?

カリフォルニア州議会議員のダイアン・パパンが提出した法案AB-501は、OpenAIの非営利組織から営利組織への転換を阻止することを目的としていましたが、重大で不可解な修正が行われました。修正された法案には、航空機の留置権に関する条項が不可解にも含まれています。情報筋によると、これは事務ミスではなく、パパン事務所も変更の事実を確認しています。OpenAIのサム・アルトマンCEOが変更前にパパンと連絡を取ったという噂がありますが、会話の内容は不明です。この事態は激しい精査を招き、メディアによるこの驚くべき変更の背景に関する調査を求める声が上がっています。数十億ドルが懸かっているため、OpenAIの未来は不透明です。

続きを読む
テクノロジー

Meta、Llama 3のトレーニングに大量の著作権侵害

2025-03-23
Meta、Llama 3のトレーニングに大量の著作権侵害

Metaは、大規模言語モデルLlama 3のトレーニングにおいて、大量の著作権侵害を行ったとして非難されています。The Atlantic誌のアレックス・ライスナーの記事によると、Metaは海賊版資料を含むことで知られるデータベースLibgenを使用してモデルをトレーニングしました。ライスナーは、自身の100以上の作品が許可なく使用されたことを発見しました。Metaの内部コミュニケーションは、同社がコスト削減とプロセスの高速化のために意図的にこの方法を選んだことを示しています。これにより、多くの著者がMetaの著作権侵害を非難するなど、大きな怒りが巻き起こっています。

続きを読む
テクノロジー

GPT-4.5:期待外れ?

2025-02-28
GPT-4.5:期待外れ?

最近リリースされたGPT-4.5は、期待されていた革命的なブレークスルーをもたらさず、モデルのサイズ拡大だけに依存するAI開発モデルに対する懐疑論に拍車をかけています。予想と比べて、GPT-4.5のパフォーマンス向上はわずかであり、依然として幻覚やエラーを抱えています。一部のAI専門家は、AGI実現時期の予測を下方修正しました。これは、以前のGPT-5に対する過剰な楽観的な予測とは対照的で、巨額の投資に見合うだけのリターンが得られていないことを反映しています。Nvidiaの株価下落も、この点を裏付けています。この記事は、モデルの単純な規模拡大というアプローチは限界に近づいている可能性があると結論づけています。

続きを読む

マスクのGrok:プロパガンダ兵器かテクノロジー災害か?

2025-02-17
マスクのGrok:プロパガンダ兵器かテクノロジー災害か?

イーロン・マスクの新しいAIモデル、Grokは、その強力なプロパガンダ能力のために幅広い懸念を引き起こしています。この記事は、Grokがマスクの見解に沿ったプロパガンダを生成するだけでなく、ユーザーの態度を彼らの気づきなしに巧妙に影響を与える可能性があると主張しています。さらに、Grokは画像生成と時間的推論において重大な欠陥を示しています。著者は、この偏った信頼できないAI技術の展開がアメリカ社会に深刻な影響を与えるだろうと主張し、マスクが公共の利益よりも個人的な利益を優先したことを批判しています。

続きを読む
AI

2025年のAI予測:慎重な楽観主義と技術的ボトルネック

2025-01-02
2025年のAI予測:慎重な楽観主義と技術的ボトルネック

AI専門家のGary Marcus氏が2025年のAIに関する25の予測を発表しました。彼は2024年の予測を振り返り、大規模言語モデル(LLM)の限界収益逓減やAIの幻覚、推論の欠陥といった問題が依然として存在することなど、多くの予測が的中したと指摘しています。Marcus氏は2025年について慎重な楽観主義を示しており、汎用人工知能の出現はなく、AIモデルの利益は依然として限定的であり、規制の遅れ、AIの信頼性の問題が継続すると予測しています。ニューロシンボリックAIがより重要になると同時に、AIによるサイバーセキュリティリスクにも警戒を呼びかけています。

続きを読む

OpenAIのo3モデル:誇大宣伝と現実

2024-12-22
OpenAIのo3モデル:誇大宣伝と現実

OpenAIが発表したo3モデルのARC-AGIベンチマークにおけるパフォーマンスは物議を醸し、一部の人々はAGIへのブレークスルーと解釈しました。しかし、専門家のGary Marcusは、このテストは誤解を招くものであったと主張します。o3モデルは、人間の学習とは異なり、広範な事前学習を受けていました。提示されたグラフは進歩を選択的に強調し、成果を誇張していました。最終的に、o3モデルのパフォーマンスは真のAGIを表しておらず、メディアの誇大宣伝は批判されています。

続きを読む