Category: AI

ViT対CNN:速度ベンチマークが解像度神話に終止符を打つ

2025-05-04

この記事は、Vision Transformer(ViT)が高解像度画像処理において非効率であるという一般的な認識に異議を唱えています。様々なGPUにおける厳格なベンチマークテストを通じて、ViTと畳み込みニューラルネットワーク(CNN)の推論速度、FLOPs、メモリ使用量を比較しています。その結果、ViTは1024x1024ピクセル以下の解像度で非常に優れたパフォーマンスを示し、最新のGPUではCNNよりも高速でメモリ効率が高いことが示されました。また、著者は高解像度への過度の重点を批判し、多くの場合、低い解像度で十分であると主張しています。最後に、この記事では、高解像度におけるViTの効率をさらに向上させる局所的アテンションメカニズムを紹介しています。

AI

コッドのセルオートマトン:簡素化された自己複製マシン

2025-05-04
コッドのセルオートマトン:簡素化された自己複製マシン

1968年、イギリスのコンピューター科学者エドガー・F・コッドは、フォン・ノイマンの29状態の自己複製マシンを簡素化した、わずか8状態のセルオートマトン(CA)を考案しました。コッドは、自身のCA内で自己複製マシンの可能性を実証しましたが、完全な実装は2009年にティム・ハットンによって実現されるまででした。コッドの研究は、オートマトンにおける自己複製に必要な論理構造に関するさらなる研究を促し、デボアやラントンなどの研究者による後続の改良にインスピレーションを与え、より複雑さの低い自己複製設計につながりました。

TScale:コンシューマーハードウェア上でのLLMトレーニング

2025-05-04
TScale:コンシューマーハードウェア上でのLLMトレーニング

TScaleは、C++とCUDAで記述されたトランスフォーマーモデルのトレーニングと推論フレームワークであり、コンシューマーグレードのハードウェアで動作するように設計されています。最適化されたアーキテクチャ、低精度計算(fp8とint8)、CPUオフロード、同期および非同期分散トレーニングにより、トレーニングコストと時間を大幅に削減します。巧妙なインデックス付け技術により、1Tパラメーター規模のモデルでも一般的な家庭用コンピューターでトレーニングが可能になり、LLMトレーニングへの参入障壁を下げる大きな可能性を示しています。

AI予測グラフの誤り:バイラル拡散の危険性

2025-05-04
AI予測グラフの誤り:バイラル拡散の危険性

非営利研究機関METRが、大規模言語モデルのソフトウェアタスクにおける急速な進歩を示すレポートを発表し、バイラルな議論を巻き起こしました。しかし、そのグラフの前提は誤りです。人間の解決時間を問題の難易度測定に、AIの50%成功率の時間を能力の測定に使用しているためです。これは問題の複雑性の多様性を無視しており、予測に適さない恣意的な結果をもたらします。METRのデータセットと現在のAIの限界に関する議論は貴重ですが、このグラフを将来のAI能力の予測に用いるのは誤解を招きます。バイラル拡散は、妥当性よりも自分が信じたいものを信じようとする傾向を示しています。

AI

AIコミュニケーション時代の10個の新語

2025-05-03
AIコミュニケーション時代の10個の新語

AIの台頭は、私たちのコミュニケーション方法を根本的に変えました。この記事は、この変化を説明するために、ユーモラスに10個の新語を紹介しています。「chatjacked」(AIによる会話の乗っ取り)、「prasted」(AIの出力を編集せずにそのまま貼り付ける)、「prompt ponged」(AIによる応酬)、「AI'm a Writer Now」(AIによって書き手が生まれる)などです。AIがコミュニケーションに与える影響を鮮やかに示し、 authorship、誠実さ、真のつながりの意味について考えさせられます。AI時代における本物のコミュニケーションを維持する方法を考えることを促す、楽しく、かつ考えさせられる記事です。

AI

AI生成文学:偏見と流暢さ

2025-05-03
AI生成文学:偏見と流暢さ

このエッセイは、大規模言語モデル(LLM)によって生成された文学作品に対する偏見を考察しており、これは歴史的に女性作家に対する偏見と類似しています。著者は、単に人間ではないという理由だけでAIによる執筆を本質的に欠陥があると切り捨てるのは不当であると主張しています。この論文は、言語の流暢さと思考の関係を深く掘り下げ、人間の言語の多くは習慣的で非反省的であり、AI生成テキストと根本的に異なるものではないことを示しています。最終的に、著者は、AI生成作品を読む際に偏見を持たずに臨むことを提唱しており、それらは予想外の革新的な言語表現の形態を示す可能性があるからです。

AIが科学と数学に与える影響:専門家が今後10年間を予測

2025-05-03
AIが科学と数学に与える影響:専門家が今後10年間を予測

クオンタマガジンは、人工知能がそれぞれの分野に与える影響について、約100人の科学者と数学者にインタビューを行いました。ほぼ全員が、AIの破壊的な影響を感じていると報告しており、AI開発に直接関わっているか、その可能性によって間接的に影響を受けているかに関わらず、多くの人が実験へのアプローチを調整したり、新しい協力を探したり、全く新しい研究課題を提示したりしています。記事は、今後5~10年間で何が起こるかという難しい質問で締めくくられています。専門家たちは、AIの急速な進歩により正確な予測が困難であり、その影響は今後何年も続くであろうことに同意しています。

AI

Googleファミリーリンク、子どもによるGemini AIへのアクセスを許可

2025-05-03
Googleファミリーリンク、子どもによるGemini AIへのアクセスを許可

Googleは、Family Linkのペアレンタルコントロールを通じて、Androidデバイスで子どもがGemini AIアプリにアクセスできるようにします。Geminiは宿題やストーリーの朗読に役立ちますが、Googleは、AIが誤りを犯したり、子どもが不適切なコンテンツに遭遇する可能性があることを警告しています。Googleは、子どものデータはAIのトレーニングに使用されないことを保証しています。保護者には、Geminiが人間ではないこと、そしてチャットボットと機密情報を共有しないように子どもと話し合うことが推奨されます。保護者はFamily Linkを通じて制御を維持し、子供が初めてGeminiにアクセスした際に通知を受け取ることができ、アクセスを完全に無効にすることもできます。

DeepMindのロボット、人間レベルの卓球競技能力を達成

2025-05-02
DeepMindのロボット、人間レベルの卓球競技能力を達成

Google DeepMindチームは、人間の専門家レベルで卓球競技ができるロボットを開発しました。発表された論文と動画では、複雑で動的な環境におけるロボットの優れたパフォーマンスが示されており、AI搭載ロボット分野における大きな進歩を表しています。このプロジェクトには多くのDeepMind研究者が参加し、共同研究の力を示しています。

AI 卓球

WebGL2を用いたブラウザ上でのGPT-2推論デモ

2025-05-02
WebGL2を用いたブラウザ上でのGPT-2推論デモ

この印象的なプロジェクトは、GPT-2スモールモデル(1億1700万パラメータ)の完全な順伝播をWebGL2を使ってブラウザに実装しています。GPU計算にWebGL2シェーダー、BPEトークナイゼーションにjs-tiktokenを使用し(WASMは不要)、ブラウザ上で直接GPT-2を実行します。Pythonスクリプトで事前学習済み重みをダウンロードし、フロントエンドはViteで構築されており、ホットモジュールリプレイスメントをサポートしています。これは、高度なAIモデルをブラウザにもたらす素晴らしい例であり、ウェブ技術の最先端能力を示しています。

AI

AIが500種類以上の奇妙な音楽ジャンルマッシュアップを生成

2025-05-02
AIが500種類以上の奇妙な音楽ジャンルマッシュアップを生成

謎のAIプログラムが、「ゴシックアラビアレゲエ」や「サックストゥアレグ」など、500種類以上の珍しい音楽ジャンルを組み合わせた作品を生み出しました。これらの組み合わせは、様々な文化と音楽スタイルを大胆に融合し、音楽創作におけるAIの可能性を無限に示しています。これは、音楽創作の未来について考えさせられるとともに、音楽家たちに新たな創造的インスピレーションを提供します。

AIライティングアシスタントによるグローバルサウスの文章スタイルの均質化

2025-05-02
AIライティングアシスタントによるグローバルサウスの文章スタイルの均質化

コーネル大学の研究によると、AIライティングアシスタントは、特にグローバルサウスの数十億人のユーザーに影響を与え、西側諸国の標準に合わせた文章スタイルの均質化をもたらす可能性があることが明らかになりました。この研究では、AIアシスタントを使用した場合、インドとアメリカのユーザーの文章がより似通るようになり、特にインドの文章スタイルが犠牲になることがわかりました。両グループとも執筆速度が向上しましたが、インドのユーザーはAIの提案を頻繁に修正する必要があったため、生産性の向上はアメリカよりも少なかったです。AIはしばしばアメリカ料理や祝祭日を提案し、インドの有名人を西洋の有名人に置き換えることさえありました。研究者たちはこれを「AI植民地主義」と呼び、より包括的なAIツールを作成するために、テクノロジー企業は文化的なニュアンスに焦点を当てる必要があると主張しています。

AI

ドーパミン:恐怖の消去における脳の「オールクリア」信号

2025-05-01

MITの神経科学者たちは、特定の脳回路に沿ったドーパミンの放出が「オールクリア」信号として機能し、脳に恐怖を消去するよう教えることを発見しました。マウスにおける研究では、ドーパミンが扁桃体の異なるニューロン集団を標的とし、恐怖消去の記憶をコード化することが明らかになりました。このメカニズムは、正常に機能すると落ち着きを取り戻しますが、機能不全になると、不安やPTSDに寄与する可能性があります。この研究は、恐怖関連障害に対する潜在的な治療標的を特定しており、ドーパミン受容体や特定のニューロンを介して介入することで、恐怖記憶の形成と消去に影響を与える可能性が示唆されています。

GoogleのAIモード検索エンジンがパブリックベータ版に

2025-05-01
GoogleのAIモード検索エンジンがパブリックベータ版に

Googleは、米国の少数のユーザーにAIモード検索エンジンを展開しています。このAI搭載検索は、従来の検索結果とは異なり、Googleのインデックスに基づいてAI生成のレスポンスでクエリに回答します。検索タブで目立つ場所に配置されたAIモードは、PerplexityやOpenAIの同様のサービスと競合します。Googleは待機リストを削除し、保存された検索や、製品や場所のクリック可能なカードなどの機能を追加して、ユーザーエクスペリエンスを向上させています。

AI

感情音声データセット:7つの異なる感情

2025-05-01

このデータセットには、7つの異なる感情(ニュートラル、ハッピー、落ち着き、悲しい、怒り、恐怖、嫌悪、驚き)を表す音声サンプルが含まれています。多数の音声クリップは、感情認識モデルのトレーニングとテストに貴重なリソースを提供し、AIの感情計算分野に大きく貢献します。

Waypoint:AIによる都市計画の自動化 – 最初のエンジニア採用

2025-05-01
Waypoint:AIによる都市計画の自動化 – 最初のエンジニア採用

WaypointはAIによる自動化を通じて都市計画に革命を起こし、従来のコンサルティング会社に伴う非効率性と高コストに対処しています。彼らは、エンジニアリングシステムをゼロから構築する最初のエンジニアを探しています。プロジェクトには、歩道セグメンテーションのためのYOLOモデルの微調整、都市計画文書処理システムの開発、交差点の安全推奨事項の自動生成などがあります。理想的な候補者は、優れたプログラマーであり、学習が早く、問題解決能力があり、都市計画の改善に情熱を持っている人です。

AI

Claudeの統合と高度なリサーチ機能:強力なアップグレード

2025-05-01
Claudeの統合と高度なリサーチ機能:強力なアップグレード

Anthropicは、Claudeの大幅なアップデートを発表しました。開発者が様々なアプリやツールを接続できる統合機能が導入され、リサーチ機能も拡張されました。高度なリサーチモードでは、ウェブ、Google Workspace、そして統合されたアプリを検索し、最大45分間の調査を行い、引用付きの包括的なレポートを提供します。ウェブ検索は、現在、すべての有料Claudeユーザーでグローバルに利用可能です。これらのアップデートにより、Claudeの機能と効率性が大幅に向上し、より強力なコラボレーションツールとなっています。

AI 統合

「理解戦争」:LLM時代の規模対意味論争

2025-05-01
「理解戦争」:LLM時代の規模対意味論争

TransformerモデルがNLPベンチマークで人間の基準を超えたことで、その能力の解釈をめぐる論争が勃発し、2020年から2022年にかけて「理解戦争」と呼ばれる事態に発展しました。Benderらの「タコテスト」は、統計的に言語を模倣するモデルは意味を理解できないと主張しました。GPT-3の登場により論争は激化し、その強力な能力は研究者を驚かせると同時に、安全性や倫理的な懸念を引き起こしました。この論争は、モデルの理解能力だけでなく、学界と産業界における研究方法や方向性の相違を浮き彫りにし、最終的にNLP分野内部で「内戦」を引き起こしました。

AI

懸念される傾向:最近の卒業生が厳しい就職市場に直面

2025-05-01
懸念される傾向:最近の卒業生が厳しい就職市場に直面

アメリカ合衆国の最近の大学卒業生の就職市場は、過去数十年に比べて著しく悪化しています。失業率は懸念される5.8%に達し、一流MBA卒業生でさえ職探しに苦労しています。3つの考えられる説明として、パンデミックと大不況の長期的な影響、大学卒業資格の投資収益率の低下、そしてエントリーレベルのホワイトカラー労働者が以前行っていたタスクを自動化できるAIの破壊的可能性が挙げられます。AIの雇用への影響はまだ不明な点が多いですが、最近の卒業生の苦戦は、短期的な経済問題、高等教育の価値の変化、あるいはAIの雇用市場への長期的な影響を示唆する警告となっています。

AIにおけるデジタル化石:ナンセンスな用語が知識体系に組み込まれる仕組み

2025-05-01
AIにおけるデジタル化石:ナンセンスな用語が知識体系に組み込まれる仕組み

科学者たちは、AIモデル内で広まっている無意味な用語「栄養電子顕微鏡」を発見しました。これは、1950年代の論文のデジタル化におけるエラーに端を発し、翻訳エラーによって増幅され、大規模言語モデルに組み込まれました。これは、膨大なトレーニングデータセット、透明性の欠如、AIにおける自己増殖的なエラーという課題を浮き彫りにしています。この出来事は、学術研究と出版に深刻な問題を引き起こし、信頼できる知識体系を維持する方法について省みるきっかけとなります。

誤解された「雰囲気コーディング」:失われた機会

2025-05-01
誤解された「雰囲気コーディング」:失われた機会

2つの出版社と3人の著者が「雰囲気コーディング」(vibe coding)の意味を根本的に誤解し、AI支援プログラミングと混同していました。著者は、Andrej Karpathyの定義によれば、真の雰囲気コーディングは、コードの詳細にこだわらずにAIを使ってコードを生成することであり、非プログラマーのためのローコードアプローチだと主張しています。著者は、出版社と著者がKarpathyの定義を完全に理解せず、AIを使って従来のコーディングを学ぶことなくカスタムソフトウェアを作成することを可能にする貴重な書籍を作る大きな機会を逃したことに失望を表明しています。

AI

Hyperparam:AIデータのための不足していたUI、オープンソースで登場

2025-05-01

Hyperparamは、機械学習における大きな課題、つまり大規模なデータセットを探索するための使いやすいツールの不足に取り組んでいます。Hyparquet(ブラウザ内Parquetリーダー)、Hyparquet-Writer(Parquetエクスポーター)、HighTable(スケーラブルなReactテーブル)、Icebird(Icebergリーダー)、Hyllama(LLaMAモデルメタデータパーサー)、Hyperparam CLIを含むオープンソーススイートにより、ブラウザ上で直接インタラクティブなデータ探索とキュレーションが可能になります。効率的なデータフォーマットと高性能JavaScriptを活用することで、Hyperparamはデータサイエンティストが複雑なサーバーインフラストラクチャなしで、ローカルかつプライベートにテラバイト規模のデータを取り扱うことを可能にします。このローカルファーストのアプローチは、データのセキュリティとコンプライアンスを優先しています。

AI

AIベンチマークスキャンダル:大手テック企業がChatbot Arenaを操作したか?

2025-05-01
AIベンチマークスキャンダル:大手テック企業がChatbot Arenaを操作したか?

Cohere、スタンフォード大学、MIT、Ai2による新たな論文で、人気のAIベンチマークChatbot Arenaを運営するLM Arenaが、Meta、OpenAI、Google、Amazonなどの大手AI企業を不当に優遇したと非難されています。研究者らは、これらの企業が複数のモデルバリアントを非公開でテストし、低パフォーマンスの結果を抑制してランキングを上げることを許容されたと主張しています。280万件以上の対戦を分析した結果、これらの企業に不公平な優位性を与えたサンプリングレートの増加の証拠が見つかりました。LM Arenaは、不正確さを理由にこの調査結果を異議申し立て、サンプリングアルゴリズムの改善を計画していますが、ランキングの操作を否定しています。この論争は、AIベンチマークにおける公平性と透明性に関する懸念を引き起こし、AI競争における大手テクノロジー企業の競争戦略を浮き彫りにしています。

Macで無料でQwen3をローカル実行:Localforgeを使ったエージェントループ

2025-05-01
Macで無料でQwen3をローカル実行:Localforgeを使ったエージェントループ

この記事では、強力な大規模言語モデルQwen3をMacで無料で実行し、Localforgeを使ってエージェントに統合する方法を詳細に説明しています。著者は、MLXライブラリのインストール、モデルサーバーの設定、Localforgeの設定手順を丁寧に案内し、Qwen3を実行するためのOllamaとMLXの両方の方法を紹介しています。著者は、Qwen3エージェントを使用してファイル一覧表示などのタスクを正常に実行し、エージェントによって作成されたウェブサイトの例も示しています。この記事は、強力なLLMをローカルで無料で実行し、エージェントを構築する実現可能性を強調しています。

AI

Phi Silica:Windows 11 Copilot+ PC向けの高効率小型言語モデル

2025-05-01
Phi Silica:Windows 11 Copilot+ PC向けの高効率小型言語モデル

マイクロソフトの応用科学チームは、多角的なアプローチを用いて、Windows 11 Copilot+ PC(Snapdragon Xシリーズプロセッサ搭載)におけるAI効率のブレークスルーを達成しました。開発された小型言語モデルPhi Silicaは、電力効率、推論速度、メモリ効率を大幅に向上させます。Phi Silicaは、Copilot+ PCの様々な機能(クリックして実行、デバイス上での書き換えと要約機能(Word、Outlook)、開発者向けに事前最適化されたSLMなど)を支えています。4ビット重み量子化、メモリマップド埋め込みなどの技術により、メモリ使用量が大幅に削減され、QuaRot技術による高精度4ビット量子化推論を実現しています。短いプロンプトでの最初のトークン生成時間は230ミリ秒、スループットは最大20トークン/秒です。

AI

Microsoft、Phi-4推論:小型言語モデルが大型モデルを凌駕

2025-05-01
Microsoft、Phi-4推論:小型言語モデルが大型モデルを凌駕

Microsoftは、Phi-4推論ファミリーと呼ばれる新しい小型言語モデル(SLM)を発表しました。これには、Phi-4-reasoning、Phi-4-reasoning-plus、Phi-4-mini-reasoningが含まれます。これらのモデルは、特に数学的推論において、驚くべき推論能力を示し、一部のベンチマークではより大きなモデルを上回っています。Phi-4-mini-reasoningは、モバイルデバイスやエッジコンピューティングなど、リソースが限られた環境向けに最適化されています。Microsoftは責任あるAIへの取り組みを強調し、潜在的なリスクを軽減するために複数の安全対策を採用しています。これらのモデルは、Azure AI FoundryとHugging Faceで利用可能で、一部はWindows 11のCopilot+ PCに統合されています。

AI

DeepSeek-Prover-V2:強化学習による定理証明の革新

2025-04-30
DeepSeek-Prover-V2:強化学習による定理証明の革新

DeepSeek-Prover-V2は、Lean 4における形式的定理証明のために設計されたオープンソースの大規模言語モデルです。DeepSeek-V3による再帰的定理証明パイプラインと強化学習を活用して、非公式と公式の数学的推論を統合しています。このモデルは、DeepSeek-V3を使用して複雑な問題を部分目標に分解し、これらの部分目標の証明を合成して、強化学習の初期データを作成することから始めます。DeepSeek-Prover-V2-671Bは、MiniF2F-testで88.9%の合格率を達成し、PutnamBenchから49の問題を解決しました。また、高校の競技会や教科書から325の形式化された問題を含む新しいベンチマークデータセット、ProverBenchも導入されました。

MiMo-7B:70億パラメータの推論能力に特化したLLM、320億パラメータモデルを凌駕

2025-04-30
MiMo-7B:70億パラメータの推論能力に特化したLLM、320億パラメータモデルを凌駕

Xiaomiは、推論能力に特化した70億パラメータの巨大言語モデルMiMo-7Bを発表しました。最適化された事前学習データと戦略、そして革新的な強化学習トレーニング手法により、MiMo-7Bは数学とコードの推論タスクにおいて優れた性能を示し、320億パラメータのモデルをも凌駕しています。このオープンソースモデルには、ベースモデル、SFTモデル、強化学習でトレーニングされたモデルなどの複数のチェックポイントが含まれており、強力な推論能力を持つLLMの開発に貴重なリソースを提供します。

AI

AIモデルの爆発的進化:2024-2025年の頂点への競争

2025-04-30

2024年から2025年にかけて、AIモデル開発はかつてないほどのブームを迎えました。Stable Diffusion 3からGPT-4o、GeminiからClaude 3まで、テクノロジー大手とスタートアップ企業が次々と新しいモデルを発表し、画像生成、動画生成、テキスト生成、マルチモーダル分野で激しい競争が繰り広げられました。オープンソースモデルの台頭も、AI技術の普及と発展に新たな活力を与えました。この「モデル競争」は進化を続け、パラメーター数と能力がますます増大し、最終的にAIの未来を形作っていくでしょう。

AI

LLMのランダム性テストが予想外のバイアスを明らかに

2025-04-30

この実験では、OpenAIとAnthropicのいくつかの大規模言語モデル(LLM)のランダム性をテストしました。モデルにコインを投げさせ、0から10までのランダムな数を予測させることで、研究者たちは、それらの出力が真にランダムではなく、有意なバイアスがあることを発見しました。例えば、コイン投げの実験では、すべてのモデルが「表」を好む傾向があり、GPT-o1は49%という最も極端なバイアスを示しました。奇数/偶数の予測では、ほとんどのモデルが奇数を好み、Claude 3.7 Sonnetは47%という最も強いバイアスを示しました。この結果は、高度なLLMでさえ、トレーニングデータの分布の影響を受けて、予期せぬパターンを示す可能性があることを強調しています。

1 2 19 20 21 23 25 26 27 40 41