arXivLabs:コミュニティコラボレーターとの実験プロジェクト

2025-02-03
arXivLabs:コミュニティコラボレーターとの実験プロジェクト

arXivLabsは、共同作業者がarXivの新しい機能を直接arXivウェブサイト上で開発・共有できるフレームワークです。arXivLabsに関わる個人や組織は、オープンネス、コミュニティ、卓越性、ユーザーデータプライバシーという私たちの価値観を共有し、受け入れています。arXivはこれらの価値観にコミットしており、これらの価値観を遵守するパートナーのみと協力しています。arXivコミュニティに役立つプロジェクトのアイデアをお持ちですか?arXivLabsの詳細をご覧ください。

続きを読む
開発

arXivLabs:コミュニティとの協働による実験プロジェクト

2025-02-02
arXivLabs:コミュニティとの協働による実験プロジェクト

arXivLabsは、共同研究者がarXivの新しい機能をウェブサイト上で直接開発・共有できる実験的フレームワークです。arXivLabsと連携する個人や組織は、オープン性、コミュニティ、卓越性、ユーザーデータプライバシーという私たちの価値観を受け入れています。arXivはこれらの価値観にコミットしており、これらの価値観を遵守するパートナーのみと協力しています。arXivコミュニティに価値を追加するプロジェクトのアイデアをお持ちですか?arXivLabsの詳細をご覧ください。

続きを読む
開発

arXivLabs:コミュニティ主導の機能を試す

2025-02-01
arXivLabs:コミュニティ主導の機能を試す

arXivLabsは、共同作業者がarXivの新しい機能をウェブサイト上で直接開発・共有できるフレームワークです。参加者である個人や組織は、arXivのオープン、コミュニティ、卓越性、ユーザーデータプライバシーという価値観を共有しています。arXivはこれらの価値観にコミットしており、これらの価値観を共有するパートナーのみと協力しています。arXivコミュニティに利益をもたらすプロジェクトのアイデアがありますか?arXivLabsの詳細をご覧ください。

続きを読む
開発

arXivLabs:arXiv機能のコミュニティコラボレーション

2025-02-01
arXivLabs:arXiv機能のコミュニティコラボレーション

arXivLabsは、共同作業者がarXivの新しい機能をウェブサイト上で直接開発・共有できる実験的なフレームワークです。参加者は、arXivのオープン、コミュニティ、卓越性、ユーザーデータプライバシーという価値観を遵守する必要があります。arXivコミュニティを改善するアイデアをお持ちですか?arXivLabsの詳細をご覧ください。

続きを読む

arXivLabs:コミュニティとの協力による実験プロジェクト

2025-02-01
arXivLabs:コミュニティとの協力による実験プロジェクト

arXivLabsは、共同作業者がarXivの新しい機能を直接ウェブサイト上で開発・共有できるフレームワークです。arXivLabsに参加する個人や組織は、オープン性、コミュニティ、卓越性、ユーザーデータのプライバシーというarXivの価値観を受け入れています。arXivはこれらの価値観に尽力しており、これらの価値観を遵守するパートナーのみと協力しています。arXivコミュニティに価値をもたらすプロジェクトのアイデアをお持ちですか?arXivLabsについてもっと詳しく学びましょう。

続きを読む
テクノロジー コミュニティ協力

arXivLabs:コミュニティ主導のarXiv機能開発

2025-02-01
arXivLabs:コミュニティ主導のarXiv機能開発

arXivLabsは、共同作業者がarXivの新しい機能をウェブサイト上で直接開発・共有できるフレームワークです。参加者である個人や組織は、arXivのオープン性、コミュニティ、卓越性、ユーザーデータプライバシーという価値観を共有しています。arXivはこれらの価値観にコミットしており、これらの価値観を共有するパートナーとのみ協力しています。arXivコミュニティを強化するアイデアをお持ちですか?arXivLabsの詳細をご覧ください。

続きを読む

arXivLabs:コミュニティ参加者との実験プロジェクト

2025-01-31
arXivLabs:コミュニティ参加者との実験プロジェクト

arXivLabsは、共同作業者がarXivの新しい機能を直接ウェブサイト上で開発・共有できるフレームワークです。arXivLabsに関わる個人や組織は、オープンネス、コミュニティ、卓越性、ユーザーデータのプライバシーというarXivの価値観を受け入れています。arXivはこれらの価値観にコミットしており、これらの価値観を共有するパートナーとのみ連携します。arXivコミュニティを強化するアイデアをお持ちですか?arXivLabsの詳細をご覧ください。

続きを読む

arXivLabs:コミュニティとの共同作業による実験プロジェクト

2025-01-31
arXivLabs:コミュニティとの共同作業による実験プロジェクト

arXivLabsは、共同作業者がarXivの新しい機能を直接ウェブサイトで開発・共有できるフレームワークです。arXivLabsに関わる個人や組織は、オープンさ、コミュニティ、卓越性、ユーザーデータのプライバシーという私たちの価値観を受け入れています。arXivはこれらの価値観に尽力しており、これらの価値観を遵守するパートナーのみと協力しています。arXivコミュニティに価値をもたらすプロジェクトのアイデアをお持ちですか?arXivLabsの詳細をご覧ください。

続きを読む

arXivLabs:コミュニティと協力した実験プロジェクト

2025-01-31
arXivLabs:コミュニティと協力した実験プロジェクト

arXivLabsは、共同作業者がarXivの新しい機能をウェブサイト上で直接開発および共有できるフレームワークです。arXivLabsに関わる個人や組織は、オープン性、コミュニティ、卓越性、ユーザーデータのプライバシーというarXivの価値観を受け入れています。arXivはこれらの価値観に尽力しており、これらの価値観を遵守するパートナーのみと協力しています。arXivコミュニティに価値を追加するプロジェクトのアイデアをお持ちですか?arXivLabsの詳細をご覧ください。

続きを読む

高速量子フーリエ変換アルゴリズム

2025-01-27
高速量子フーリエ変換アルゴリズム

Ronit Shahは、量子フーリエ変換(QFT)のための改良されたアルゴリズムを発表しました。従来のアルゴリズムでは、近似QFTにΘ(n log n)個のゲート、正確なQFTにΘ(n²)個のゲートが必要でした。新しいアルゴリズムは、量子ビットの新しい再帰的分割を利用することで、近似QFTのコストをΘ(n(log log n)²)個のゲートに、正確なQFTのコストをΘ(n(log n)²)個のゲートに削減します。この画期的な進歩は、量子計算の効率を大幅に向上させる可能性があります。

続きを読む
テクノロジー 量子フーリエ変換

DeepSeek-R1:強化学習によるLLMの推論能力向上

2025-01-25
DeepSeek-R1:強化学習によるLLMの推論能力向上

DeepSeek-AIは、第一世代の推論モデルであるDeepSeek-R1-ZeroとDeepSeek-R1を発表しました。DeepSeek-R1-Zeroは、事前段階での教師あり微調整(SFT)なしで大規模強化学習(RL)によって訓練されたモデルであり、驚くべき推論能力を示しています。RLを通じて、DeepSeek-R1-Zeroは自然に多くの強力で興味深い推論行動を獲得しました。しかし、可読性の低さや言語の混在といった課題にも直面しています。これらの問題に対処し、推論性能をさらに向上させるため、RLの前に複数段階の訓練とコールドスタートデータを取り入れたDeepSeek-R1を発表しました。DeepSeek-R1は、OpenAIのモデルと同等の性能を推論タスクで達成しています。研究コミュニティを支援するため、DeepSeek-R1-Zero、DeepSeek-R1、そしてQwenとLlamaをベースに蒸留された6つの異なるサイズの密なモデル(1.5B、7B、8B、14B、32B、70B)をオープンソース化します。

続きを読む
AI

大規模言語モデルの基礎:主要概念を解き明かす新刊

2025-01-23
大規模言語モデルの基礎:主要概念を解き明かす新刊

「大規模言語モデルの基礎」という新刊が出版されました。最先端技術を網羅することを目指すのではなく、大規模言語モデルの中核となる概念を深く掘り下げています。事前学習、生成モデル、プロンプト技術、アライメント手法の4つの章で構成され、自然言語処理とその関連分野の大学生、専門家、実務者に向けた内容となっています。大規模言語モデルに関心のある全ての人にとって貴重な参考書となるでしょう。

続きを読む
AI

ベクトルIDの損失なし圧縮による近似最近傍探索の高速化

2025-01-23
ベクトルIDの損失なし圧縮による近似最近傍探索の高速化

研究者らは、近似最近傍探索におけるインデックスのストレージコストの高さを解決するため、ベクトルIDの損失なし圧縮スキームを提案しました。多くのインデックス構造においてIDの順序が重要ではないという事実と、非対称数値システムまたはウェーブレットツリーを利用することで、精度や探索時間に影響を与えることなく、ベクトルIDを最大7倍に圧縮できます。これにより、10億規模のデータセットにおいて、インデックスサイズを30%削減できます。さらに、この手法は、元の量子化アルゴリズムの最適化不足を利用することで、量子化されたベクトルコードも損失なしで圧縮できます。

続きを読む

FLAME:スプレッドシート数式の小型言語モデル

2025-01-22
FLAME:スプレッドシート数式の小型言語モデル

大規模言語モデルは、Excel数式作成支援のためのトレーニングと展開に高コストがかかります。本論文では、Excel数式のみでトレーニングされたTransformerベースのモデルであるFLAMEを紹介します。わずか6000万パラメーターと、大規模モデルのほんの一部であるトレーニングデータで、FLAMEはCodexやCodeT5などのモデルと比較して、数式の修復、補完、検索タスクにおいて競争力のある、あるいはそれ以上の性能を実現します。これは、新規の事前トレーニング目標とExcel固有のトークナイザーによるものです。

続きを読む
開発 数式

テンソル積Attention:必要なものはすべてここに

2025-01-22
テンソル積Attention:必要なものはすべてここに

より長い入力シーケンスを処理する言語モデルのスケーリングには、通常、大規模なキーバリュー(KV)キャッシュが必要となり、推論時のメモリオーバーヘッドが大幅に増加します。本論文では、テンソル分解を用いてクエリ、キー、値をコンパクトに表現することで、推論時のKVキャッシュサイズを大幅に削減する、新しいAttentionメカニズムであるテンソル積Attention(TPA)を提案します。これらの表現をコンテキスト依存の低ランク成分(コンテキストファクタリゼーション)に分解し、RoPEとシームレスに統合することで、TPAはメモリ効率を維持しながらモデルの品質を向上させます。TPAに基づいて、シーケンスモデリングのための新しいモデルアーキテクチャであるテンソル積Attention Transformer(T6)を紹介します。言語モデリングタスクに関する広範な経験的評価により、T6は、 perplexityや様々な有名な評価ベンチマークを含む様々な指標において、MHA、MQA、GQA、MLAなどの標準的なTransformerベースラインを上回ることが示されました。特に、TPAのメモリ効率により、固定リソース制約下で大幅に長いシーケンスを処理することが可能になり、最新の言語モデルにおける重要なスケーラビリティの課題に対処します。コードはこちらで公開されています。

続きを読む

ELIZA復活:世界初のチャットボットが復元

2025-01-18
ELIZA復活:世界初のチャットボットが復元

研究者たちは、世界初のタイムシェアリングシステムであるCTSS(IBM 7094のエミュレーション上で動作)上で、世界初のチャットボットとして広く知られるELIZAを復活させることに成功しました。MITのヴァイズンバウム教授のアーカイブで見つかったオリジナルのプリントアウト、MAD-SLIPコード、および関連文書を使用して、ELIZAとその有名なDOCTORスクリプトを再現しました。このプロジェクト全体はオープンソースであり、Unix系OSを使用するすべての人がこの画期的なチャットボットを実行できます。

続きを読む
AI

NYTのデイリーワードゲーム「Waffle」の数学的解明

2025-01-17
NYTのデイリーワードゲーム「Waffle」の数学的解明

arXivに掲載された論文は、ニューヨークタイムズのデイリーワードゲーム「Waffle」の背後にある数学を探っています。著者のS.P. Glasbyは、ゲームの組み合わせ特性を深く掘り下げ、なぜ一部のパズルが簡単で、他のパズルが非常に難しいのかを説明しています。研究によると、完全な解決策には21個のマス目の中で正確に11個の軌道が必要であり、少なくとも1つの軌道は長さ1であることが明らかになっています。これは、同様の単語パズルを理解し、改善するための数学的枠組みを提供します。

続きを読む
ゲーム

Titans:テスト時に記憶する学習のための新しいニューラルアーキテクチャ

2025-01-16
Titans:テスト時に記憶する学習のための新しいニューラルアーキテクチャ

研究者たちは、ニューラルメモリモジュールとアテンションメカニズムを組み合わせることで、長期的な過去のコンテキストを効果的に記憶する新しいニューラルアーキテクチャ「Titans」を発表しました。従来のリカレントモデルやアテンションメカニズムとは異なり、Titansは特に「干し草の山から針を見つける」ようなタスクにおいて、長いシーケンスデータを処理する際の効率性と精度が優れています。言語モデリング、常識推論、ゲノミクス、時系列など、さまざまなタスクにおいて、Transformerや最近の線形リカレントモデルを上回り、200万を超えるコンテキストウィンドウサイズにも対応できます。

続きを読む

LLMにおけるシステム2推論に向けて:メタ思考連鎖による思考学習

2025-01-10
LLMにおけるシステム2推論に向けて:メタ思考連鎖による思考学習

研究者らは、従来の思考連鎖(CoT)を拡張し、特定のCoTに至るための基礎となる推論を明示的にモデル化する新しいフレームワーク「メタ思考連鎖(Meta-CoT)」を提案しています。Meta-CoTは、プロセス監視、合成データ生成、探索アルゴリズムを活用しています。本論文では、線形化された探索トレースと強化学習を用いた指示チューニングを取り入れたモデルの訓練パイプラインの概要を示しています。この研究は、LLMにおけるMeta-CoTを可能にするためのロードマップを提供し、AIにおけるより強力で人間らしい推論への道を切り開きます。

続きを読む

CAP定理への挑戦:非同期環境下での部分的進歩の予想

2025-01-08
CAP定理への挑戦:非同期環境下での部分的進歩の予想

新たな論文が有名なCAP定理に挑戦しています。著者らは、ネットワークパーティション下では部分的な進歩が可能であると予想しています。つまり、システムは一部のクライアントに対して応答性を維持し、障害時にもゼロ以外のスループットを実現できます。彼らは、パーティション化されたレプリカがクライアントのリクエストを順序付けることを可能にするCASSANDRAコンセンサスプロトコルの設計を示しています。これは、パーティション時でも、ある程度の一貫性と可用性を両立できるシステムへの道筋を提供する可能性があります。この研究は、より堅牢な分散システムを構築するための新しいアプローチを提供します。

続きを読む

時系列異常検知の10年間のレビュー

2025-01-06
時系列異常検知の10年間のレビュー

データ収集技術の進歩とストリーミングデータの急増により、時系列分析が不可欠となっています。本論文は、時系列異常検知に関する10年間のレビューを提供し、従来の統計的手法から近年急増している機械学習アルゴリズムまで、さまざまな手法を網羅しています。既存のソリューションをプロセス中心の分類体系で分類・要約し、文献のメタ分析を行い、この分野の一般的な傾向を概説しています。この包括的な調査は、研究者にとって貴重なリソースとなります。

続きを読む

科学者が完璧なカチョエペペの秘密を解き明かす

2025-01-04
科学者が完璧なカチョエペペの秘密を解き明かす

科学者チームが、イタリア料理の定番であるカチョエペペの完璧なクリーミーな食感を生み出す秘密を解き明かすため、料理の科学に深く踏み込みました。研究の結果、ソースの安定性を左右する重要な要素はデンプンの濃度であることがわかりました。チーズの質量に対してデンプンの濃度が1%を下回ると、塊が形成され、「モッツァレラフェーズ」と呼ばれる現象が起こり、分離して不快なソースになります。この研究では、一定のデンプン量におけるチーズと水の比率の影響についても調査し、より低い臨界溶解温度を観測し、それを説明するための最小限の効果的な自由エネルギーモデルを開発しました。最終的に、彼らは常に完璧なカチョエペペを保証する、科学的に最適化されたレシピを発表しました。

続きを読む

OpenAIのo1を再現する:強化学習の観点からのロードマップ

2025-01-03
OpenAIのo1を再現する:強化学習の観点からのロードマップ

新たな論文が、強化学習の観点から、謎めいたOpenAIのモデルo1を再現する道筋を探っています。研究者らは、o1の強力な推論能力は単一の技術ではなく、ポリシーの初期化、報酬設計、探索、学習という4つの主要なコンポーネントの相乗効果によるものであると主張しています。ポリシーの初期化は、モデルに人間のような推論能力を与えます。報酬設計は、探索と学習を導く、緻密で効果的なシグナルを提供します。探索は、トレーニングとテストの両方で高品質なソリューションを生成します。学習は、探索によって生成されたデータを使用してポリシーを改善し、最終的により良いパフォーマンスを実現します。この論文は、o1の理解と再現に貴重な洞察を提供し、LLM開発のための新たな道を切り開きます。

続きを読む

GitHubに450万個の偽のスター:人気コンテストの影の部分

2025-01-02
GitHubに450万個の偽のスター:人気コンテストの影の部分

新たな研究によると、GitHub上に450万個もの偽のスター(いいね)が存在することが明らかになりました。これらは主に、海賊版ソフトウェア、ゲームチート、または暗号通貨ボットに偽装した短命のマルウェアリポジトリのプロモーションに使用されています。研究者たちは、異常なスター付け行動を検出するためのツールStarScoutを開発しました。この研究は、2024年以降、偽のスター活動が急増していることを示しています。偽のスターを付けたユーザーのプロファイル特性は平均的なユーザーと大きく変わりませんが、活動パターンは非常に異常です。短期的にはプロモーション効果がありますが、長期的には負担となります。この研究は、プラットフォーム管理者、オープンソースの開発者、サプライチェーンセキュリティ研究者にとって重要な意味を持ちます。

続きを読む
テクノロジー

TinyStories:小さな言語モデルでも、筋の通った英語の物語を語れるか?

2025-01-02
TinyStories:小さな言語モデルでも、筋の通った英語の物語を語れるか?

研究者たちは、TinyStoriesという、GPT-3.5とGPT-4によって生成された、典型的な3~4歳児が理解できる語彙のみを使用した短い物語の合成データセットを発表しました。彼らは、TinyStoriesで訓練された言語モデル、たとえ1000万パラメータ未満でシンプルなアーキテクチャ(単一のトランスフォーマーブロック)であっても、驚くほど良い文法と推論能力を示す、流暢で首尾一貫した複数段落の物語を生成できることを示しました。これは、首尾一貫したテキスト生成には大規模なモデルと複雑なアーキテクチャが必要であるという考え方に異議を唱えるものであり、GPT-4を使用して生成された物語を人間の教師のように採点する新しい評価パラダイムを導入し、標準的なベンチマークの限界を克服しています。

続きを読む

活性化エンジニアリング:LLMにおけるパーソナリティ特性の特定と操作

2024-12-31
活性化エンジニアリング:LLMにおけるパーソナリティ特性の特定と操作

arXivに掲載された論文では、活性化エンジニアリングを用いて、大規模言語モデル(LLM)のパーソナリティ特性を特定し操作する新しい手法が探求されています。LLMの拒否や制御に関する以前の研究に触発された研究者らは、パーソナリティ特性に関連付けられた活性化方向を調整することで、LLMのパーソナリティを動的に微調整する技術を提案しています。この研究は、LLMの解釈可能性に対する理解を深める一方で、重要な倫理的な考慮事項も提起しています。

続きを読む

並列最適化における勾配平均化を超えて:勾配合意フィルタリングによる堅牢性の向上

2024-12-30
並列最適化における勾配平均化を超えて:勾配合意フィルタリングによる堅牢性の向上

本論文では、分散型深層学習最適化における勾配平均化を改善するための新しい手法である勾配合意フィルタリング(GAF)を紹介します。従来の手法では、ミニバッチ勾配の平均化によってマクロバッチ勾配を計算しますが、これはトレーニングの後半段階で勾配が直交したり負の相関を持つことになり、過学習につながります。GAFは、ミニ勾配間の余弦距離を計算し、平均化前に矛盾する更新をフィルタリングすることで、勾配の分散を削減します。CIFAR-100やCIFAR-100N-Fineなどの画像分類ベンチマークにおける実験により、GAFは、より小さいミニバッチサイズであっても検証精度を大幅に向上させ、従来の手法と比較して最大18.2%の向上を達成し、計算コストを削減することが示されました。

続きを読む

LLMのコード生成能力評価:MultiCodeBenchの登場

2024-12-30
LLMのコード生成能力評価:MultiCodeBenchの登場

コードを扱う大規模言語モデル(LLM)を搭載したAIによるプログラミングアシスタントが普及し、開発者の生産性が大幅に向上しています。しかし、既存のコード生成ベンチマークは主に汎用的なシナリオに焦点を当てており、特定のアプリケーションドメインにおけるLLMのパフォーマンスはほとんど知られていません。本論文では、12の人気のあるソフトウェア開発ドメインと15のプログラミング言語を網羅する2400個のプログラミングタスクを含む新しいベンチマーク、MultiCodeBenchを紹介します。11個の代表的な主流LLMを用いた実験により、様々なドメインにおけるLLMのコード生成能力が明らかになり、開発者にとってLLMを選択する際の実際的な洞察と、モデル開発者がドメイン固有のコード生成能力を向上させるための指針が得られます。

続きを読む
開発

ユニットテスト生成における大規模言語モデルの評価に関する画期的な研究

2024-12-30
ユニットテスト生成における大規模言語モデルの評価に関する画期的な研究

研究者らは、ユニットテストの自動生成における大規模言語モデル(LLM)の可能性について包括的な評価を行いました。17個のJavaプロジェクトにおいて、5つのオープンソースLLMと、クローズドソースのGPT-4、従来型のツールであるEvosuiteを比較し、様々なプロンプト戦略の影響を調査しました。その結果、オープンソースLLMはデータプライバシーにおいて優位性があり、特定のタスクでは優れた性能を示す一方で、LLMベースのユニットテスト生成における限界も明らかになりました。この研究は、この分野におけるLLMの将来的な応用を導くための貴重な知見を提供します。

続きを読む

LLMにおけるアイデンティティ混乱:信頼の危機が顕在化

2024-12-30
LLMにおけるアイデンティティ混乱:信頼の危機が顕在化

最近の研究では、大規模言語モデル(LLM)における広範な「アイデンティティ混乱」が明らかになりました。研究者らは、25%以上のLLMがその起源やアイデンティティを誤って表現しており、それが主にモデルの幻覚によるものであり、複製や再利用によるものではないことを発見しました。このアイデンティティ混乱は、特に教育や専門分野など重要なタスクにおいて、ユーザーの信頼を著しく損ない、論理的なエラーによる悪影響を上回ります。この研究結果は、LLMのアイデンティティ混乱がもたらす体系的なリスクを強調し、モデルの信頼性と信頼worthinessへのさらなる注意を促しています。

続きを読む
1 2 3 4 5 6 7 9