Webtagr - テクノロジーニュースダイジェスト

Deep Code Bench：コード検索のための新しいベンチマークデータセット

2025-09-11

Qodoは、大規模で複雑なコードリポジトリから導出された現実世界の質問からなる新しいベンチマークデータセット、Deep Code Benchをリリースしました。既存のベンチマークとは異なり、これらの質問は複数のファイルにまたがる検索を必要とし、現実世界の開発者のシナリオを反映しています。プルリクエストデータからLLMを使用して生成されたこのデータセットは、コード検索システムの堅牢な評価を提供します。Qodoのディープリサーチエージェントは、事実の再現率で他を凌駕し、約76％の精度を達成しています。

(www.qodo.ai)

開発ベンチマークデータセット

Qodo Command、SWE-bench Verifiedで驚異の71.2％を達成

2025-08-12

コマンドラインAIコーディングエージェントであるQodo Commandが、実世界のソフトウェアエンジニアリングタスクにおけるAIエージェントを評価する主要なベンチマークであるSWE-bench Verifiedで、驚異の71.2％というスコアを達成しました。このスコアは、ファインチューニングやベンチマーク固有の調整を行わず、Qodo Commandのプロダクションバージョンを使用して達成されました。その成功は、コンテキスト要約、実行計画、リトライとフォールバックメカニズム、そしてLangGraphフレームワークなどの機能によるものです。複数のLLMをサポートするように設計されており、Qodo Commandは現在、AnthropicのClaude 4と提携して、適応性が高く学習指向のコーディングエージェントを作成しています。

(www.qodo.ai)

開発

QodoのコードレビューベンチマークでGPT-5が優秀な成績

2025-08-08

Qodo社は、実世界のコードレビューワークフローをシミュレートした独自のPRベンチマークを使用して、GPT-5を含む最先端の言語モデルを評価しました。結果は、GPT-5がコード差分の理解、バグの特定、改善提案において優れた性能を示したことを明らかにしました。「最小限」バージョンは、速度と品質のバランスを印象的にとっていました。GPT-5には誤検知やラベル付けの不一致など、いくつかの弱点もありましたが、コードレビュー全体のパフォーマンスは目覚ましく、AI支援コードレビューにおける大きな進歩を示しています。

(www.qodo.ai)

開発

Qodo Gen CLI：AIエージェントによるSDLC自動化

2025-06-25

Qodo Gen CLIは、AIエージェントの構築、管理、実行のための強力なコマンドラインインターフェースです。開発者はカスタムエージェントを作成し、ソフトウェア開発ライフサイクル（SDLC）全体のワークフローを自動化し、AI機能をあらゆるIDEに統合できます。主要なLLMと柔軟なデプロイオプションをサポートするQodo Gen CLIは、ターミナルとブラウザの両方のインターフェースを提供します。コードレビュー、ドキュメント生成、テストカバレッジなどのタスクを自動化し、効率性を向上させ、開発者が機能構築に集中できるようにします。

(www.qodo.ai)

開発 SDLC自動化

AIコード生成：正確性と信頼性が鍵

2025-06-12

AI生成コードの出荷において、低幻覚と高信頼感を両方経験したと報告した開発者はわずか3.8%です。彼らは、本番環境でAIの恩恵を真に受けているチームです。彼らは提案を信頼し、より迅速に出荷し、高品質なフィードバックでループを閉じます。この低幻覚グループの中で、自信を持っている開発者（17%）は、コード品質の向上を見る可能性が1.3倍高く（44%対35%）、AIコードの出荷に対する自信が2.5倍高い（24%対9%）と報告しています。これは「スイートスポット」であり、その中で半数以上（53%）がコード品質の明確な改善を報告しています。これは、正確性、品質、信頼性の間に強い関連性があることを示唆しています。開発者がより少ないエラーとより高品質な出力を確認すると、AIを信頼して本番環境で使用する可能性がはるかに高くなります。また、低幻覚は、AIがコード品質を向上させたと言う開発者の可能性を1.3倍高めます（全体で44%対35%）。それでも、正確な出力を得ている開発者の多くは、依然として躊躇しています。自動化された品質チェックはこのギャップを埋めることができます。

(www.qodo.ai)

開発開発者の信頼

ユニットテストによるJava論理エラーのデバッグ

2025-05-07

Java開発における論理エラーは、従来の方法ではデバッグが非常に困難です。この記事では、ユニットテストを利用したテスト駆動型デバッグ手法を紹介しています。仮説テスト、状態遷移テスト、回帰テストなど、さまざまなテスト技法を詳細に説明し、テスト結果を活用してコードの動作を理解し、最終的にロジックを改善する方法を解説しています。さらに、AI支援によるユニットテストツールについても言及しており、潜在的な論理的な脆弱性をより効果的に発見するのに役立ちます。

(www.qodo.ai)

開発論理エラー

LangGraph：柔軟でベストプラクティスに則ったAIコーディングアシスタントの構築

2025-03-24

Qodo社はLangGraphフレームワークを使用して、柔軟性とコーディングベストプラクティスの遵守のバランスを取ったAIコーディングアシスタントを構築しました。当初、コーディングタスクには事前に定義されたワークフローを使用していましたが、Claude Sonnet 3.5などのより強力なLLMが登場したことで、LangGraphのグラフベースのアプローチに移行しました。LangGraphは、完全にオープンエンドなものから完全に構造化された決定的なフローまで、あらゆる範囲のAgentを構築することを可能にし、QodoはLLMの能力に基づいてフローの構造化の程度を調整できます。フレームワークのクリーンなAPI、再利用可能なコンポーネント、組み込みの状態管理により、開発が簡素化され、永続性、チェックポイント、分岐点がサポートされます。ドキュメントとテストにはいくつかの課題がありますが、LangGraphはQodoが堅牢なAIコーディングアシスタントを構築するための堅実な基盤を提供しました。

(www.qodo.ai)

開発

Qodo Gen 1.0：LangGraphとMCPによるエージェント型AIコーディング

2025-03-18

Qodo Gen 1.0は、AIコーディングとテストのためのIDEプラグインに、エージェント型ワークフローを導入し、AIが複雑なコーディングタスクを動的に処理できるようにしました。これは、構造化されたワークフローのためのLangGraphと、標準化された外部ツール統合のためのAnthropicのModel Context Protocol（MCP）を使用してインフラストラクチャを再構築することで実現されました。このアーキテクチャは、非同期通信、オンデマンドコンテキスト取得、拡張されたエラー処理と信頼性をサポートしており、AIは自律的に動作し、リアルタイムデータを取得し、ツール実行の結果に基づいて戦略を調整できます。LangGraphは柔軟性と制御を提供し、MCPは外部ツールの統合を簡素化します。その結果、よりインテリジェントな自動化、拡張可能なシステム、そしてAI自律性への構造化されたアプローチが実現しました。

(www.qodo.ai)

開発

Qodo-Embed-1：効率的でコンパクトなコード埋め込みモデルファミリー

2025-03-03

Qodoは、既存のモデルよりもはるかに小さなフットプリントで最先端の性能を達成する、新しいコード埋め込みモデルファミリーであるQodo-Embed-1を発表しました。15億パラメータのモデルは、CoIRベンチマークで68.53点を獲得し、70億パラメータのより大きなモデルを上回りました。コードスニペットの正確な検索における既存モデルの限界を克服するために、合成データ生成を使用してトレーニングされたQodo-Embed-1は、コード検索の精度と効率を大幅に向上させます。15億パラメータのモデルはオープンソースで、70億パラメータのモデルは商用で提供されています。

(www.qodo.ai)

AI コード埋め込みモデル

RAGシステムのための堅牢な評価フレームワークの構築

2025-02-14

Qodo社は、検索拡張生成（RAG）に基づくAIコーディングアシスタントを構築し、その精度と包括性を確保するための堅牢な評価フレームワークを開発しました。課題には、大規模なプライベートデータセットから導き出されたRAG出力の正確性を検証することが含まれていました。このフレームワークは、最終的に取得されたドキュメントと最終的に生成された出力を評価し、「回答の正確性」と「検索の精度」に焦点を当てています。自然言語出力の課題に対処するために、「LLMを審査官として」というアプローチを採用し、現実的な質問、回答、コンテキストを含むground truthデータセットを作成しました。効率性を高めるために、LLMをデータセット構築に活用し、LLMとRAGASを使用して回答の正確性を評価しました。最終的に、独自のLLM審査官を構築し、RAGASと組み合わせることで信頼性を向上させ、回帰テストを伴うワークフローに統合し、コード変更が品質に及ぼす影響を検証する労力を大幅に削減しました。

(www.qodo.ai)

開発

Qodo Merge 1.0：進化するAIコードレビュー

2025-02-02

Qodo Merge 1.0は、AI駆動型コードレビューツールとして、1年以上かけてAI支援コーディング特有の課題に対処しました。新バージョンでは、バグやセキュリティホールなどの重要な問題を優先する問題重視モード、承認された変更に基づいて提案を洗練する動的学習、リアルタイムのチケットコンテキスト統合、そしてフィードバックを実際に行動可能なコード変更に変換する`/implement`コマンドが搭載されています。Qodo Merge 1.0により、コードレビューはより正確で、適応性が高く、効率的になります。

(www.qodo.ai)

開発 AIコードレビュー

効果的なAIコード提案：少ないほど良い

2025-01-29

Qodo（旧Codium）は、AI搭載プルリクエスト分析・フィードバックツールであるQodo Mergeで、LLMによるコードレビューにおける重要な教訓を発見しました。当初、スタイル提案よりもバグ検出を優先するアプローチは効果がなく、モデルはより簡単に発見できるスタイルの問題に圧倒され、開発者間で提案疲れを引き起こしました。画期的な進歩は、モデルのタスクを簡素化すること、つまり意味のあるバグと問題のみに焦点を当てることでした。この集中アプローチにより、バグ検出率と信号対雑音比が向上し、提案の承認率は50％増加し、全体的な影響は11％増加しました。重要な教訓：複雑な優先順位付けよりも、気を散らすものを排除する方が効果的である場合が多いということです。

(www.qodo.ai)

開発

オープンソースLLM DeepSeek-R1がQodo Genに統合

2025-01-27

Qodo（旧Codium）は、OpenAIのo1に匹敵する強力なオープンソースの大規模言語モデルDeepSeek-R1を、AI搭載コーディングアシスタントQodo Genに統合したことを発表しました。DeepSeek-R1は、強力な推論能力とコスト効率の良さで知られており、複雑なコーディング課題に対処し、多くのプロプライエタリモデルよりも高速かつ低コストで応答を生成します。Qodo Genは、複数のトップレベルのLLMをサポートし、開発者に安全で信頼性の高いAI支援コーディングエクスペリエンスを提供します。

(www.qodo.ai)

開発

VS CodeのPythonデバッガー：print文を超えて

2025-01-10

Pythonコードにprint文を散りばめてデバッグすることにうんざりしていませんか？Visual Studio Codeの強力なデバッグ機能があなたのワークフローを一変させます。このチュートリアルでは、VS CodeのPythonデバッガーの設定、ブレークポイントの管理、変数の検査、そして例外処理、リモートデバッグ、パフォーマンス分析などの高度なテクニックについて解説します。print文による非効率なデバッグ時代を過去のものとし、Pythonコードを効率的にデバッグする方法を学び、開発効率を向上させましょう。

(www.qodo.ai)

開発 Pythonデバッグ