Gemini 2.5 Flash Image:GoogleのAI画像生成におけるブレークスルー

2025-08-26
Gemini 2.5 Flash Image:GoogleのAI画像生成におけるブレークスルー

Googleは、最先端の画像生成と編集モデルであるGemini 2.5 Flash Imageを発表しました。複数の画像をブレンドしたり、豊かなストーリーテリングのためにキャラクターの一貫性を維持したり、自然言語を使用して正確な変換を行ったり、Geminiの世界知識を利用して画像を生成および編集したりできます。価格は100万出力トークンあたり30ドル(画像あたり約0.039ドル)で、開発者はGemini APIとGoogle AI Studio、企業はVertex AIを介してアクセスできます。Google AI Studioの「ビルドモード」も大幅に更新され、アプリの作成が簡素化されました。主な機能には、キャラクターの一貫性、プロンプトベースの画像編集、ネイティブな世界知識などがあり、画像生成と操作に新たな可能性が開かれます。

続きを読む
AI

Gemma 3 270M:コンパクトでパワフルなAIモデル、カスタムアプリケーション向け

2025-08-14
Gemma 3 270M:コンパクトでパワフルなAIモデル、カスタムアプリケーション向け

Gemmaファミリーに新たなメンバーが加わりました:Gemma 3 270M。これは、特定のタスクに特化したファインチューニングを目的とした、2億7000万パラメーターのコンパクトなAIモデルです。Gemma 3シリーズの高度なアーキテクチャを受け継ぎ、強力な指示追従とテキスト構造化機能を備えながら、消費電力は驚くほど低く、Pixel 9 Pro SoCでは25回の会話でわずか0.75%のバッテリー消費量です。IFEvalベンチマークではその優れた指示追従能力が際立ち、デバイス上および研究用途への高度なAI機能のアクセスを容易にします。Gemma 3 270Mは、大量の、明確に定義されたタスク(感情分析、エンティティ抽出など)に優れており、迅速な反復と展開を必要とするシナリオに最適です。開発者はそのコンパクトさを活かして迅速なファインチューニング実験を行い、複数の専門的なモデルを作成して、効率的で費用対効果の高い生産システムを構築できます。

続きを読む
AI

Gemini Embedding:次世代AIエージェントへのパワー

2025-08-01
Gemini Embedding:次世代AIエージェントへのパワー

GoogleのGemini Embeddingテキストモデルはリリース以来、高度なAIアプリケーションを構築する開発者によって急速に採用されています。分類や意味検索などの従来の用途に加え、「コンテキストエンジニアリング」においても重要であり、AIエージェントに完全な運用コンテキストを提供します。Box、re:cap、Everlaw、Roo Code、Mindlid、Interaction Co.などの企業はすでにそのパワーを活用して、製品の精度、速度、コンテキスト認識を向上させています。金融データ分析の向上から法的調査の強化、AIアシスタントの強化まで、Gemini Embeddingの高性能と多言語サポートは、次世代のインテリジェントエージェントの基礎を築いています。

続きを読む
AI

Google URL Shortenerの終了が発表されました

2025-07-25
Google URL Shortenerの終了が発表されました

Googleは、2025年8月25日にURL短縮サービスgoo.glを終了します。2024年8月23日より、一部のgoo.glリンクは、終了が迫っていることを警告する通知ページを表示します。開発者は、他のURL短縮サービスへの移行を強く推奨されています。Googleアプリを通じて生成されたgoo.glリンクは引き続き機能します。

続きを読む

Gemini APIにバッチモードが登場:高スループットワークロードに対応

2025-07-11
Gemini APIにバッチモードが登場:高スループットワークロードに対応

GoogleのGemini APIにバッチモードが追加されました。これは、レイテンシがクリティカルでない高スループットタスクに最適な非同期エンドポイントです。大量のジョブを提出して処理をシステムに任せ、同期APIと比べて50%割引で24時間以内に結果を取得できます。事前に準備されたデータで即時レスポンスが不要なタスクに最適で、コスト削減、スループットの向上、API呼び出しの簡素化を実現します。Reforged Labsはこれを使用して大量の動画広告を処理し、効率の大幅な向上とコスト削減を実現しています。Google GenAI Python SDKを使用すれば簡単に始めることができます。

続きを読む

Google DeepMind、GenAI Processorsをオープンソース化:LLMアプリケーション開発の簡素化

2025-07-11
Google DeepMind、GenAI Processorsをオープンソース化:LLMアプリケーション開発の簡素化

Google DeepMindは、複雑な大規模言語モデル(LLM)アプリケーションの開発を簡素化するために設計された、オープンソースのPythonライブラリであるGenAI Processorsをリリースしました。このライブラリは、Processorインターフェースを使用してさまざまなデータ処理手順を抽象化し、非同期ストリーム処理を使用してマルチモーダル入力を処理することで、同時実行を可能にし、応答性と効率性を向上させます。GenAI ProcessorsはGemini APIと統合されており、ライブトランスクリプションや会話型エージェントなどのリアルタイムアプリケーションを構築するための例を提供しています。

続きを読む
開発

Gemma 3n:強力なモバイルファーストAIモデルがリリース

2025-06-27
Gemma 3n:強力なモバイルファーストAIモデルがリリース

革新的なMatFormerアーキテクチャをベースとした、強力なモバイルファースト多様なAIモデルGemma 3nが正式リリースされました!画像、音声、ビデオ、テキスト入力をサポートし、非常に少ないメモリフットプリントで動作します(E2Bはわずか2GB、E4Bは3GB)。Gemma 3nは、テキスト処理で140言語、多様な理解で35言語をサポートし、LMArenaスコアで1300を超える成果を達成しました。効率的なアーキテクチャとPer-Layer Embeddingsテクノロジーにより、様々なタスクで優れたパフォーマンスを発揮し、開発者にとって前例のない利便性を提供します。モバイルAIの新時代を切り開きます。

続きを読む
AI

Google AI Studio:Gemini 2.5 ProによるAIアプリ開発の強化

2025-05-21
Google AI Studio:Gemini 2.5 ProによるAIアプリ開発の強化

Google AI Studioが大幅にアップデートされ、Gemini 2.5 Proモデルが統合され、コード生成能力が大幅に向上しました。開発者は、シンプルなテキスト、画像、またはビデオプロンプトを使用して、AI駆動型のWebアプリを迅速に構築およびデプロイできます。新バージョンでは、Imagen、Lyria RealTime、Veoなどのマルチモーダルモデルも統合され、Cloud Runへのワンクリックデプロイ、コードバージョンの比較とロールバック機能も提供されます。さらに、ネイティブオーディオサポートとURLコンテキストツールが追加され、アプリのインタラクティブ性と情報取得能力が向上しました。

続きを読む
開発

Google、Gemma 3nを発表:軽量でマルチモーダルなモバイル向けAIモデル

2025-05-20
Google、Gemma 3nを発表:軽量でマルチモーダルなモバイル向けAIモデル

Googleは、画期的なアーキテクチャ上に構築された新しいオープンモデル、Gemma 3nを発表しました。これは、強力なAI機能をモバイルデバイスにもたらすことを目的としています。Gemma 3nは、メモリ使用量の削減と高速な応答時間を特徴とし、マルチモーダルな理解(テキスト、画像、音声)と強力な多言語機能をサポートしています。開発者は、Google AI StudioとGoogle AI Edgeを通じてプレビューにアクセスし、リアルタイム音声書き起こし、翻訳、画像理解など、Gemma 3nの機能を活用したアプリケーションの構築を開始できます。このモデルはプライバシーを重視し、オフラインでも動作します。

続きを読む

Gemini 2.5 Proプレビュー版(I/Oエディション)早期リリース:強化されたコーディング機能

2025-05-06
Gemini 2.5 Proプレビュー版(I/Oエディション)早期リリース:強化されたコーディング機能

Googleは、Gemini 2.5 Pro(I/Oエディション)の早期プレビュー版をリリースしました。フロントエンドおよびUI開発におけるコーディング機能が大幅に強化されています。WebDev Arenaのランキングで1位を獲得し、美しく機能的なウェブアプリを生成できます。主な改善点としては、ビデオからコードへの機能、より容易な機能開発、概念から動作するアプリへのより迅速なワークフローなどが挙げられます。開発者は、Google AI StudioのGemini APIまたはエンタープライズユーザー向けのVertex AIからアクセスできます。このアップデートでは、以前のバグの修正と関数呼び出しの信頼性の向上も行われています。

続きを読む
AI

Gemma 3:最先端AIをあなたのデスクトップへ

2025-04-20
Gemma 3:最先端AIをあなたのデスクトップへ

最先端のオープンソースAIモデルであるGemma 3は、当初はハイエンドGPUが必要でした。アクセシビリティを向上させるため、量子化認識トレーニング(QAT)で最適化された新しいバージョンがリリースされました。QATにより、メモリ要件が大幅に削減され、高品質が維持されます。これにより、NVIDIA RTX 3090などのコンシューマー向けGPUで、Gemma 3 27Bなどの強力なモデルを実行できます。これらの最適化されたモデルは、Hugging FaceとKaggleで入手でき、さまざまなワークフローへの容易な統合を可能にします。

続きを読む

Google、制御可能な推論機能を持つ新しいAIモデル Gemini 2.5 Flashを発表

2025-04-17
Google、制御可能な推論機能を持つ新しいAIモデル Gemini 2.5 Flashを発表

Googleは、制御可能な推論機能を備えた新しい大規模言語モデル、Gemini 2.5 Flashを発表しました。人気の2.0 Flashをベースに、推論能力を大幅に向上させながら、速度とコスト効率を優先しています。開発者は「思考予算」を設定することで、品質、コスト、レイテンシのバランスを取ることができます。このモデルは、プロンプトの複雑さに基づいて思考プロセスを自動的に調整し、思考なしから集中的な推論まで、さまざまなモードを提供します。Gemini 2.5 FlashはLMArenaのHard Promptsで優れた成績を収め、価格性能比に優れ、最も費用対効果の高い思考モデルの1つとなっています。

続きを読む

Agent2Agent (A2A): AIエージェントの相互運用性の新時代

2025-04-09
Agent2Agent (A2A): AIエージェントの相互運用性の新時代

Googleは、異なるベンダーによって構築された、または異なるフレームワークを使用するAIエージェント間のシームレスな協調を可能にするオープンなプロトコルAgent2Agent(A2A)をリリースしました。50社以上のテクノロジーパートナーとサービスプロバイダーの支援を受けて、A2Aは安全な情報交換と調整されたアクションを可能にし、生産性を向上させ、コストを削減します。既存の標準に基づいて構築されたA2Aは、複数のモダリティをサポートし、セキュリティを優先し、長時間実行されるタスクを処理します。ユースケースは、採用プロセス(候補者の選別や面接のスケジュール設定など)の自動化から、さまざまなエンタープライズアプリケーション全体での複雑なワークフローの合理化まで多岐にわたります。オープンソースであることから、協力的なAIエージェントの繁栄するエコシステムを促進します。

続きを読む

Gemini 2.0 Flash:Googleのネイティブ画像生成モデルが開発者向け実験段階に

2025-03-12
Gemini 2.0 Flash:Googleのネイティブ画像生成モデルが開発者向け実験段階に

Googleは、高度な推論と自然言語理解を備えたマルチモーダルAIモデル、Gemini 2.0 Flashをリリースしました。テキストから画像を生成し、イラスト付きのストーリーを作成、会話形式による画像編集を可能にし、長いテキストシーケンスもきれいにレンダリングします。Google AI StudioとGemini APIを通じて利用可能で、AIエージェントや視覚的に豊かなアプリケーション開発にエキサイティングな可能性を提供します。

続きを読む
AI