Anthropic、Claude Codeの「超思考」モードを発表

2025-04-20

Anthropicは、Claude Code CLIコーディングエージェントツールのベストプラクティスに関する詳細なドキュメントを公開しました。興味深いヒントとして、「think」、「think hard」などの単語を使うことで、拡張思考モードがトリガーされることが明らかになりました。「ultrathink」は31999トークンという膨大なトークン数を割り当てますが、「think」ではわずか4000トークンです。コード分析によると、これらのキーワードは、可変的なトークン数を割り当てる関数を呼び出し、Claudeの思考の深さと出力に影響を与えます。これは「ultrathink」がClaudeモデル自体の機能ではなく、Claude Code特有の機能強化であることを示唆しています。

続きを読む
AI

Gemini 2.5 Proを用いたOllamaモデルAtomフィードスクレイパーの改良

2025-03-26

この投稿では、GitHub ActionsとGitHub Pagesを利用したAtomフィードを作成し、Ollamaの最新モデルページから最新のモデルデータをスクレイピングする方法について説明しています。当初はClaudeを使用してHTMLをAtomに変換するスクリプトを作成しましたが、GoogleのGemini 2.5 Proを使用してスクリプトを改良しました。このアップグレードにより、出力は2つのフィードに分割されます。1つはすべてのモデルを含むフィード、もう1つは最新の20個のモデルのみを含むフィードです。これにより、効率性と使いやすさが向上します。

続きを読む

オープンソース大規模言語モデルOLMo-2がGPT-3.5を凌駕?Macでも簡単に実行可能!

2025-03-18
オープンソース大規模言語モデルOLMo-2がGPT-3.5を凌駕?Macでも簡単に実行可能!

320億パラメーターを持つオープンソースの大規模言語モデルOLMo-2は、GPT-3.5-TurboとGPT-4 miniを上回る性能を謳っています。データ、コード、重み、詳細情報すべてが自由に利用可能です。この記事では、llm-mlxプラグインを使ってMacで簡単にインストールし、実行する方法を説明します。17GBのモデルを数コマンドでダウンロードし、対話型チャットや画像生成(例:自転車に乗るペリカンのSVG画像)を実行できます。

続きを読む
AI

Aiderの画期的なインストール方法:仮想環境を回避

2025-03-06

Paul GauthierによるAider CLIツールは、エンドユーザーにとって仮想環境の複雑さを回避する革新的なインストール方法を提供します。`pip install aider-install && aider-install`という簡単なコマンドで、uvツールを利用してスタンドアロンのPython 3.12環境をインストールし、その中にAiderをインストールし、PATH環境変数を自動的に設定します。これにより、Python初心者にとって安全で簡単なインストール体験が提供され、複雑な設定手順が不要になります。

続きを読む
開発

LLMによるコードの幻覚:大した問題ではない

2025-03-02

LLMを使ってコードを作成する開発者からよく聞かれる不満は、「幻覚」の発生です。LLMが実際には存在しないメソッドやライブラリを作り出す現象です。しかし、著者はこれを致命的な欠陥とは考えていません。コードの幻覚は、コンパイラやインタプリタのエラーによってすぐに検出でき、修正可能です。高度なシステムでは自動修正されることもあります。本当の危険は、実行時に初めて明らかになるLLMが生成したコードのエラーであり、強力な手動テストとQAスキルが必要です。著者は、開発者に対し、コードの読解力、理解力、レビュー能力の向上を推奨し、様々なモデルを試す、コンテキストを効果的に利用する、確立された技術を選択するなど、幻覚を減らすためのヒントを紹介しています。LLMによって生成されたコードをレビューする能力は、貴重なスキルアップの機会となります。

続きを読む
開発

100MB以下のLLMがpipでインストール可能に:llm-smollm2プラグイン登場

2025-02-07
100MB以下のLLMがpipでインストール可能に:llm-smollm2プラグイン登場

新しいプラグインllm-smollm2は、量子化されたSmolLM2-135M-Instruct LLMを100MB未満に圧縮し、pipでインストールできるようにしました。この記事では、PyPIのサイズ制限(100MB)を考慮した適切なモデルの選定から、llama-cpp-pythonライブラリの冗長なログ出力の抑制、PyPIへのパッケージングまでの作成プロセスを詳細に説明しています。モデルの能力は限定的ですが、LLM技術を学ぶための貴重な学習ツールとして提示されています。

続きを読む

失われたIBM研修資料:コンピューターは責任を問われない(1979年)

2025-02-03
失われたIBM研修資料:コンピューターは責任を問われない(1979年)

1979年のIBM社内研修資料の伝説的なページがオンラインで再浮上し、「コンピューターは決して責任を問われることはできない。したがって、コンピューターは決して経営上の意思決定を行ってはならない。」と述べている。元の資料は紛失しており、洪水で破壊されたと伝えられている。この声明は、AI主導の現代において強い反響を呼び、AIの責任と意思決定について熟考を促している。

続きを読む

Anthropic求人応募:AIアシスタントの使用禁止

2025-02-03

Anthropicの求人応募フォームでは、応募プロセス中にAIアシスタントを使用することを明確に禁止しています。同社は、AIの仲介なしで、応募者のAnthropicへの真の関心とコミュニケーションスキルを評価したいと考えています。これにより、応募者の能力と思考プロセスの公平かつ信頼できる評価が保証されます。

続きを読む
スタートアップ 求人応募

OpenAIのo3-mini:コストパフォーマンスに優れた高性能LLM

2025-02-01

OpenAIは新しい言語モデルo3-miniを発表しました。Codeforcesプログラミングコンテストのベンチマークで、GPT-4oやo1を大きく上回る性能を示しました。全ての指標で優れているわけではありませんが、低価格(入力トークン100万あたり1.10ドル、出力トークン100万あたり4.40ドル)と非常に高いトークン出力制限(10万トークン)が大きな魅力です。OpenAIはこれをChatGPTのウェブ検索と要約機能に統合する計画で、LLM 0.21で既にサポートされていますが、現時点ではTier 3以上のユーザー(APIで100ドル以上利用)に限定されています。o3-miniは、開発者にとって強力で費用対効果の高いLLMオプションとなります。

続きを読む
AI

llama.cpp WASM、SIMD最適化で2倍高速化

2025-01-28

Simon Willisonのブログ記事では、llama.cppの大きな改善点が紹介されています。SIMD命令の最適化により、WASM版の速度が2倍に向上しました。驚くべきことに、コードの99%はAIアシストプログラミングツールDeepSeek R1によって生成されました。DeepSeek R1は各プロンプトについて3~5分「思考」し、最終的に開発者がllm_groq.pyプラグインを改良し、model_mapをうまく削除してコードを効率化することに貢献しました。これは、AIがコード最適化とリファクタリングにおいて計り知れない可能性を秘めていることを示しています。

続きを読む

アリババのQwen 2.5:最大100万トークンコンテキスト長のLLM

2025-01-26

アリババは、オープンソースの大規模言語モデルQwen 2.5のメジャーアップデートを発表しました。最大100万トークンのコンテキスト長を実現しました!これは「Dual Chunk Attention」と呼ばれる新しい技術によるものです。Hugging Faceで7Bパラメータと14Bパラメータの2つのモデルが公開されていますが、これらを実行するには膨大なVRAMが必要です。7Bモデルでは少なくとも120GB、14Bモデルでは少なくとも320GBが必要です。短いタスクにも使用できますが、アリババはカスタムvLLMフレームワークの使用を推奨しています。また、よりサイズが小さいGGUF量子化バージョンも登場していますが、完全なコンテキスト長での動作には互換性の問題がある可能性があります。ブロガーがOllamaを使ってMacでGGUFバージョンを実行しようとしましたが、いくつかの問題に遭遇し、今後のアップデートを約束しています。

続きを読む

AI/LLMの予測:1年後、3年後、6年後

2025-01-11

Simon Willisonは、Oxide and Friendsポッドキャストで、今後1年、3年、6年後のAI/LLM開発に関する予測を共有しました。彼は、汎用的なAIエージェントはすぐに実現しないと予想していますが、コードアシスタントやリサーチアシスタントは発展すると考えています。3年後には、AI支援による調査報道がピューリッツァー賞を受賞する可能性があり、同時により厳しいプライバシー法が制定されるでしょう。6年後には、AIが素晴らしい芸術作品を生み出す可能性がありますが、AGI/ASIの開発と経済的影響によっては、大規模な社会不安を引き起こす可能性もあります。Willisonは、これらの予測に対する確信度が低いことを強調し、将来を振り返る上で興味深いものになると述べています。

続きを読む

私のリンクブログ運営手法:7607件以上の投稿!

2025-01-06
私のリンクブログ運営手法:7607件以上の投稿!

Simon Willisonは20年以上にわたる成功したリンクブログ運営の手法を共有しています。彼はリンクのキュレーションとプレゼンテーションの方法を詳しく説明し、洞察力のあるコメントの追加、制作者への適切なクレジット付与、そしてエクスペリエンス向上のためのテクノロジー(Django、Markdown、Claude)の活用を強調しています。彼は、リンクブログは低コストで高価値な方法であり、オンラインでの議論に意味のある貢献をすることができると主張し、他の人にもこの実践を採用するよう促しています。

続きを読む

AppleのSiri和解金9500万ドル:マイク盗聴より誤情報?

2025-01-03

Appleは、Siriの録音データがターゲティング広告に使用されたという主張をめぐり、9500万ドルで訴訟を和解しましたが、不正行為を否定しています。著者は、広告ターゲティングの精度は、マイク盗聴よりもアプリからのデータ収集によるものだと主張しています。しかし、会話に関連する広告を偶然目撃したという逸話は、マイク盗聴に関する陰謀論を助長するでしょう。

続きを読む
テクノロジー ターゲティング広告

2024年の大規模言語モデル:ブレークスルーと課題

2024-12-31
2024年の大規模言語モデル:ブレークスルーと課題

2024年は、大規模言語モデル(LLM)の分野で目覚ましい進化が見られました。複数の組織がGPT-4のパフォーマンスを上回り、モデルの効率性が劇的に向上し、個人用ラップトップでもLLMを実行できるようになりました。マルチモーダルモデルが一般的になり、音声やビデオ機能も登場しました。プロンプト駆動型アプリ生成はコモディティ化されましたが、最上位モデルへの普遍的なアクセスは数ヶ月間しか続きませんでした。エージェントはまだ実現していませんが、評価の重要性は増しています。AppleのMLXライブラリは優れていましたが、Apple Intelligence機能は期待外れでした。推論スケーリングモデルが登場し、コストを削減し、環境への影響を改善しましたが、新しいインフラストラクチャによる環境問題も提起されました。合成トレーニングデータは非常に効果的でしたが、LLMの使いやすさは依然として課題であり、知識の偏在も解消されていません。より良い批判的評価が必要です。

続きを読む
AI

アリババ、新しい視覚推論モデルQvQを発表

2024-12-25
アリババ、新しい視覚推論モデルQvQを発表

アリババは最近、Apache 2.0ライセンスの下で新しい視覚推論モデルQvQ-72B-Previewを発表しました。AIの視覚推論能力を向上させることを目的として設計されたQvQは、推論スケーリングモデルQwQをベースに、画像処理を追加しています。画像とプロンプトを受け入れ、詳細で段階的な推論プロセスを生成します。ブロガーのSimon WillisonはQvQをテストし、ペリカンのカウントなどのタスクでは成功しましたが、複雑な推論問題では精度が低いことを発見しました。現在Hugging Face Spacesで利用可能であり、将来の計画にはローカル展開とより幅広いプラットフォームのサポートが含まれています。

続きを読む

LLMベンチマーク:ペリカンと自転車

2024-12-16

Simon WillisonはユニークなLLMベンチマークを作成しました。それは、自転車に乗るペリカンのSVG画像を生成することです。この珍しいプロンプトは、既存のトレーニングデータに頼らずに、モデルの創造性をテストすることを目的としています。彼はOpenAI、Anthropic、Google Gemini、Meta(Cerebrasで動作するLlama)の16個のモデルをテストし、生成されたSVGの品質に大きなばらつきがあることを明らかにしました。一部のモデルは驚くほど良い結果を出しましたが、他のモデルは苦労しました。

続きを読む

人的イベントの時間の保存:ベストプラクティスと課題

2024-12-12
人的イベントの時間の保存:ベストプラクティスと課題

この記事では、イベントウェブサイトでイベント時間を保存するためのベストプラクティスについて説明しています。著者は、UTC時間を直接保存すると、ユーザーの元の意図や場所などの重要な情報が失われると主張しています。より良いアプローチは、ユーザーの意図した時間とイベントの場所を保存し、それからUTC時間を導き出すことです。ユーザーエラー、国際的なタイムゾーン調整、2007年のMicrosoft ExchangeのDSTアップデートなどの例は、ユーザーの意図した時間を保存することの重要性を示しています。著者は、ユーザーがイベントの時間と場所を正確に設定できるように、明確で使いやすいユーザーインターフェースを設計することを推奨しており、タイムゾーンの変更によって発生するエラーを回避するために、ユーザーの元の意図を維持することの重要性を強調しています。

続きを読む
2 Next →