Anthropic Revela o Modo 'UltraPensamento' do Claude Code

2025-04-20

A Anthropic lançou uma extensa documentação sobre as melhores práticas para sua ferramenta de agente de codificação Claude Code CLI. Uma dica fascinante revela que o uso de palavras como "think", "think hard", etc., aciona modos de pensamento estendidos. Essas frases se correlacionam diretamente a diferentes orçamentos de pensamento; "ultrathink" aloca 31999 tokens, enquanto "think" usa apenas 4000. A análise de código mostra que essas palavras-chave acionam funções que atribuem contagens de tokens variadas, afetando a profundidade de pensamento e a saída do Claude. Isso sugere que "ultrathink" não é um recurso do modelo Claude em si, mas sim um aprimoramento específico do Claude Code.

Leia mais
IA

Raspador de Feed Atom de Modelos Ollama Aprimorado com Gemini 2.5 Pro

2025-03-26

Este post descreve a criação de um feed Atom alimentado pelo GitHub Actions e GitHub Pages, raspando dados de modelos recentes da página de modelos mais recentes do Ollama. Inicialmente construído usando o Claude para converter HTML em Atom, o script foi refinado usando o Google Gemini 2.5 Pro. A atualização divide a saída em dois feeds: um contendo todos os modelos e outro com apenas os 20 mais recentes, melhorando a eficiência e a usabilidade.

Leia mais
Desenvolvimento raspagem de modelos

Modelo de código aberto OLMo-2 supera o GPT-3.5? Configuração fácil para Mac!

2025-03-18
Modelo de código aberto OLMo-2 supera o GPT-3.5? Configuração fácil para Mac!

O modelo de linguagem de código aberto OLMo-2, com 32 bilhões de parâmetros, afirma superar o GPT-3.5-Turbo e o GPT-4 mini. Todos os dados, código, pesos e detalhes estão livremente disponíveis. Esta publicação detalha uma configuração simples para executá-lo em um Mac usando o plugin llm-mlx. Baixe o modelo de 17 GB com alguns comandos e participe de bate-papos interativos ou gere imagens; o exemplo mostra a geração de um SVG de um pelicano em uma bicicleta.

Leia mais
IA

Instalação Inteligente do Aider: Contornando Ambientes Virtuais

2025-03-06

A ferramenta de linha de comando Aider, de Paul Gauthier, oferece um método de instalação inovador que evita as complexidades dos ambientes virtuais para usuários finais. Um simples comando `pip install aider-install && aider-install` usa a ferramenta `uv` para instalar um ambiente Python 3.12 independente, instalando o Aider dentro dele e configurando automaticamente o PATH. Isso fornece uma experiência de instalação segura e fácil para usuários iniciantes em Python, eliminando etapas de configuração complexas.

Leia mais
Desenvolvimento

Alucinações de código LLM: não é o fim do mundo

2025-03-02

Uma reclamação comum entre desenvolvedores que usam LLMs para código é a ocorrência de 'alucinações' - o LLM inventando métodos ou bibliotecas inexistentes. No entanto, o autor argumenta que isso não é uma falha fatal. Alucinações de código são facilmente detectáveis por meio de erros de compilador/intérprete e podem ser corrigidas, às vezes automaticamente por sistemas mais avançados. O risco real reside em erros não detectados que só são revelados durante a execução, exigindo habilidades robustas de teste manual e QA. O autor aconselha os desenvolvedores a melhorar suas habilidades de leitura, compreensão e revisão de código e oferece dicas para reduzir alucinações, como tentar modelos diferentes, usar o contexto de forma eficaz e escolher tecnologias estabelecidas. A capacidade de revisar código gerado por LLMs é apresentada como uma valiosa construção de habilidades.

Leia mais
Desenvolvimento

Modelo LLM menor que 100MB agora instalável via pip: Apresentando llm-smollm2

2025-02-07
Modelo LLM menor que 100MB agora instalável via pip: Apresentando llm-smollm2

Um novo plugin, llm-smollm2, inclui um modelo LLM SmolLM2-135M-Instruct quantizado com menos de 100MB, tornando-o instalável via pip. O autor detalha o processo de criação, desde encontrar um modelo adequado com menos de 100MB (limitado pelas restrições de tamanho do PyPI) até suprimir logs detalhados do llama-cpp-python e empacotar para o PyPI. Embora as capacidades do modelo sejam limitadas, ele é apresentado como uma ferramenta de aprendizado valiosa para entender a tecnologia LLM.

Leia mais
Desenvolvimento Quantização de Modelo

Documento de treinamento da IBM perdido: computadores não podem ser responsabilizados (1979)

2025-02-03
Documento de treinamento da IBM perdido: computadores não podem ser responsabilizados (1979)

Uma página lendária de um treinamento interno da IBM de 1979 ressurgiu online, afirmando 'Um computador nunca pode ser responsabilizado; portanto, um computador nunca deve tomar uma decisão de gerenciamento.' A fonte original foi perdida, supostamente destruída por uma inundação. Essa declaração ressoa poderosamente em nossa era impulsionada pela IA, levando à reflexão sobre a responsabilidade e a tomada de decisões da IA.

Leia mais

Candidatura de emprego na Anthropic: assistentes de IA não permitidos

2025-02-03

O formulário de candidatura de emprego da Anthropic proíbe explicitamente o uso de assistentes de IA durante o processo de candidatura. A empresa deseja avaliar o interesse genuíno dos candidatos na Anthropic e suas habilidades de comunicação sem mediação de IA. Isso garante uma avaliação justa e autêntica das habilidades e processos de pensamento dos candidatos.

Leia mais

OpenAI lança o o3-mini: Um LLM poderoso e econômico

2025-02-01

A OpenAI lançou o novo modelo de linguagem o3-mini, que se destaca no benchmark de programação competitiva Codeforces, superando significativamente o GPT-4o e o o1. Embora não seja superior em todos os aspectos, seu baixo preço (US$ 1,10/milhão de tokens de entrada, US$ 4,40/milhão de tokens de saída) e o limite de saída de tokens excepcionalmente alto (100.000 tokens) o tornam altamente competitivo. A OpenAI planeja integrá-lo ao ChatGPT para pesquisa na web e resumo, e o suporte já está disponível no LLM 0.21, mas atualmente limitado a usuários do Tier 3 (pelo menos US$ 100 gastos na API). O o3-mini oferece aos desenvolvedores uma opção de LLM poderosa e econômica.

Leia mais
IA

llama.cpp WASM: Aceleração 2x com SIMD otimizado

2025-01-28

O blog de Simon Willison destaca uma melhoria significativa no llama.cpp: um aumento de velocidade de 2x para a versão WASM, obtida otimizando instruções SIMD. Surpreendentemente, 99% do código foi gerado pela ferramenta de programação assistida por IA DeepSeek R1. O DeepSeek R1 levou 3-5 minutos para 'pensar' em cada prompt, ajudando o desenvolvedor a melhorar o plugin llm_groq.py e a eliminar elegantemente o model_map, simplificando o código. Isso mostra o imenso potencial da IA na otimização e refatoração de código.

Leia mais

Qwen 2.5 da Alibaba: LLM com contexto de 1 milhão de tokens

2025-01-26

A Alibaba lançou uma atualização significativa para seu modelo de linguagem grande de código aberto, o Qwen 2.5, com uma janela de contexto impressionante de 1 milhão de tokens! Isso é alcançado por meio de uma nova técnica chamada Dual Chunk Attention. Dois modelos estão disponíveis no Hugging Face: versões de 7B e 14B de parâmetros, ambas exigindo VRAM significativa – pelo menos 120 GB para o modelo de 7B e 320 GB para o modelo de 14B. Embora possam ser usados para tarefas mais curtas, a Alibaba recomenda o uso de sua estrutura vLLM personalizada. Versões quantizadas GGUF estão surgindo, oferecendo tamanhos menores, mas podem existir problemas de compatibilidade com comprimentos de contexto completos. Um blogueiro tentou executar a versão GGUF em um Mac usando Ollama, encontrando alguns desafios e prometendo uma atualização futura.

Leia mais

Previsões de IA/LLM: 1, 3 e 6 anos no futuro

2025-01-11

Simon Willison compartilhou suas previsões para o desenvolvimento de IA/LLM nos próximos 1, 3 e 6 anos no podcast Oxide and Friends. Ele antecipa que agentes de IA de propósito geral não se concretizarão em breve, mas assistentes de código e pesquisa prosperarão. Dentro de três anos, a reportagem investigativa assistida por IA poderá ganhar um Prêmio Pulitzer, juntamente com leis de privacidade mais rígidas. Seis anos depois, a IA poderá produzir arte incrível, mas também poderá levar a distúrbios civis generalizados, dependendo do desenvolvimento e impacto econômico da AGI/ASI. Willison enfatiza sua baixa confiança nessas previsões, oferecendo-as como um ponto interessante de reflexão futura.

Leia mais

Minha Abordagem para um Blog de Links: Mais de 7.600 Postagens!

2025-01-06
Minha Abordagem para um Blog de Links: Mais de 7.600 Postagens!

Simon Willison compartilha sua abordagem para manter um blog de links de sucesso ao longo de mais de duas décadas. Ele detalha seus métodos para curadoria e apresentação de links, enfatizando o valor de adicionar comentários perspicazes, dar o crédito adequado aos criadores e usar tecnologia (Django, Markdown, Claude) para aprimorar a experiência. Ele argumenta que o blog de links é uma maneira de baixo esforço e alto retorno de contribuir significativamente para o discurso online e incentiva outros a adotarem a prática.

Leia mais

Acordo de US$ 95 milhões da Apple com o Siri: Mais desinformação do que espionagem por microfone?

2025-01-03

A Apple resolveu um processo por US$ 95 milhões por alegações de que gravações do Siri foram usadas para publicidade direcionada, apesar de negar irregularidades. O autor argumenta que a precisão do direcionamento de anúncios provavelmente se deve mais à coleta de dados do aplicativo do que à espionagem por microfone. No entanto, evidências anedóticas de anúncios que correspondem a conversas provavelmente alimentarão teorias da conspiração em torno da vigilância por microfone, independentemente da verdade.

Leia mais

LLMs em 2024: Um Ano de Avanços e Desafios

2024-12-31
LLMs em 2024: Um Ano de Avanços e Desafios

2024 testemunhou uma evolução notável em modelos de linguagem amplos (LLMs). Várias organizações superaram o desempenho do GPT-4, levando a um aumento dramático da eficiência, permitindo até mesmo a execução de LLMs em laptops pessoais. Os modelos multimodais tornaram-se comuns, com recursos de voz e vídeo emergindo. A geração de aplicativos baseada em prompts tornou-se uma commodity, mas o acesso universal aos modelos de alta qualidade durou apenas alguns meses. Embora os 'agentes' permanecessem evasivos, a importância da avaliação tornou-se primordial. A biblioteca MLX da Apple se destacou, contrastando com os recursos decepcionantes da 'Apple Intelligence'. Os modelos de dimensionamento de inferência surgiram, reduzindo custos e melhorando o impacto ambiental, mas também levantando preocupações sobre as consequências ambientais de novas infraestruturas. Dados de treinamento sintéticos provaram ser altamente eficazes, mas a usabilidade de LLM permaneceu desafiadora, a distribuição do conhecimento permaneceu desigual e são necessárias avaliações críticas melhores.

Leia mais
IA

Alibaba lança QvQ: novo modelo de raciocínio visual

2024-12-25
Alibaba lança QvQ: novo modelo de raciocínio visual

A Alibaba lançou recentemente o QvQ-72B-Preview, um novo modelo de raciocínio visual sob a licença Apache 2.0. Projetado para aprimorar as capacidades de raciocínio visual da IA, o QvQ se baseia no modelo de dimensionamento de inferência QwQ, adicionando processamento de visão. Ele aceita imagens e prompts, gerando processos de raciocínio detalhados e passo a passo. O blogueiro Simon Willison testou o QvQ, descobrindo que ele tem sucesso em tarefas como contar pelicanos, mas é menos preciso em problemas de raciocínio complexos. Atualmente disponível no Hugging Face Spaces, os planos futuros incluem implantação local e suporte a plataformas mais amplas.

Leia mais

Benchmark de LLM: Pelicano em uma Bicicleta

2024-12-16

Simon Willison criou um benchmark único de LLM: gerar uma imagem SVG de um pelicano andando de bicicleta. Esse prompt incomum tinha como objetivo testar as habilidades criativas dos modelos sem depender de dados de treinamento pré-existentes. Ele testou 16 modelos de OpenAI, Anthropic, Google Gemini e Meta (Llama no Cerebras), revelando variações significativas na qualidade dos SVGs gerados. Alguns modelos produziram resultados surpreendentemente bons, enquanto outros tiveram dificuldades.

Leia mais

Armazenando horários para eventos humanos: melhores práticas e desafios

2024-12-12
Armazenando horários para eventos humanos: melhores práticas e desafios

Esta postagem de blog discute as melhores práticas para armazenar horários de eventos em sites de eventos. O autor argumenta que armazenar diretamente o horário UTC perde informações cruciais, como a intenção original do usuário e a localização. Uma abordagem melhor é armazenar o horário pretendido pelo usuário e a localização do evento, e então derivar o horário UTC. Exemplos como erro do usuário, ajustes de fuso horário internacional e a atualização do DST do Microsoft Exchange de 2007 ilustram a importância de armazenar o horário pretendido pelo usuário. O autor recomenda projetar uma interface de usuário clara e amigável para ajudar os usuários a definir com precisão os horários e locais dos eventos, enfatizando a importância de manter a intenção original do usuário para evitar erros causados por mudanças de fuso horário.

Leia mais
2 Next →