Category: IA

ViTs x CNNs: Benchmarks de Velocidade Desmentem Mitos sobre Resolução

2025-05-04

Este artigo questiona a crença comum de que os Transformadores de Visão (ViTs) são ineficientes para o processamento de imagens de alta resolução. Através de benchmarks rigorosos em várias GPUs, o autor compara a velocidade de inferência, FLOPs e uso de memória de ViTs e Redes Neurais Convolucionais (CNNs). Os resultados mostram que os ViTs têm um desempenho excepcional até e incluindo 1024x1024 pixels, muitas vezes superando as CNNs em hardware moderno em velocidade e eficiência de memória. O autor também argumenta contra uma ênfase excessiva em alta resolução, sugerindo que resoluções mais baixas são frequentemente suficientes. Finalmente, o artigo apresenta mecanismos de atenção local, melhorando ainda mais a eficiência do ViT em resoluções mais altas.

IA

Autômato Celular de Codd: Uma Máquina de Auto-Replicação Simplificada

2025-05-04
Autômato Celular de Codd: Uma Máquina de Auto-Replicação Simplificada

Em 1968, o cientista da computação britânico Edgar F. Codd projetou um autômato celular (AC) com apenas 8 estados, simplificando a máquina de auto-replicação de 29 estados de von Neumann. Codd demonstrou a possibilidade de uma máquina de auto-replicação dentro de seu AC, mas uma implementação completa só foi alcançada em 2009 por Tim Hutton. O trabalho de Codd impulsionou pesquisas sobre a organização lógica necessária para a auto-replicação em autômatos, inspirando refinamentos posteriores por pesquisadores como Devore e Langton, levando a projetos de auto-replicação menos complexos.

IA

TScale: Treinamento de LLMs em Hardware de Consumo

2025-05-04
TScale: Treinamento de LLMs em Hardware de Consumo

TScale é uma estrutura de treinamento e inferência de modelos de transformador escrita em C++ e CUDA, projetada para rodar em hardware de consumo. Ela consegue reduções significativas de custo e tempo por meio de arquitetura otimizada, computação de baixa precisão (fp8 e int8), descarregamento da CPU e treinamento distribuído síncrono e assíncrono. Mesmo um modelo de 1T de parâmetros se torna tratável com técnicas de indexação inteligentes, permitindo o treinamento em computadores domésticos típicos. O TScale demonstra um imenso potencial na redução da barreira de entrada para o treinamento de LLMs.

Gráfico de previsão de IA falho viraliza: um conto de advertência

2025-05-04
Gráfico de previsão de IA falho viraliza: um conto de advertência

O METR, um laboratório de pesquisa sem fins lucrativos, publicou um relatório mostrando o rápido progresso dos grandes modelos de linguagem em tarefas de software, gerando discussões virais. No entanto, a premissa do gráfico é falha: ele usa o tempo de solução humana para medir a dificuldade do problema e o tempo de taxa de sucesso de 50% da IA como uma medida de capacidade. Isso ignora as complexidades diversas dos problemas, levando a resultados arbitrários inadequados para previsão. Embora o conjunto de dados do METR e as discussões sobre as limitações atuais da IA sejam valiosos, usar o gráfico para previsões de capacidade futura da IA é enganoso. Sua propagação viral destaca uma tendência de acreditar no que se quer acreditar em vez de se concentrar na validade.

Dez Novas Palavras para a Era da Comunicação com IA

2025-05-03
Dez Novas Palavras para a Era da Comunicação com IA

A ascensão da IA alterou fundamentalmente a forma como nos comunicamos. Este artigo apresenta humoristicamente dez novos termos para descrever essa mudança, como 'chatjacked' (IA sequestrando conversas), 'prasted' (colando a saída da IA sem edição), 'prompt ponged' (ida e volta impulsionada por IA) e 'AI'm a Writer Now' (escrita impulsionada por IA). Ele ilustra vividamente o impacto da IA na comunicação, levando à reflexão sobre autoria, sinceridade e o significado da conexão genuína. Uma peça divertida, mas instigante, que nos incentiva a considerar como manter a comunicação autêntica na era da IA.

Literatura gerada por IA: Preconceito e Fluência

2025-05-03
Literatura gerada por IA: Preconceito e Fluência

Este ensaio examina o preconceito contra obras literárias geradas por modelos de linguagem grandes (LLMs), um preconceito análogo aos preconceitos históricos contra escritoras. O autor argumenta que descartar a escrita de IA como inerentemente falha simplesmente porque não é humana é injustificado. A peça se aprofunda na relação entre fluência linguística e pensamento, demonstrando que grande parte da linguagem humana é habitual e não reflexiva, não fundamentalmente diferente do texto gerado por IA. Por fim, o autor defende uma abordagem de mente aberta para a leitura de obras geradas por IA, pois elas podem revelar formas inesperadas e inovadoras de expressão linguística.

O Impacto da IA na Ciência e na Matemática: Especialistas Preveem a Próxima Década

2025-05-03
O Impacto da IA na Ciência e na Matemática: Especialistas Preveem a Próxima Década

A Quanta Magazine entrevistou quase 100 cientistas e matemáticos sobre o impacto da inteligência artificial em seus campos. Quase todos relataram sentir os efeitos disruptivos da IA, seja diretamente envolvidos em seu desenvolvimento ou indiretamente influenciados por seu potencial. Muitos estão adaptando suas abordagens a experimentos, buscando novas colaborações ou formulando perguntas de pesquisa totalmente novas. O artigo termina com uma pergunta desafiadora: para onde tudo isso levará nos próximos 5 a 10 anos? Os especialistas concordam que o rápido avanço da IA torna as previsões precisas difíceis, e seu impacto continuará por muitos anos.

IA

Google Family Link permitirá que crianças acessem o Gemini AI

2025-05-03
Google Family Link permitirá que crianças acessem o Gemini AI

O Google está disponibilizando acesso aos seus aplicativos Gemini AI para crianças por meio de seus controles parentais Family Link em dispositivos Android. Embora o Gemini possa ajudar com a lição de casa e contar histórias, o Google alerta os pais de que a IA pode cometer erros e as crianças podem encontrar conteúdo inadequado. O Google garante que os dados das crianças não serão usados para treinar a IA. Os pais são aconselhados a conversar com seus filhos para explicar que o Gemini não é humano e para evitar compartilhar informações sensíveis. Os pais mantêm o controle por meio do Family Link, recebendo notificações no primeiro acesso do filho ao Gemini e mantendo a capacidade de desativar o acesso completamente.

Robô do DeepMind atinge nível humano competitivo de tênis de mesa

2025-05-02
Robô do DeepMind atinge nível humano competitivo de tênis de mesa

Uma equipe do Google DeepMind desenvolveu um robô capaz de competir em tênis de mesa no nível de um especialista humano. A pesquisa, detalhada em um artigo publicado e vídeos, mostra o desempenho impressionante do robô em um ambiente complexo e dinâmico, representando um avanço significativo na robótica alimentada por IA. O projeto envolveu vários pesquisadores do DeepMind, destacando o poder da pesquisa colaborativa.

Demo de inferência GPT-2 no navegador usando WebGL2

2025-05-02
Demo de inferência GPT-2 no navegador usando WebGL2

Este projeto impressionante traz a passagem completa para frente do modelo GPT-2 pequeno (117M de parâmetros) para o navegador usando WebGL2. Aproveitando os shaders WebGL2 para computação na GPU e js-tiktoken para tokenização BPE (sem necessidade de WASM), ele executa o GPT-2 diretamente no navegador. Um script Python baixa os pesos pré-treinados, e o front-end é construído com Vite para substituição de módulos a quente. Este é um exemplo fantástico de trazer modelos avançados de IA para o navegador, mostrando as capacidades de ponta das tecnologias web.

IA

IA Gera Mais de 500 Mashups Bizarros de Gêneros Musicais

2025-05-02
IA Gera Mais de 500 Mashups Bizarros de Gêneros Musicais

Um misterioso programa de IA gerou mais de 500 combinações incomuns de gêneros musicais, como "Reggae Árabe Gótico" e "Tuaregue de Saxofone". Essas combinações combinam ousadamente várias culturas e estilos musicais, mostrando as possibilidades ilimitadas da IA na criação musical. Isso desperta reflexões sobre o futuro da composição musical e fornece aos músicos nova inspiração criativa.

IA Gênero

Assistentes de escrita baseados em IA homogeneizam estilos de escrita no Sul Global

2025-05-02
Assistentes de escrita baseados em IA homogeneizam estilos de escrita no Sul Global

Um estudo da Universidade Cornell revela que assistentes de escrita baseados em IA podem homogeneizar os estilos de escrita em direção às normas ocidentais, impactando particularmente bilhões de usuários no Sul Global. O estudo descobriu que a escrita de usuários indianos e americanos se tornou mais semelhante ao usar um assistente de IA, principalmente às custas dos estilos de escrita indianos. Embora ambos os grupos tenham experimentado aumento na velocidade de escrita, os indianos viram um ganho de produtividade menor devido à correção frequente de sugestões de IA. A IA frequentemente sugeria alimentos e feriados americanos, até mesmo substituindo celebridades indianas por ocidentais. Os pesquisadores chamam isso de 'colonialismo de IA', instando as empresas de tecnologia a se concentrarem nas nuances culturais para ferramentas de IA mais inclusivas.

IA Língua

Dopamina: O Sinal de 'Tudo Limpo' do Cérebro para a Extinção do Medo

2025-05-01

Neurocientistas do MIT descobriram que a liberação de dopamina em um circuito cerebral específico age como um sinal de 'tudo limpo', ensinando o cérebro a extinguir o medo. Sua pesquisa em camundongos revela que a dopamina direciona diferentes populações de neurônios dentro da amígdala, codificando uma memória de extinção do medo. Esse mecanismo, quando funciona corretamente, restaura a calma; quando interrompido, pode contribuir para a ansiedade ou TEPT. O estudo aponta um potencial alvo terapêutico para transtornos relacionados ao medo, sugerindo que intervenções podem modular receptores de dopamina ou neurônios específicos para influenciar a formação e a extinção da memória do medo.

O mecanismo de busca do Google no modo IA entra em beta público

2025-05-01
O mecanismo de busca do Google no modo IA entra em beta público

O Google está lançando seu mecanismo de busca no modo IA para uma pequena porcentagem de usuários nos EUA. Essa pesquisa com tecnologia de IA responderá a consultas com respostas geradas por IA com base no índice do Google, ao contrário dos resultados de pesquisa tradicionais. Posicionado de forma proeminente na guia de pesquisa, o modo IA compete com ofertas semelhantes da Perplexity e da OpenAI. O Google removeu a lista de espera e adicionou recursos como pesquisas salvas e cards clicáveis para produtos e locais, melhorando a experiência do usuário.

IA

Conjunto de dados de áudio de emoções: sete emoções diferentes

2025-05-01

Este conjunto de dados contém amostras de áudio representando sete emoções diferentes: neutro, feliz, calmo, triste, zangado, assustado, enojado e surpreso. O grande número de clipes de áudio fornece recursos valiosos para treinar e testar modelos de reconhecimento de emoções, contribuindo significativamente para o campo da computação afetiva de IA.

Waypoint: Automatizando o Planejamento Urbano com IA – Contrata-se Primeiro Engenheiro

2025-05-01
Waypoint: Automatizando o Planejamento Urbano com IA – Contrata-se Primeiro Engenheiro

A Waypoint está revolucionando o planejamento urbano por meio da automação com IA, abordando as ineficiências e os altos custos associados às empresas de consultoria tradicionais. Eles estão procurando seu primeiro engenheiro para construir seus sistemas de engenharia do zero. Os projetos incluem o ajuste fino de modelos YOLO para segmentação de calçadas, o desenvolvimento de um sistema para processamento de documentos de planejamento urbano e a automação da geração de recomendações de segurança de interseções. O candidato ideal é um programador forte, um aluno rápido, um solucionador de problemas e apaixonado por melhorar o planejamento urbano.

IA

Integrações e Pesquisa Avançada do Claude: Uma Atualização Poderosa

2025-05-01
Integrações e Pesquisa Avançada do Claude: Uma Atualização Poderosa

A Anthropic anunciou atualizações importantes para o Claude, introduzindo Integrações que permitem aos desenvolvedores conectar vários aplicativos e ferramentas, e expandindo suas capacidades de pesquisa. O modo de Pesquisa Avançada permite que o Claude pesquise na web, no Google Workspace e agora também nos aplicativos integrados, realizando pesquisas de até 45 minutos e fornecendo relatórios completos com citações. A pesquisa na web agora está disponível globalmente para todos os usuários pagos do Claude. Essas atualizações aprimoram significativamente a funcionalidade e a eficiência do Claude, tornando-o uma ferramenta de colaboração mais poderosa.

As Guerras da Compreensão: Escala versus Significado na Era dos LLMs

2025-05-01
As Guerras da Compreensão: Escala versus Significado na Era dos LLMs

À medida que os modelos transformadores superaram os níveis humanos em benchmarks de PNL, um debate irrompeu sobre suas capacidades, culminando nas "guerras da compreensão" de 2020-22. O "teste da polvo" de Bender et al. argumentou que modelos que imitam a linguagem estatisticamente não conseguem captar o significado. A chegada do GPT-3 intensificou o conflito, seu poder chocando pesquisadores enquanto levantava preocupações de segurança e éticas. O debate destacou divergências em metodologia e direção entre a academia e a indústria, levando a uma 'guerra civil' interna no campo da PNL.

IA

Mercado de trabalho para recém-formados mostra sinais preocupantes

2025-05-01
Mercado de trabalho para recém-formados mostra sinais preocupantes

O mercado de trabalho para jovens recém-formados nos EUA está significativamente pior do que tem sido nas últimas décadas. O desemprego está em 5,8%, com até mesmo graduados em MBA de elite enfrentando dificuldades. Três possíveis explicações são oferecidas: os efeitos persistentes da pandemia e da Grande Recessão; um retorno decrescente sobre o investimento em um diploma universitário; e o potencial disruptivo da IA, que é capaz de automatizar tarefas anteriormente realizadas por trabalhadores de colarinho branco de nível inicial. Embora o impacto da IA no emprego ainda não esteja claro, as dificuldades dos recém-formados servem como um alerta, potencialmente sinalizando problemas econômicos de curto prazo, uma mudança no valor da educação superior ou o impacto de longo prazo da IA na força de trabalho.

Fósseis Digitais em IA: Como Termos Sem Sentido se Incorporam ao Nosso Conhecimento

2025-05-01
Fósseis Digitais em IA: Como Termos Sem Sentido se Incorporam ao Nosso Conhecimento

Cientistas descobriram o termo sem sentido "microscopia eletrônica vegetativa" se espalhando por modelos de IA. Originário de erros de digitalização em artigos científicos da década de 1950 e amplificado por erros de tradução, ele se tornou parte integrante de grandes modelos de linguagem. Isso destaca os desafios de conjuntos de dados de treinamento massivos, falta de transparência e erros autoperpetuadores na IA. O incidente apresenta problemas sérios para a pesquisa acadêmica e publicação, levando à reflexão sobre a manutenção de sistemas de conhecimento confiáveis.

A incompreensão de 'vibe coding': Uma oportunidade perdida

2025-05-01
A incompreensão de 'vibe coding': Uma oportunidade perdida

Duas editoras e três autores interpretaram fundamentalmente mal o significado de 'vibe coding', confundindo-o com programação assistida por IA. O autor argumenta que o verdadeiro 'vibe coding', conforme definido por Andrej Karpathy, envolve o uso de IA para gerar código sem se concentrar nos detalhes do código; é uma abordagem de baixo código para não programadores. O autor expressa decepção por as editoras e os autores não terem compreendido totalmente a definição de Karpathy, perdendo uma grande oportunidade de criar um livro valioso sobre como capacitar não programadores a construir software personalizado usando IA sem aprender programação tradicional.

IA

Hyperparam: A Interface Ausente para Dados de IA, Agora de Código Aberto

2025-05-01

Hyperparam aborda um desafio crítico no aprendizado de máquina: a falta de ferramentas amigáveis para explorar conjuntos de dados massivos. Seu conjunto de ferramentas de código aberto, incluindo Hyparquet (leitor Parquet no navegador), Hyparquet-Writer (exportador Parquet), HighTable (tabela React escalável), Icebird (leitor Iceberg), Hyllama (analisador de metadados de modelos LLaMA) e o Hyperparam CLI, permite a exploração e curadoria interativas de dados diretamente no navegador. Aproveitando formatos de dados eficientes e JavaScript de alto desempenho, Hyperparam permite que os cientistas de dados trabalhem com dados em escala de terabytes localmente e de forma privada, sem infraestrutura de servidor complexa. Essa abordagem prioriza a segurança e a conformidade dos dados.

IA

Escândalo de Benchmarking de IA: As Grandes Empresas de Tecnologia Manipularam o Chatbot Arena?

2025-05-01
Escândalo de Benchmarking de IA: As Grandes Empresas de Tecnologia Manipularam o Chatbot Arena?

Um novo artigo da Cohere, Stanford, MIT e Ai2 acusa a LM Arena, a organização por trás do popular benchmark Chatbot Arena, de favorecer injustamente grandes empresas de IA como Meta, OpenAI, Google e Amazon. Os pesquisadores alegam que essas empresas tiveram permissão para testar variantes de modelos em particular, suprimindo resultados de baixo desempenho para impulsionar suas classificações no ranking. Analisando mais de 2,8 milhões de batalhas, o estudo encontrou evidências de taxas de amostragem aumentadas, dando a essas empresas uma vantagem injusta. A LM Arena contesta as descobertas, citando imprecisões, e planeja melhorar seu algoritmo de amostragem, mas nega a manipulação de classificações. A controvérsia levanta preocupações sobre a justiça e a transparência no benchmarking de IA e destaca as táticas competitivas empregadas por grandes empresas de tecnologia na corrida da IA.

Executando o Qwen3 Localmente no seu Mac de Graça: Um Loop Agéntico com Localforge

2025-05-01
Executando o Qwen3 Localmente no seu Mac de Graça: Um Loop Agéntico com Localforge

Este artigo descreve como executar o poderoso modelo de linguagem grande Qwen3 em um Mac gratuitamente, integrando-o a um agente usando o Localforge. O autor guia o leitor meticulosamente pela instalação da biblioteca MLX, configuração do servidor de modelos e configuração do Localforge, mostrando os métodos Ollama e MLX para executar o Qwen3. O autor usa com sucesso o agente Qwen3 para executar tarefas como listar arquivos, demonstrando até um site criado pelo agente. A publicação destaca a viabilidade de executar LLMs poderosos localmente e construir agentes sem custo.

Phi Silica: Um Modelo de Linguagem Pequeno e Altamente Eficiente para PCs com Windows 11 Copilot+

2025-05-01
Phi Silica: Um Modelo de Linguagem Pequeno e Altamente Eficiente para PCs com Windows 11 Copilot+

A equipe de Ciências Aplicadas da Microsoft alcançou um avanço na eficiência de IA em PCs com Windows 11 Copilot+ (alimentados por processadores da série Snapdragon X) usando uma abordagem multidisciplinar. Seu modelo de linguagem pequeno, Phi Silica, melhora significativamente a eficiência energética, a velocidade de inferência e a eficiência de memória. O Phi Silica alimenta vários recursos do Copilot+ PC, incluindo Click to Do, recursos de reescrita e resumo no dispositivo no Word e Outlook, e fornece um SLM pré-otimizado para desenvolvedores. Técnicas como quantização de peso de 4 bits, embeddings mapeados na memória e QuaRot (um novo método de quantização de 4 bits) reduzem drasticamente a pegada de memória e alcançam inferência quantizada de 4 bits de alta precisão. Ele possui um tempo para o primeiro token de 230 ms para prompts curtos e uma taxa de transferência de até 20 tokens/segundo.

Microsoft Lança Modelos de Linguagem Pequenos Phi-4 com Capacidades de Raciocínio Impressionantes

2025-05-01
Microsoft Lança Modelos de Linguagem Pequenos Phi-4 com Capacidades de Raciocínio Impressionantes

A Microsoft apresentou sua nova família de modelos de linguagem pequenos (SLMs) Phi-4, incluindo Phi-4-reasoning, Phi-4-reasoning-plus e Phi-4-mini-reasoning. Esses modelos demonstram capacidades de raciocínio impressionantes, especialmente em raciocínio matemático, superando até mesmo modelos maiores em alguns benchmarks. O Phi-4-mini-reasoning é otimizado para ambientes com recursos limitados, como dispositivos móveis e computação de borda. A Microsoft destaca seu compromisso com IA responsável, empregando várias medidas de segurança para mitigar riscos potenciais. Esses modelos estão disponíveis no Azure AI Foundry e Hugging Face, com alguns integrados aos PCs Copilot+ do Windows 11.

DeepSeek-Prover-V2: Aprimorando o raciocínio matemático formal por meio de aprendizado por reforço

2025-04-30
DeepSeek-Prover-V2: Aprimorando o raciocínio matemático formal por meio de aprendizado por reforço

DeepSeek-Prover-V2 é um modelo de linguagem grande de código aberto projetado para prova de teoremas formais em Lean 4. Ele utiliza um pipeline de prova de teoremas recursivo alimentado pelo DeepSeek-V3 e aprendizado por reforço para integrar o raciocínio matemático formal e informal. O modelo começa decompondo problemas complexos em subobjetivos usando o DeepSeek-V3, sintetizando provas desses subobjetivos para criar dados iniciais para o aprendizado por reforço. O DeepSeek-Prover-V2-671B alcança desempenho de ponta, atingindo uma taxa de aprovação de 88,9% no MiniF2F-test e resolvendo 49 problemas do PutnamBench. Um novo conjunto de dados de referência, ProverBench, contendo 325 problemas formalizados de competições do ensino médio e livros didáticos, também é introduzido.

MiMo-7B: Modelo de Linguagem de 7B Parâmetros para Raciocínio Supera Modelos de 32B

2025-04-30
MiMo-7B: Modelo de Linguagem de 7B Parâmetros para Raciocínio Supera Modelos de 32B

A Xiaomi apresenta o MiMo-7B, um modelo de linguagem de 7 bilhões de parâmetros projetado para raciocínio. Por meio de dados e estratégias de pré-treinamento otimizados, juntamente com técnicas inovadoras de aprendizado por reforço, o MiMo-7B demonstra desempenho excepcional em tarefas de raciocínio matemático e de código, superando até mesmo modelos de 32B parâmetros maiores. O modelo de código aberto inclui pontos de verificação para o modelo base, modelo SFT e modelos treinados por RL, oferecendo recursos valiosos para o desenvolvimento de LLMs de raciocínio poderosos.

Explosão de Modelos de IA: A Corrida ao Topo em 2024-2025

2025-04-30

Os anos de 2024 e 2025 testemunharam um boom sem precedentes no desenvolvimento de modelos de IA. De Stable Diffusion 3 a GPT-4o, de Gemini a Claude 3, gigantes da tecnologia e startups lançaram uma enxurrada de novos modelos, provocando uma competição intensa em geração de imagens, geração de vídeo, geração de texto e multimodalidade. A ascensão de modelos de código aberto impulsionou ainda mais o avanço rápido e a acessibilidade da tecnologia de IA. Essa 'batalha de modelos' continua a evoluir, com contagens de parâmetros e capacidades cada vez maiores, moldando, em última análise, o cenário futuro da IA.

IA

Teste de Aleatoriedade de LLMs Revela Viés Inesperado

2025-04-30

Este experimento testou a aleatoriedade de vários Modelos de Linguagem Grandes (LLMs) da OpenAI e Anthropic. Ao fazer com que os modelos jogassem uma moeda e previssem números aleatórios entre 0 e 10, os pesquisadores descobriram um viés significativo em suas saídas, revelando que eles não são realmente aleatórios. Por exemplo, no experimento de jogar moeda, todos os modelos mostraram preferência por 'cara', com o GPT-o1 exibindo o viés mais extremo em 49%. Na previsão de números pares/ímpares, a maioria dos modelos favoreceu números ímpares, com o Claude 3.7 Sonnet exibindo o viés mais forte em 47%. As descobertas destacam que mesmo LLMs avançados podem exibir padrões inesperados influenciados por suas distribuições de dados de treinamento.

1 2 19 20 21 23 25 26 27 51 52