Category: IA

Modelo de código aberto OLMo-2 supera o GPT-3.5? Configuração fácil para Mac!

2025-03-18
Modelo de código aberto OLMo-2 supera o GPT-3.5? Configuração fácil para Mac!

O modelo de linguagem de código aberto OLMo-2, com 32 bilhões de parâmetros, afirma superar o GPT-3.5-Turbo e o GPT-4 mini. Todos os dados, código, pesos e detalhes estão livremente disponíveis. Esta publicação detalha uma configuração simples para executá-lo em um Mac usando o plugin llm-mlx. Baixe o modelo de 17 GB com alguns comandos e participe de bate-papos interativos ou gere imagens; o exemplo mostra a geração de um SVG de um pelicano em uma bicicleta.

IA

Algoritmo Quântico DQI: Uma Quebra de Paradigma na Otimização?

2025-03-17
Algoritmo Quântico DQI: Uma Quebra de Paradigma na Otimização?

A equipe do Google Quantum AI desenvolveu um novo algoritmo quântico chamado Interferometria Quântica Decodificada (DQI) que supera todos os algoritmos clássicos conhecidos na resolução de uma ampla classe de problemas de otimização. O algoritmo não foi projetado para um problema específico, mas sim traduzindo o problema em ondas quânticas e aplicando técnicas de decodificação para encontrar a melhor solução. Embora falte hardware quântico suficiente para testes empíricos e a possibilidade de futuros algoritmos clássicos rivais, a vantagem potencial do DQI em problemas de otimização e suas aplicações em codificação e criptografia geraram entusiasmo na comunidade de computação quântica. É considerado um avanço significativo em algoritmos quânticos.

Gemini 2.0 Flash do Google: Editor de imagens IA poderoso que levanta preocupações sobre direitos autorais

2025-03-17
Gemini 2.0 Flash do Google: Editor de imagens IA poderoso que levanta preocupações sobre direitos autorais

O novo modelo de IA Gemini 2.0 Flash do Google possui recursos poderosos de edição de imagens, incluindo a capacidade de remover marcas d'água de imagens sem esforço, mesmo aquelas de agências de fotos conhecidas como a Getty Images. Essa funcionalidade gerou preocupações sobre direitos autorais, pois a remoção de marcas d'água sem permissão é geralmente ilegal de acordo com a lei de direitos autorais dos EUA. Embora o Google rotule o recurso como experimental e disponível apenas para desenvolvedores, sua capacidade poderosa de remoção de marcas d'água e a falta de restrições de uso o tornam uma ferramenta potencial para violação de direitos autorais. Outros modelos de IA, como o Claude 3.7 Sonnet da Anthropic e o GPT-4o da OpenAI, se recusam explicitamente a remover marcas d'água, considerando-o antiético e potencialmente ilegal.

Startup de IA Neuro-First Busca Engenheiros para Criar Interfaces Cérebro-Computador Inovadoras

2025-03-17
Startup de IA Neuro-First Busca Engenheiros para Criar Interfaces Cérebro-Computador Inovadoras

A Piramidal está contratando Engenheiros de Pesquisa para construir sistemas de IA focados em dados neurais, permitindo tarefas antes impossíveis. Candidatos ideais possuem fortes habilidades de engenharia, incluindo o design, implementação e aprimoramento de sistemas de aprendizado de máquina distribuídos em larga escala, e um conhecimento básico de neurociência. A empresa oferece compensação e participação acionária competitivas, impulsionada por uma missão de empoderar o potencial humano por meio da tecnologia, defendendo a liberdade cognitiva e se opondo à mercantilização das mentes.

IA

IA do Google resolve mistério de superbactérias de uma década em apenas dois dias

2025-03-17
IA do Google resolve mistério de superbactérias de uma década em apenas dois dias

Uma nova ferramenta de IA do Google resolveu um enigma científico de uma década em apenas dois dias: o mecanismo de resistência a antibióticos em superbactérias. Uma equipe do Imperial College London passou 10 anos pesquisando como certas superbactérias adquirem resistência, mas a ferramenta de IA 'co-cientista' do Google, com um simples comando, chegou à mesma resposta que as descobertas não publicadas da equipe em apenas 48 horas. Isso demonstra o potencial da IA para sintetizar evidências, orientar pesquisas e projetar experimentos, potencialmente revolucionando o progresso científico. No entanto, também levanta preocupações éticas e de confiabilidade sobre o uso da IA na pesquisa científica.

Engenheiro de IA Aplicada Fundador na Kastle: Revolucionando o Atendimento de Empréstimos Imobiliários com IA

2025-03-16
Engenheiro de IA Aplicada Fundador na Kastle: Revolucionando o Atendimento de Empréstimos Imobiliários com IA

A Kastle, uma plataforma com tecnologia de IA que atende os maiores credores de hipotecas dos EUA, procura um Engenheiro de IA Aplicada Fundador. Com o apoio da Y Combinator e de outros investidores importantes, a Kastle está redefinindo o atendimento de empréstimos. Essa função exige mais de 3 anos de experiência em IA aplicada, proficiência em Python e estruturas de aprendizado profundo e experiência em ajuste fino de LLMs. As responsabilidades incluem integrar IA em sua plataforma, projetar fluxos de trabalho de IA, garantir conformidade regulatória (FDCPA, RESPA, TILA) e otimizar para desempenho e escalabilidade. Essa é uma oportunidade única para construir a base de uma startup de IA em rápido crescimento.

IA

A ameaça da IA aos repositórios de acesso aberto

2025-03-16
A ameaça da IA aos repositórios de acesso aberto

O ideal do movimento de acesso aberto está em conflito com a realidade do treinamento de modelos de IA. Contribuidores estão descobrindo que seus trabalhos estão sendo explorados para lucro, até mesmo alimentando projetos prejudiciais, levantando questões sobre a sustentabilidade do compartilhamento de conhecimento. Este artigo explora soluções além de licenças restritivas, defendendo modelos colaborativos justos como o Wikimedia Enterprise e os sinais de preferência do Creative Commons. A negociação coletiva pode garantir que empresas de IA compensem justamente os custos de infraestrutura, forneçam atribuição e reinvistam no bem comum, cumprindo a visão de acesso universal ao conhecimento.

Estudantes do MIT superam bibliotecas HPC de última geração com centenas de linhas de código

2025-03-16
Estudantes do MIT superam bibliotecas HPC de última geração com centenas de linhas de código

Pesquisadores do CSAIL do MIT desenvolveram o Exo 2, uma nova linguagem de programação que permite que programadores escrevam 'escalonamentos' controlando explicitamente como o compilador gera código, levando a um desempenho significativamente melhorado. Ao contrário das linguagens existentes de escalonamento pelo usuário (USLs), o Exo 2 permite que os usuários definam novas operações de escalonamento externamente ao compilador, criando bibliotecas de escalonamento reutilizáveis. Isso permite que os engenheiros alcancem desempenho comparável ou superior ao das bibliotecas HPC de última geração com código drasticamente reduzido, revolucionando a eficiência em aplicativos de IA e aprendizado de máquina.

IA

Avaliando o Risco de Sequestro de Agentes de IA: Testes Adversariais Revelam Vulnerabilidades

2025-03-16
Avaliando o Risco de Sequestro de Agentes de IA: Testes Adversariais Revelam Vulnerabilidades

O Instituto de Segurança de IA dos EUA (US AISI) avaliou o risco de sequestro de agentes de IA usando a estrutura AgentDojo, testando o modelo Claude 3.5 Sonnet da Anthropic. As descobertas-chave destacam a necessidade de melhoria contínua das estruturas de avaliação, avaliações adaptativas para levar em conta os métodos de ataque em evolução e a importância da análise das taxas de sucesso de ataque específicas de cada tarefa. O estudo introduziu novos cenários de ataque, como execução remota de código, exfiltração de banco de dados e phishing automatizado, demonstrando sua eficácia em diferentes ambientes. Esta pesquisa destaca a necessidade de melhorias iterativas nas estruturas de avaliação de segurança de IA para lidar com a ameaça em constante evolução de sequestro de agentes de IA.

Quant da Jane Street: De Competições de Matemática a Trading Impulsionado por IA

2025-03-16
Quant da Jane Street: De Competições de Matemática a Trading Impulsionado por IA

In Young Cho, uma trader quantitativa da Jane Street, compartilha seu caminho de carreira não convencional, de pré-medicina para trading quantitativo. Ela relata suas experiências de estágio e trabalho na Jane Street, incluindo o uso de linguagens de programação como OCaml e VBA para trading e desenvolvimento, e anedotas engraçadas sobre a interação com corretores. O episódio mergulha na pesquisa de trading da Jane Street, de modelos lineares simples a redes neurais profundas complexas, e como eles utilizam aprendizado de máquina em ambientes de baixo volume de dados, alto ruído e sujeitos a mudanças frequentes de regime. In Young Cho detalha as quatro etapas de seu processo de pesquisa: exploração, coleta de dados, modelagem e produção, e discute a tensão entre ferramentas de pesquisa flexíveis e sistemas de produção robustos. Finalmente, ela oferece um vislumbre das direções futuras da pesquisa de aprendizado de máquina da Jane Street, incluindo a expansão para mais classes de ativos e modalidades de dados, e o uso de IA para melhorar a eficiência do trader.

IA

Parahelp: Criando colegas de IA que substituem agentes de suporte humano

2025-03-15
Parahelp: Criando colegas de IA que substituem agentes de suporte humano

A Parahelp está construindo um agente de suporte com tecnologia de IA para empresas de software. Seu agente usa a infraestrutura existente (Slack, Stripe, etc.) para resolver tickets de suporte de ponta a ponta, com o objetivo de substituir completamente os agentes de suporte humano. Eles acreditam que o contexto, e não a inteligência, será o gargalo para os futuros colegas de IA. Lançada em agosto de 2024, a Parahelp é apoiada pela Y Combinator e investidores de renome, e já trabalha com empresas líderes como Perplexity e Framer.

IA Suporte

Clínica Mayo resolve o problema de alucinação de LLM com RAG reverso

2025-03-15
Clínica Mayo resolve o problema de alucinação de LLM com RAG reverso

Os grandes modelos de linguagem (LLMs) sofrem de 'alucinações' - gerando informações imprecisas - um problema particularmente perigoso na área da saúde. A Clínica Mayo abordou isso com uma nova técnica de 'RAG reverso'. Ao vincular informações extraídas à sua fonte original, esse método eliminou quase todas as alucinações baseadas na recuperação de dados, permitindo a implantação do modelo em toda a sua prática clínica. A técnica combina o algoritmo CURE e bancos de dados vetoriais, garantindo a rastreabilidade de cada ponto de dados à sua origem. Isso aumenta a confiabilidade e a credibilidade do modelo, reduzindo significativamente a carga de trabalho dos médicos e abrindo novas possibilidades para a medicina personalizada.

Optifye: Startup de IA para Otimização de Fábrica Contrata Equipe de Fundação

2025-03-15
Optifye: Startup de IA para Otimização de Fábrica Contrata Equipe de Fundação

A Optifye, um sistema de monitoramento de desempenho de IA para fábricas, usa visão computacional para identificar e corrigir ineficiências em tempo real. Tendo implantado com sucesso seu sistema em fabricantes líderes nos setores de vestuário, automobilístico, médico e bens de consumo de massa em três continentes, alcançando um aumento de produtividade de 12%, agora está crescendo rapidamente após se formar no YC W25. Seu objetivo ambicioso é implantar seu sistema em 100 linhas de produção nos próximos 4 meses. Eles estão procurando engenheiros experientes com profunda experiência em otimização de GPU/CPU/memória, dimensionamento de aplicativos de CV em produção, implantações em nuvem em contêineres (AWS preferencial) e uma força implacável para resolver problemas complexos. Esta é uma oportunidade de alta pressão e alta recompensa para talentos de alto nível.

Douglas Hofstadter critica duramente o texto 'Por que escrevi GEB?' gerado pelo GPT-4 e expressa preocupações sobre LLMs

2025-03-15
Douglas Hofstadter critica duramente o texto 'Por que escrevi GEB?' gerado pelo GPT-4 e expressa preocupações sobre LLMs

Douglas Hofstadter, pioneiro em IA, critica veementemente um texto gerado pelo GPT-4, intitulado 'Por que escrevi GEB?', que supostamente resume sua obra seminal, Gödel, Escher, Bach. Ele argumenta que o texto está repleto de lugares-comuns genéricos, deturpando drasticamente seu estilo de escrita e a gênese do livro. Hofstadter destaca a falta de originalidade da LLM e sua fabricação de uma narrativa falsa. Ele detalha o processo criativo real por trás de GEB, desde seu fascínio inicial pelo teorema da incompletude de Gödel até a integração de Escher e Bach, revelando as inspirações e lutas genuínas. Ele expressa preocupações sérias sobre a proliferação de LLMs e seu potencial para inundar o mundo com inverdades, instando a uma avaliação crítica de seus perigos inerentes.

IA

Atraso na atualização de IA do Siri: dificuldades internas e pressão na Apple

2025-03-15
Atraso na atualização de IA do Siri: dificuldades internas e pressão na Apple

Uma reunião interna da equipe do Siri da Apple revelou que a atualização de IA do Siri, prometida originalmente em junho passado, foi adiada indefinidamente. Essa decisão causou ansiedade e pressão dentro da equipe, e também expôs a posição atrasada da Apple na corrida da IA. A reunião revelou que o atraso decorre de alocação interna de recursos e falta de comunicação com o departamento de marketing, levando a recursos prometidos em excesso. Embora os executivos da Apple tenham assumido a responsabilidade pelo atraso, o futuro do Siri ainda enfrenta inúmeros desafios, incluindo problemas técnicos e gestão das expectativas do usuário.

IA

Google Assistant será substituído pelo Gemini: A ascensão da IA generativa

2025-03-14
Google Assistant será substituído pelo Gemini: A ascensão da IA generativa

Mais de um ano após seu lançamento, o Google anunciou que seu assistente de IA Gemini substituirá o Google Assistant em telefones Android no final de 2025. Isso representa um passo significativo para a adoção generalizada de IA generativa em dispositivos móveis. Embora a versão inicial do Gemini tivesse funcionalidades limitadas, o Google corrigiu isso por meio de atualizações contínuas e expansão para wearables, carros, tablets e fones de ouvido. O Google afirma que milhões de pessoas já migraram para o Gemini, destacando seus recursos personalizados, cientes do mundo e que aprimoram a produtividade. Essa substituição também representa uma década de evolução no processamento de linguagem natural, de assistentes de voz básicos à IA generativa de hoje, mostrando um rápido avanço tecnológico.

IA

Framework de colaboração multi-agente de código aberto OWL lidera o benchmark GAIA

2025-03-14
Framework de colaboração multi-agente de código aberto OWL lidera o benchmark GAIA

OWL, uma estrutura de ponta para colaboração multi-agente construída sobre a estrutura CAMEL-AI, alcançou a posição #1 no benchmark GAIA com uma pontuação média de 58,18! Ele permite automação de tarefas mais natural, eficiente e robusta em diversos domínios por meio de interações dinâmicas de agentes. OWL é de código aberto, suporta vários métodos de instalação e modelos (incluindo OpenAI, Qwen e DeepSeek), e possui um rico conjunto de kits de ferramentas, como automação de navegador, processamento multi-modal e análise de documentos. Uma interface web amigável também é fornecida. A equipe OWL está ativamente buscando contribuições da comunidade de casos de uso e melhorando continuamente a estrutura.

Dos Andes à Psicologia Evolucionista: Uma Jornada Científica Acidental

2025-03-14
Dos Andes à Psicologia Evolucionista: Uma Jornada Científica Acidental

Um encontro casual com uma mulher nativa peruana que lembrava muito sua mãe impulsionou a jornada do autor para a psicologia evolucionista. Isso levou a uma investigação sobre as semelhanças entre asiáticos orientais e nativos americanos, e sua ancestralidade siberiana compartilhada. Superando a censura ideológica e os desafios de financiamento na academia, ele conduziu pesquisas independentemente e publicou um artigo sobre o impacto de climas extremos na psicologia humana. Seu trabalho promete soluções para problemas socioculturais de longa data que afetam as sociedades asiáticas orientais e tropicais.

Agentes de IA: Hype ou o Futuro do Trabalho?

2025-03-14
Agentes de IA: Hype ou o Futuro do Trabalho?

O Vale do Silício está apostando alto em agentes de IA, mas há uma falta significativa de consenso sobre o que exatamente constitui um agente de IA. Empresas como OpenAI, Microsoft e Salesforce os veem como o futuro do trabalho, mas suas funcionalidades e implementações variam muito. As definições variam de sistemas totalmente autônomos a ferramentas que seguem fluxos de trabalho predefinidos, causando confusão até mesmo entre especialistas do setor. Essa ambiguidade decorre de rápidos avanços tecnológicos e do hype de marketing, criando oportunidades de inovação e potencial para expectativas desalinhadas e retorno do investimento incerto. Em última análise, se os agentes de IA realmente revolucionarão o mundo pode depender da capacidade da indústria de estabelecer uma definição unificada.

Previsão Probabilística de Séries Temporais: Uma Mudança de Paradigma na Análise Preditiva

2025-03-14
Previsão Probabilística de Séries Temporais: Uma Mudança de Paradigma na Análise Preditiva

Diga adeus às previsões de ponto único! A previsão probabilística de séries temporais revoluciona a análise preditiva fornecendo distribuições de probabilidade completas de possíveis resultados, não apenas valores únicos. Isso permite uma tomada de decisão mais matizada e confiável. Estudos mostram melhorias significativas na precisão da previsão, redução de erros e, especialmente, na previsão de eventos extremos. Vários setores, incluindo finanças, saúde e manufatura, se beneficiam da melhor avaliação de riscos, alocação de recursos e gestão de estoque. Este guia abrangente aprofunda os princípios, métodos (métodos bayesianos, processos gaussianos, modelos probabilísticos profundos) e aplicações da previsão probabilística em diversos domínios. Também abrange técnicas cruciais como pré-processamento de dados, seleção de modelos e calibração de incerteza.

OpenAI aposta no plano de ação de IA de Trump para resolver disputas de direitos autorais

2025-03-14
OpenAI aposta no plano de ação de IA de Trump para resolver disputas de direitos autorais

A OpenAI espera que o Plano de Ação de IA de Donald Trump, previsto para julho, declare o treinamento de IA como uso justo, resolvendo debates sobre direitos autorais e concedendo às empresas de IA acesso irrestrito a dados de treinamento. A OpenAI argumenta que isso é crucial para vencer a corrida de IA contra a China. Os tribunais estão atualmente debatendo se o treinamento de IA constitui uso justo, com os detentores de direitos alegando que os modelos de IA ameaçam sua posição de mercado e diminuem a criatividade humana geral. A OpenAI está envolvida em dezenas de processos judiciais, argumentando que a IA transforma obras protegidas por direitos autorais e que as saídas de IA não são substitutos para as originais. A OpenAI espera que o plano de Trump impeça decisões como a que favoreceu os detentores de direitos, que considerou o treinamento de IA não como uso justo porque ameaçava substituir uma empresa de pesquisa jurídica. A OpenAI sugere que os EUA devem priorizar a 'liberdade de aprender' da indústria de IA para evitar que a China ganhe vantagem ao acessar dados protegidos por direitos autorais que as empresas americanas não podem acessar.

Gemini 2.0 do Google: Recursos de IA poderosos agora gratuitos, mas a que custo?

2025-03-13
Gemini 2.0 do Google: Recursos de IA poderosos agora gratuitos, mas a que custo?

O Google está se esforçando para tornar o Gemini um nome conhecido, lançando atualizações significativas para o Gemini 2.0. Melhorias importantes, incluindo recursos avançados como Pesquisa Profunda aprimorada e um modelo de raciocínio que utiliza seu histórico de pesquisa, agora estão disponíveis gratuitamente. Este modelo aprimorado possui uma janela de contexto de 1 milhão de tokens, uploads de arquivos, processamento mais rápido e integrações com aplicativos do Google, como Calendário e Fotos. Embora o Google enfatize o controle do usuário e a capacidade de desativar o acesso ao histórico de pesquisa, preocupações com a privacidade permanecem.

IA

IA e Matemática: Um Choque de Culturas e um Chamado para a Colaboração

2025-03-13

A Reunião Conjunta de Matemática de 2025 destacou a crescente interseção entre IA e matemática, revelando uma divisão cultural entre matemáticos acadêmicos e pesquisadores de IA da indústria. Os matemáticos priorizam a compreensão, enquanto os pesquisadores de IA costumam se concentrar nos resultados. Essa diferença se manifesta em abordagens contrastantes em relação à abertura, transparência e à própria natureza da prova. O artigo mergulha na essência da matemática, sua cultura e valores, e explora as aplicações potenciais da IA na gestão da literatura, verificação de teoremas e outras áreas. O autor argumenta que a IA deve aumentar as capacidades matemáticas humanas, não substituir os matemáticos humanos, enfatizando a necessidade de respeito mútuo e colaboração para o avanço do campo.

CEO da Anthropic alerta sobre espionagem chinesa visando segredos de IA dos EUA

2025-03-13
CEO da Anthropic alerta sobre espionagem chinesa visando segredos de IA dos EUA

O CEO da Anthropic, Dario Amodei, alertou que espiões chineses provavelmente estão roubando "segredos algorítmicos" valiosos de empresas de IA dos EUA, pedindo a intervenção do governo. Ele destacou o histórico de espionagem industrial da China e o alto valor - potencialmente centenas de milhões de dólares - de trechos de código aparentemente simples. Amodei defende uma maior colaboração entre o governo dos EUA e empresas de IA para fortalecer a segurança em laboratórios de IA líderes, possivelmente envolvendo agências de inteligência dos EUA e aliados. Essa preocupação está alinhada com as preocupações anteriormente expressas por Amodei sobre o uso da IA pela China para fins autoritários e militares e seus apelos por controles de exportação mais rígidos de chips de IA para a China. Sua posição gerou críticas de alguns que acreditam que a colaboração EUA-China em IA é necessária para evitar uma corrida armamentista de IA incontrolável.

Google DeepMind lança modelos de IA Gemini Robotics para controle preciso de robôs

2025-03-12
Google DeepMind lança modelos de IA Gemini Robotics para controle preciso de robôs

O Google DeepMind anunciou dois novos modelos de IA projetados para controlar robôs: Gemini Robotics e Gemini Robotics-ER. Esses modelos, baseados no modelo de linguagem grande Gemini 2.0, incorporam capacidades de visão-linguagem-ação (VLA) e raciocínio espacial aprimorado. O Gemini Robotics permite que os robôs entendam e executem comandos complexos, como "pegue a banana e coloque-a na cesta", enquanto o Gemini Robotics-ER se concentra na integração perfeita com sistemas de controle de robôs existentes. Isso representa um avanço significativo na robótica, particularmente no manuseio de manipulações físicas complexas e na demonstração de fortes capacidades de generalização. O Google está em parceria com a Apptronik para construir a próxima geração de robôs humanoides usando o Gemini 2.0, mostrando o potencial de adoção generalizada. No entanto, o Google também enfatiza a segurança, lançando o conjunto de dados "ASIMOV" para ajudar os pesquisadores a avaliar as implicações de segurança das ações robóticas.

IA

Gemini 2.0 Flash: Modelo de Geração de Imagens Nativo do Google em Experimentação para Desenvolvedores

2025-03-12
Gemini 2.0 Flash: Modelo de Geração de Imagens Nativo do Google em Experimentação para Desenvolvedores

O Google lançou o Gemini 2.0 Flash, um modelo de IA multimodal com raciocínio aprimorado e compreensão de linguagem natural, capaz de gerar imagens. Ele pode criar histórias com texto e imagens, permitir edição de imagens por meio de conversas e gerar imagens com sequências de texto longas e bem formatadas. Disponível para experimentação por desenvolvedores no Google AI Studio e na API do Gemini, o Gemini 2.0 Flash promete possibilidades empolgantes para a criação de agentes de IA e aplicativos visualmente ricos.

Google DeepMind apresenta Gemini Robotics: Impulsionando a próxima geração de robôs

2025-03-12
Google DeepMind apresenta Gemini Robotics: Impulsionando a próxima geração de robôs

O Google DeepMind lançou dois novos modelos de IA baseados no Gemini 2.0: Gemini Robotics e Gemini Robotics-ER, permitindo que robôs realizem uma gama mais ampla de tarefas do mundo real. O Gemini Robotics é um modelo avançado de visão-linguagem-ação que controla diretamente robôs; o Gemini Robotics-ER possui compreensão espacial avançada, permitindo que roboticistas executem seus próprios programas usando as capacidades de raciocínio incorporado do Gemini. Ambos os modelos possuem generalidade, interatividade e destreza, lidando com diversas tarefas e ambientes, e colaborando melhor com humanos. O DeepMind também lançou um novo conjunto de dados, ASIMOV, para avaliar e melhorar a segurança semântica em IA incorporada e robótica, e está em parceria com empresas como a Apptronik para desenvolver a próxima geração de robôs humanoides.

Gemma do Google: Uma Família de Modelos Multimodais Leves

2025-03-12
Gemma do Google: Uma Família de Modelos Multimodais Leves

O Google revelou Gemma, uma família leve de modelos multimodais construídos com tecnologia Gemini. Os modelos Gemma 3 processam texto e imagens, possuem uma janela de contexto de 128K e suportam mais de 140 idiomas. Disponíveis em tamanhos de parâmetros de 1B, 4B, 12B e 27B, eles se destacam em tarefas como resposta a perguntas, resumo e raciocínio, enquanto seu design compacto permite a implantação em dispositivos com recursos limitados. Os resultados de referência demonstram um desempenho forte em várias tarefas, particularmente em capacidades multilíngues e multimodais.

Quebrando o Teto Algorítmico: Pré-treinamento Gerativo Eficiente com Correspondência de Momentos Indutiva (IMM)

2025-03-12
Quebrando o Teto Algorítmico: Pré-treinamento Gerativo Eficiente com Correspondência de Momentos Indutiva (IMM)

A Luma Labs apresenta o Inductive Moment Matching (IMM), uma nova técnica de pré-treinamento que aborda a estagnação na inovação algorítmica no pré-treinamento gerativo. O IMM supera significativamente os modelos de difusão em qualidade de amostra e eficiência de amostragem, obtendo um aumento de mais de dez vezes nesta última. Ao incorporar o passo de tempo de destino, o IMM aprimora a flexibilidade de cada iteração de inferência, superando as limitações da interpolação linear em modelos de difusão. Os experimentos demonstram pontuações FID de última geração no ImageNet e CIFAR-10, além de estabilidade de treinamento superior. Esta pesquisa representa um avanço significativo nos algoritmos de pré-treinamento gerativo, abrindo caminho para avanços futuros em modelos de base multimodais.

Novo modelo OCR do Mistral decepcionante; Google Gemini 2.0 assume a liderança

2025-03-11
Novo modelo OCR do Mistral decepcionante; Google Gemini 2.0 assume a liderança

Testes recentes mostram que o novo modelo OCR específico do Mistral não atende às suas promessas promocionais. Os desenvolvedores Willis e Doria destacaram problemas no tratamento de layouts complexos e de escrita manuscrita, incluindo repetição de nomes de cidades, erros numéricos e alucinações. Em contraste, o Google Gemini 2.0 Flash Pro Experimental se destaca, processando PDFs complexos que o Mistral não consegue, incluindo aqueles com conteúdo manuscrito. Sua grande janela de contexto é uma vantagem chave. Embora promissor, o OCR baseado em LLM sofre de problemas como fabricação de informações, interpretação incorreta de instruções e interpretação geral incorreta de dados.

IA
1 2 27 28 29 31 33 34 35 49 50