FastVLM da Apple: Modelo de Linguagem Visual Ultra-Rápido

2025-07-24
FastVLM da Apple: Modelo de Linguagem Visual Ultra-Rápido

Pesquisadores da Apple ML apresentaram o FastVLM, um novo Modelo de Linguagem Visual (VLM), no CVPR 2025. Abordando o trade-off entre precisão e eficiência inerente aos VLMs, o FastVLM utiliza um codificador de visão de arquitetura híbrida, FastViTHD, projetado para imagens de alta resolução. Isso resulta em um VLM significativamente mais rápido e preciso do que modelos comparáveis, permitindo aplicativos em tempo real em dispositivos e IA que preserva a privacidade. O FastViTHD gera tokens visuais de menor quantidade e maior qualidade, acelerando o pré-preenchimento do LLM. Um aplicativo de demonstração para iOS/macOS mostra as capacidades do FastVLM em dispositivos.

Leia mais

Apple Apresenta Novos Modelos de Linguagem Base Multilíngues e Multimodais

2025-07-18
Apple Apresenta Novos Modelos de Linguagem Base Multilíngues e Multimodais

A Apple apresentou dois novos modelos de linguagem base multilíngues e multimodais que alimentam os recursos de inteligência em seus dispositivos e servidores. Um modelo para dispositivos com aproximadamente 3 bilhões de parâmetros, otimizado para silício Apple, e um modelo de servidor escalável construído em um novo transformador Parallel-Track Mixture-of-Experts (PT-MoE). Ambos foram treinados em conjuntos de dados multilíngues e multimodais massivos, aprimorados com ajuste fino supervisionado e aprendizado por reforço. Eles suportam mais idiomas, compreensão de imagens e chamadas de ferramentas, igualando ou superando modelos open-source comparáveis. Uma nova estrutura centrada em Swift simplifica a integração para desenvolvedores.

Leia mais

TarFlow: Fluxos Normalizadores baseados em Transformer alcançam SOTA em Estimação de Probabilidade de Imagem

2025-06-28
TarFlow: Fluxos Normalizadores baseados em Transformer alcançam SOTA em Estimação de Probabilidade de Imagem

Pesquisadores apresentam TarFlow, um novo modelo de fluxo normalizador que utiliza Transformers e fluxos autorregressivos mascarados. O TarFlow estima densidade e gera imagens de forma eficiente, processando patches de imagens com blocos de Transformer autorregressivos, alternando a direção da autorregressão entre as camadas. Três técnicas-chave melhoram a qualidade das amostras: aumento de ruído gaussiano durante o treinamento, processo de desruído pós-treinamento e um método de orientação eficaz para geração condicional e incondicional de classes. O TarFlow alcança resultados de ponta na estimação de probabilidade de imagens, superando significativamente os métodos anteriores e gerando amostras com qualidade e diversidade comparáveis a modelos de difusão — uma primeira vez para um modelo de fluxo normalizador autônomo.

Leia mais
IA

Modelos de Raciocínio de Grande Escala: Colapso e Escalabilidade Contraintuitiva

2025-06-08
Modelos de Raciocínio de Grande Escala: Colapso e Escalabilidade Contraintuitiva

Modelos de linguagem de grande porte (LLMs) recentes geraram Modelos de Raciocínio de Grande Escala (LRMs), que geram rastros de raciocínio detalhados antes de fornecer respostas. Embora mostrem melhorias em benchmarks de raciocínio, suas capacidades fundamentais permanecem pouco compreendidas. Este trabalho investiga LRMs usando ambientes de quebra-cabeças controláveis, revelando um colapso completo de precisão além de um determinado limite de complexidade. Surpreendentemente, o esforço de raciocínio aumenta com a complexidade, depois diminui apesar de um orçamento de tokens suficiente. Comparados a LLMs padrão, três regimes emergiram: (1) tarefas de baixa complexidade onde LLMs padrão superam LRMs, (2) tarefas de média complexidade onde LRMs mostram uma vantagem, e (3) tarefas de alta complexidade onde ambos falham. LRMs exibem limitações em computação exata, falhando em usar algoritmos explícitos e raciocinando de forma inconsistente. Este estudo destaca os pontos fortes, limitações e questões cruciais em torno das verdadeiras capacidades de raciocínio de LRMs.

Leia mais
IA

A Abordagem da Apple para Melhoria da IA ​​com Preservação da Privacidade

2025-04-14
A Abordagem da Apple para Melhoria da IA ​​com Preservação da Privacidade

A Apple está comprometida com a privacidade do usuário, mesmo ao melhorar seus recursos de IA, como Genmoji, ferramentas de geração de imagens e ferramentas de escrita. Eles empregam privacidade diferencial, anonimizando dados do usuário para coletar apenas informações de tendência agregadas, como prompts populares do Genmoji. Para recursos de IA que manipulam textos mais longos, como e-mails, a Apple usa dados sintéticos. Isso gera dados sintéticos que imitam padrões de dados de usuários reais para treinamento e teste de modelos sem acessar o conteúdo real do e-mail. Isso permite que a Apple aprimore as experiências do produto, garantindo que a privacidade do usuário permaneça primordial.

Leia mais

Nova descoberta da Apple em IA: Controle preciso de modelos generativos com Transporte de Ativação (AcT)

2025-04-10
Nova descoberta da Apple em IA: Controle preciso de modelos generativos com Transporte de Ativação (AcT)

Pesquisadores de aprendizado de máquina da Apple desenvolveram o Transporte de Ativação (AcT), uma nova técnica que oferece controle preciso sobre grandes modelos generativos, incluindo LLMs e modelos de difusão de texto para imagem, sem o treinamento dispendioso de RLHF ou ajuste fino. O AcT direciona as ativações do modelo usando a teoria de transporte ótimo, alcançando controle agnóstico de modalidade com sobrecarga computacional mínima. Experimentos demonstram melhorias significativas na mitigação de toxicidade, indução de veracidade em LLMs e controle de estilo na geração de imagens. O AcT abre caminho para modelos generativos mais seguros e confiáveis.

Leia mais

SeedLM: Um Novo Método de Compressão de Pesos LLM Usando Geradores de Números Pseudo-Aleatórios

2025-04-06
SeedLM: Um Novo Método de Compressão de Pesos LLM Usando Geradores de Números Pseudo-Aleatórios

Os grandes modelos de linguagem (LLMs) são prejudicados por altos custos de tempo de execução, limitando sua implantação generalizada. Pesquisadores do Meta introduzem o SeedLM, um novo método de compressão pós-treinamento que usa sementes de um gerador de números pseudo-aleatórios para codificar e comprimir pesos de modelos. Durante a inferência, o SeedLM usa um Registro de Deslocamento de Realimentação Linear (LFSR) para gerar eficientemente uma matriz aleatória, combinada linearmente com coeficientes comprimidos para reconstruir blocos de pesos. Isso reduz o acesso à memória e aproveita ciclos de computação ociosos, acelerando tarefas limitadas por memória trocando computação por menos acessos à memória. Ao contrário dos métodos de última geração que exigem dados de calibração, o SeedLM não precisa de dados e generaliza bem em diversas tarefas. Experimentos no desafiador Llama 3 70B mostram precisão de zero-shot em compressão de 4 e 3 bits igualando ou excedendo os métodos de última geração, mantendo desempenho comparável aos benchmarks FP16. Testes em FPGA demonstram que o SeedLM de 4 bits se aproxima de uma aceleração de 4x em relação a um benchmark FP16 Llama 2/3 à medida que o tamanho do modelo aumenta.

Leia mais
IA