arXivLabs: Projetos Experimentais com Colaboradores da Comunidade

2025-02-03
arXivLabs: Projetos Experimentais com Colaboradores da Comunidade

arXivLabs é uma estrutura que permite a colaboradores desenvolverem e compartilharem novos recursos do arXiv diretamente em nosso site. Indivíduos e organizações que trabalham com o arXivLabs adotaram e aceitaram nossos valores de abertura, comunidade, excelência e privacidade dos dados do usuário. O arXiv está comprometido com esses valores e trabalha apenas com parceiros que os respeitam. Tem uma ideia para um projeto que agregará valor à comunidade do arXiv? Saiba mais sobre o arXivLabs.

Leia mais
Desenvolvimento Colaboração da Comunidade

arXivLabs: Projetos Experimentais com Colaboradores da Comunidade

2025-02-02
arXivLabs: Projetos Experimentais com Colaboradores da Comunidade

arXivLabs é uma estrutura que permite que colaboradores desenvolvam e compartilhem novos recursos do arXiv diretamente em nosso site. Indivíduos e organizações que trabalham com o arXivLabs adotaram e aceitaram nossos valores de abertura, comunidade, excelência e privacidade dos dados do usuário. O arXiv está comprometido com esses valores e trabalha apenas com parceiros que os respeitam. Tem uma ideia para um projeto que agregará valor à comunidade do arXiv? Saiba mais sobre o arXivLabs.

Leia mais

arXivLabs: Experimentos com recursos impulsionados pela comunidade

2025-02-01
arXivLabs: Experimentos com recursos impulsionados pela comunidade

arXivLabs é uma estrutura que permite a colaboradores desenvolverem e compartilharem novos recursos do arXiv diretamente no site. Participantes, tanto indivíduos quanto organizações, abraçam os valores do arXiv de abertura, comunidade, excelência e privacidade de dados do usuário. O arXiv está comprometido com esses valores e apenas se associa a aqueles que os compartilham. Tem uma ideia para um projeto que beneficiará a comunidade arXiv? Saiba mais sobre o arXivLabs.

Leia mais

arXivLabs: Colaboração da Comunidade em Recursos do arXiv

2025-02-01
arXivLabs: Colaboração da Comunidade em Recursos do arXiv

arXivLabs é uma estrutura experimental que permite que colaboradores desenvolvam e compartilhem novos recursos do arXiv diretamente no site. Os participantes devem aderir aos valores do arXiv de abertura, comunidade, excelência e privacidade dos dados do usuário. Tem alguma ideia para melhorar a comunidade arXiv? Saiba mais sobre o arXivLabs.

Leia mais
Desenvolvimento

arXivLabs: Projetos experimentais com colaboradores da comunidade

2025-02-01
arXivLabs: Projetos experimentais com colaboradores da comunidade

arXivLabs é uma estrutura que permite que colaboradores desenvolvam e compartilhem novos recursos do arXiv diretamente em nosso site. Indivíduos e organizações que trabalham com o arXivLabs adotaram e aceitaram nossos valores de abertura, comunidade, excelência e privacidade de dados do usuário. O arXiv está comprometido com esses valores e trabalha apenas com parceiros que os respeitam. Tem uma ideia para um projeto que agregará valor à comunidade do arXiv? Saiba mais sobre o arXivLabs.

Leia mais
Tecnologia

arXivLabs: Desenvolvimento de recursos do arXiv impulsionado pela comunidade

2025-02-01
arXivLabs: Desenvolvimento de recursos do arXiv impulsionado pela comunidade

arXivLabs é uma estrutura que permite a colaboradores desenvolverem e compartilharem novos recursos do arXiv diretamente no site. Participantes, indivíduos e organizações, abraçam os valores do arXiv de abertura, comunidade, excelência e privacidade dos dados do usuário. O arXiv está comprometido com esses valores e somente se associa a aqueles que os compartilham. Tem alguma ideia para melhorar a comunidade do arXiv? Saiba mais sobre o arXivLabs.

Leia mais
Desenvolvimento

arXivLabs: Projetos Experimentais com Colaboradores da Comunidade

2025-01-31
arXivLabs: Projetos Experimentais com Colaboradores da Comunidade

arXivLabs é uma estrutura que permite que colaboradores desenvolvam e compartilhem novos recursos do arXiv diretamente em nosso site. Indivíduos e organizações que trabalham com o arXivLabs adotaram e aceitaram nossos valores de abertura, comunidade, excelência e privacidade de dados do usuário. O arXiv está comprometido com esses valores e trabalha apenas com parceiros que os respeitam. Tem uma ideia para um projeto que agregará valor à comunidade do arXiv? Saiba mais sobre o arXivLabs.

Leia mais
Desenvolvimento projetos experimentais

arXivLabs: Experimentos com Colaboração da Comunidade

2025-01-31
arXivLabs: Experimentos com Colaboração da Comunidade

arXivLabs é uma estrutura que permite a colaboradores desenvolverem e compartilharem novos recursos diretamente no site do arXiv. Indivíduos e organizações que trabalham com o arXivLabs adotaram e aceitaram nossos valores de abertura, comunidade, excelência e privacidade de dados do usuário. O arXiv está comprometido com esses valores e trabalha apenas com parceiros que os respeitam. Tem uma ideia para um projeto que agregará valor à comunidade do arXiv? Saiba mais sobre o arXivLabs.

Leia mais
Desenvolvimento plataforma aberta

arXivLabs: Projetos Experimentais com Colaboradores da Comunidade

2025-01-31
arXivLabs: Projetos Experimentais com Colaboradores da Comunidade

arXivLabs é uma estrutura que permite a colaboradores desenvolverem e compartilharem novos recursos do arXiv diretamente em nosso site. Indivíduos e organizações que trabalham com o arXivLabs adotaram e aceitaram nossos valores de abertura, comunidade, excelência e privacidade dos dados do usuário. O arXiv está comprometido com esses valores e trabalha apenas com parceiros que os respeitam. Tem uma ideia para um projeto que agregará valor à comunidade do arXiv? Saiba mais sobre o arXivLabs.

Leia mais
Desenvolvimento colaboração da comunidade

Um Algoritmo de Transformada Quântica de Fourier Mais Rápido

2025-01-27
Um Algoritmo de Transformada Quântica de Fourier Mais Rápido

Ronit Shah apresenta um algoritmo aprimorado para a Transformada Quântica de Fourier (QFT). Tradicionalmente, a QFT aproximada requer Θ(n log n) portas, e a QFT exata requer Θ(n²) portas. O novo algoritmo, utilizando uma nova partição recursiva de qubits, reduz o custo da QFT aproximada para Θ(n(log log n)²) portas e da QFT exata para Θ(n(log n)²) portas. Essa descoberta promete ganhos significativos de eficiência na computação quântica.

Leia mais

DeepSeek-R1: Incentivando a capacidade de raciocínio em LLMs por meio de aprendizado por reforço

2025-01-25
DeepSeek-R1: Incentivando a capacidade de raciocínio em LLMs por meio de aprendizado por reforço

A DeepSeek-AI apresenta seus modelos de raciocínio de primeira geração, DeepSeek-R1-Zero e DeepSeek-R1. O DeepSeek-R1-Zero, um modelo treinado por meio de aprendizado por reforço (RL) em larga escala sem ajuste fino supervisionado (SFT) como etapa preliminar, demonstra notáveis capacidades de raciocínio. Através do RL, o DeepSeek-R1-Zero emerge naturalmente com diversos comportamentos de raciocínio poderosos e intrigantes. No entanto, ele encontra desafios como pouca legibilidade e mistura de idiomas. Para resolver esses problemas e melhorar ainda mais o desempenho do raciocínio, apresentamos o DeepSeek-R1, que incorpora treinamento em várias etapas e dados de inicialização a frio antes do RL. O DeepSeek-R1 alcança desempenho comparável ao OpenAI-o1-1217 em tarefas de raciocínio. Para apoiar a comunidade de pesquisa, disponibilizamos como código aberto o DeepSeek-R1-Zero, DeepSeek-R1 e seis modelos densos (1.5B, 7B, 8B, 14B, 32B, 70B) destilados do DeepSeek-R1 com base em Qwen e Llama.

Leia mais

Fundamentos de Modelos de Linguagem Grandes: Um Novo Livro Desvendando Conceitos Essenciais

2025-01-23
Fundamentos de Modelos de Linguagem Grandes: Um Novo Livro Desvendando Conceitos Essenciais

Um novo livro, "Fundamentos de Modelos de Linguagem Grandes", foi lançado. Em vez de buscar uma cobertura abrangente das tecnologias de ponta, ele mergulha nos conceitos fundamentais essenciais dos modelos de linguagem grandes. Estruturado em quatro capítulos que abordam pré-treinamento, modelos generativos, técnicas de prompt e métodos de alinhamento, o livro é voltado para estudantes universitários, profissionais e praticantes em processamento de linguagem natural e áreas relacionadas. Serve como uma referência valiosa para qualquer pessoa interessada em LLMs.

Leia mais
IA

Compressão sem perdas de IDs de vetores melhora a busca aproximada de vizinhos mais próximos

2025-01-23
Compressão sem perdas de IDs de vetores melhora a busca aproximada de vizinhos mais próximos

Pesquisadores introduzem um esquema de compressão sem perdas para IDs de vetores para resolver o alto custo de armazenamento de índices na busca aproximada de vizinhos mais próximos. Aproveitando o fato de que a ordem dos IDs é irrelevante em muitas estruturas de índice e utilizando sistemas numéricos assimétricos ou árvores wavelet, o método alcança até 7x de compressão de IDs de vetores sem impactar a precisão ou o tempo de execução da busca. Isso resulta em uma redução de 30% no tamanho do índice para conjuntos de dados em escala de bilhões. Além disso, a abordagem também pode comprimir sem perdas códigos de vetores quantizados, explorando sub-otimalidades no algoritmo de quantização original.

Leia mais

FLAME: Um modelo de linguagem pequeno para fórmulas de planilhas

2025-01-22
FLAME: Um modelo de linguagem pequeno para fórmulas de planilhas

Modelos de linguagem grandes são caros para treinar e implantar para auxiliar na criação de fórmulas do Excel. Este artigo apresenta o FLAME, um modelo baseado em Transformer treinado exclusivamente em fórmulas do Excel. Com apenas 60 milhões de parâmetros e uma fração dos dados de treinamento usados por modelos maiores, o FLAME atinge desempenho competitivo ou até mesmo superior em tarefas de reparo, conclusão e recuperação de fórmulas em comparação com modelos como Codex e CodeT5. Isso é atribuído aos seus novos objetivos de pré-treinamento e tokenizador específico do Excel.

Leia mais
Desenvolvimento fórmula

Atenção por Produto Tensorial: Tudo o que você precisa

2025-01-22
Atenção por Produto Tensorial: Tudo o que você precisa

Escalonar modelos de linguagem para lidar com sequências de entrada mais longas geralmente requer grandes caches de chave-valor (KV), resultando em grande sobrecarga de memória durante a inferência. Este artigo propõe a Atenção por Produto Tensorial (TPA), um novo mecanismo de atenção que usa decomposições tensoriais para representar consultas, chaves e valores de forma compacta, reduzindo significativamente o tamanho do cache KV durante a inferência. Ao fatorar essas representações em componentes de baixo posto contextuais (fatoração contextual) e integrando-as perfeitamente com RoPE, a TPA melhora a qualidade do modelo mantendo a eficiência de memória. Com base na TPA, os autores introduzem o Transformador de Atenção por Produto Tensorial (T6), uma nova arquitetura de modelo para modelagem de sequência. Uma avaliação empírica extensiva em tarefas de modelagem de linguagem demonstra que o T6 supera os modelos base padrão do Transformer, incluindo MHA, MQA, GQA e MLA, em várias métricas, incluindo perplexidade e uma variedade de benchmarks de avaliação conhecidos. Notavelmente, a eficiência de memória da TPA permite o processamento de sequências significativamente mais longas sob restrições de recursos fixas, abordando um desafio crítico de escalabilidade em modelos de linguagem modernos. O código está disponível.

Leia mais

ELIZA Reanimada: O Primeiro Chatbot do Mundo Restaurado

2025-01-18
ELIZA Reanimada: O Primeiro Chatbot do Mundo Restaurado

Pesquisadores ressuscitaram com sucesso a ELIZA, considerada o primeiro chatbot do mundo, em um CTSS restaurado — o primeiro sistema de tempo compartilhado do mundo (emulado em um IBM 7094). Usando impressões originais, código MAD-SLIP e documentos de suporte encontrados nos arquivos do Prof. Weizenbaum no MIT, eles recriaram a ELIZA e seu famoso script DOCTOR. Todo o projeto é de código aberto, permitindo que qualquer pessoa com um sistema operacional semelhante ao Unix execute o revolucionário chatbot.

Leia mais
IA

Desvendando a Matemática por trás do Jogo de Palavras Diário do NYT 'Waffle'

2025-01-17
Desvendando a Matemática por trás do Jogo de Palavras Diário do NYT 'Waffle'

Um artigo no arXiv explora a matemática por trás do jogo de palavras diário do New York Times, Waffle. O autor S.P. Glasby investiga as propriedades combinatórias do jogo, explicando por que alguns quebra-cabeças são fáceis, enquanto outros são excepcionalmente difíceis. A pesquisa revela que uma solução perfeita requer precisamente 11 órbitas entre os 21 quadrados, com pelo menos uma órbita de comprimento 1. Isso fornece uma estrutura matemática para entender e potencialmente melhorar quebra-cabeças de palavras semelhantes.

Leia mais
Jogos

Titans: Uma Nova Arquitetura Neural para Aprendizado de Memorização em Tempo de Teste

2025-01-16
Titans: Uma Nova Arquitetura Neural para Aprendizado de Memorização em Tempo de Teste

Pesquisadores apresentam Titans, uma nova arquitetura neural que combina um módulo de memória neural com um mecanismo de atenção para memorizar efetivamente o contexto histórico de longo prazo. Ao contrário dos modelos recorrentes tradicionais e mecanismos de atenção, Titans demonstra eficiência e precisão superiores no manuseio de sequências longas, especialmente em tarefas de "encontrar uma agulha em um palheiro". Ele supera os Transformers e os modelos recorrentes lineares recentes em várias tarefas, incluindo modelagem de linguagem, raciocínio de senso comum, genômica e séries temporais, e escala para janelas de contexto superiores a 2 milhões de tokens.

Leia mais

Rumo ao Raciocínio do Sistema 2 em LLMs: Aprendendo a Pensar com Meta Chain-of-Thought

2025-01-10
Rumo ao Raciocínio do Sistema 2 em LLMs: Aprendendo a Pensar com Meta Chain-of-Thought

Os pesquisadores propõem uma nova estrutura, Meta Chain-of-Thought (Meta-CoT), que estende o Chain-of-Thought (CoT) tradicional modelando explicitamente o raciocínio subjacente necessário para chegar a um determinado CoT. A Meta-CoT utiliza supervisão de processo, geração de dados sintéticos e algoritmos de busca. O artigo descreve um pipeline de treinamento que incorpora ajuste de instruções com rastros de busca linearizados e aprendizado por reforço. Este trabalho fornece um roteiro para habilitar Meta-CoT em LLMs, prometendo um raciocínio mais poderoso e semelhante ao humano em IA.

Leia mais

Desafiando o Teorema CAP: Uma Conjectura de Progresso Parcial sob Assincronia

2025-01-08
Desafiando o Teorema CAP: Uma Conjectura de Progresso Parcial sob Assincronia

Um novo artigo desafia o conhecido teorema CAP. Os autores conjecturam que o progresso parcial é possível sob partições de rede, significando que o sistema pode permanecer responsivo a um subconjunto de clientes e atingir uma taxa de transferência diferente de zero durante falhas. Eles apresentam o design de seu protocolo de consenso CASSANDRA, permitindo que réplicas particionadas ordenem solicitações de clientes, oferecendo potencialmente um caminho para sistemas que são consistentes e disponíveis em certa medida, mesmo durante partições. Esta pesquisa oferece uma abordagem nova para construir sistemas distribuídos mais robustos.

Leia mais

Uma Década de Revisão: Mergulhando na Detecção de Anomalias em Séries Temporais

2025-01-06
Uma Década de Revisão: Mergulhando na Detecção de Anomalias em Séries Temporais

Avanços na tecnologia de coleta de dados e a explosão de dados em streaming destacam a necessidade crucial de análise de séries temporais. Este artigo fornece uma revisão de uma década sobre a detecção de anomalias em séries temporais, abrangendo métodos desde medidas estatísticas tradicionais até o aumento de algoritmos de aprendizado de máquina. Apresenta uma taxonomia centrada em processos para categorizar e resumir as soluções existentes, oferecendo uma meta-análise da literatura e destacando as tendências gerais no campo. Esta pesquisa abrangente serve como um recurso valioso para pesquisadores.

Leia mais

Cientistas decifram o código do Cacio e Pepe perfeito

2025-01-04
Cientistas decifram o código do Cacio e Pepe perfeito

Uma equipe de cientistas mergulhou na arte culinária, especificamente no prato clássico italiano Cacio e Pepe, para desvendar os segredos por trás de sua textura cremosa perfeita. Sua pesquisa revelou a concentração de amido como o fator chave que influencia a estabilidade do molho. Níveis de amido abaixo de 1% (em relação à massa do queijo) levam à formação de grumos, um fenômeno denominado "Fase Mozzarella", resultando em um molho separado e desagradável. O estudo também explorou o impacto das proporções de queijo e água em um nível fixo de amido, observando uma temperatura crítica de solução inferior e desenvolvendo um modelo de energia livre eficaz mínimo para explicá-lo. Por fim, eles apresentaram uma receita otimizada cientificamente, garantindo um Cacio e Pepe impecável consistentemente.

Leia mais

Reproduzindo o OpenAI o1: Um Roteiro a partir da Perspectiva do Aprendizado por Reforço

2025-01-03
Reproduzindo o OpenAI o1: Um Roteiro a partir da Perspectiva do Aprendizado por Reforço

Um novo artigo explora o caminho para reproduzir o enigmático modelo o1 da OpenAI, a partir da perspectiva do aprendizado por reforço. Os pesquisadores argumentam que a poderosa capacidade de raciocínio do o1 não se deve a uma única técnica, mas sim à sinergia de quatro componentes-chave: inicialização da política, design de recompensa, busca e aprendizado. A inicialização da política equipa o modelo com raciocínio semelhante ao humano; o design de recompensa fornece sinais densos e eficazes que orientam a busca e o aprendizado; a busca gera soluções de alta qualidade durante o treinamento e os testes; o aprendizado utiliza dados da busca para melhorar a política, atingindo, finalmente, um desempenho melhor. Este artigo oferece insights valiosos para entender e reproduzir o o1, fornecendo novas vias para o desenvolvimento de LLMs.

Leia mais

4,5 Milhões de Estrelas Falsas no GitHub: Uma Competição de Popularidade Sombria

2025-01-02
4,5 Milhões de Estrelas Falsas no GitHub: Uma Competição de Popularidade Sombria

Um novo estudo revela 4,5 milhões de estrelas falsas suspeitas no GitHub, usadas principalmente para promover repositórios de malware de curta duração disfarçados de softwares piratas, trapaças de jogos ou bots de criptomoedas. Os pesquisadores desenvolveram o StarScout, uma ferramenta para detectar comportamentos anômalos de estrelas. O estudo mostra um aumento rápido na atividade de estrelas falsas desde 2024. Embora os usuários que dão estrelas falsas não difiram significativamente dos usuários médios em termos de características de perfil, seus padrões de atividade são altamente anormais. Embora ofereçam benefícios promocionais de curto prazo, as estrelas falsas acabam se tornando um fardo a longo prazo. Esta pesquisa tem implicações significativas para moderadores de plataformas, praticantes de código aberto e pesquisadores de segurança da cadeia de suprimentos.

Leia mais
Tecnologia

TinyStories: Modelos de linguagem pequenos ainda podem falar inglês coerente?

2025-01-02
TinyStories: Modelos de linguagem pequenos ainda podem falar inglês coerente?

Pesquisadores apresentam o TinyStories, um conjunto de dados sintético de histórias curtas usando apenas vocabulário compreendido por crianças típicas de 3 a 4 anos, gerado por GPT-3.5 e GPT-4. Eles demonstram que modelos de linguagem treinados em TinyStories, mesmo aqueles com menos de 10 milhões de parâmetros e arquiteturas simples (um único bloco transformador), podem gerar histórias de vários parágrafos fluentes e coerentes, exibindo gramática e raciocínio surpreendentemente bons. Isso desafia a noção de que a geração de texto coerente requer modelos massivos e arquiteturas complexas e introduz um novo paradigma de avaliação usando GPT-4 para classificar histórias geradas como um professor humano, superando as limitações dos benchmarks padrão.

Leia mais

Engenharia de Ativação: Manipulando Traços de Personalidade em LLMs

2024-12-31
Engenharia de Ativação: Manipulando Traços de Personalidade em LLMs

Um artigo no arXiv explora um novo método para identificar e manipular traços de personalidade em modelos de linguagem grandes (LLMs) usando 'engenharia de ativação'. Inspirado em pesquisas anteriores sobre recusa e direcionamento de LLMs, os pesquisadores propõem uma técnica para ajustar direções de ativação ligadas a traços de personalidade, permitindo o ajuste fino dinâmico da personalidade do LLM. Este trabalho contribui para uma melhor compreensão da interpretabilidade do LLM, ao mesmo tempo em que levanta considerações éticas cruciais.

Leia mais

Além da Média de Gradientes em Otimização Paralela: Robustez Aprimorada por meio de Filtragem de Concordância de Gradientes

2024-12-30
Além da Média de Gradientes em Otimização Paralela: Robustez Aprimorada por meio de Filtragem de Concordância de Gradientes

Este artigo apresenta a Filtragem de Concordância de Gradientes (FCG), um novo método para melhorar a média de gradientes na otimização de aprendizado profundo distribuído. Métodos tradicionais somam gradientes de microbatches para calcular um gradiente de macrobatch, mas isso pode levar a gradientes ortogonais ou negativamente correlacionados nos estágios posteriores do treinamento, resultando em overfitting. A FCG reduz a variância do gradiente calculando a distância do cosseno entre microgradientes e filtrando atualizações conflitantes antes da média. Experimentos em benchmarks de classificação de imagens como CIFAR-100 e CIFAR-100N-Fine mostram que a FCG melhora significativamente a precisão de validação, mesmo com tamanhos de microbatch menores, alcançando até 18,2% de melhoria em relação às abordagens tradicionais, ao mesmo tempo em que reduz o custo computacional.

Leia mais

Avaliando a capacidade de geração de código de LLMs: Apresentando o MultiCodeBench

2024-12-30
Avaliando a capacidade de geração de código de LLMs: Apresentando o MultiCodeBench

Assistentes de programação baseados em IA e alimentados por Large Language Models (LLMs) de código tornaram-se cada vez mais comuns, aumentando significativamente a produtividade dos desenvolvedores. No entanto, os benchmarks existentes de geração de código focam principalmente em cenários de uso geral, deixando o desempenho dos LLMs em domínios de aplicativos específicos em grande parte desconhecido. Este artigo apresenta o MultiCodeBench, um novo benchmark composto por 2.400 tarefas de programação em 12 domínios populares de desenvolvimento de software e 15 linguagens de programação. Experimentos em onze LLMs principais revelam seu desempenho na geração de código em diferentes domínios, oferecendo insights práticos para desenvolvedores na seleção de LLMs e orientação para desenvolvedores de modelos para melhorar as capacidades de geração de código específicas do domínio.

Leia mais
Desenvolvimento Geração de Código

Avanço na Avaliação de Modelos de Linguagem Grandes para Geração de Testes Unitários

2024-12-30
Avanço na Avaliação de Modelos de Linguagem Grandes para Geração de Testes Unitários

Pesquisadores realizaram uma avaliação abrangente do potencial de Modelos de Linguagem Grandes (LLMs) na automação da geração de testes unitários. Eles compararam o desempenho de cinco LLMs de código aberto contra o GPT-4 de código fechado e a ferramenta tradicional Evosuite em 17 projetos Java, investigando o impacto de diferentes estratégias de prompt. O estudo descobriu que os LLMs de código aberto oferecem vantagens em privacidade de dados e superam em desempenho em determinadas tarefas, mas também revelou limitações na geração de testes unitários baseada em LLM. Esta pesquisa fornece insights valiosos para orientar aplicações futuras de LLMs nessa área.

Leia mais
Desenvolvimento Testes Unitários

Confusão de Identidade em LLMs: Uma Crise de Confiança Emerge

2024-12-30
Confusão de Identidade em LLMs: Uma Crise de Confiança Emerge

Um estudo recente revela a disseminação de "confusão de identidade" em Modelos de Linguagem Grandes (LLMs). Os pesquisadores descobriram que mais de 25% dos LLMs apresentam deturpação de suas origens ou identidades, principalmente devido a alucinações do modelo, em vez de replicação ou reutilização. Essa confusão de identidade erode significativamente a confiança do usuário, especialmente em tarefas críticas como educação e uso profissional, superando o impacto negativo de erros lógicos. As descobertas destacam os riscos sistêmicos apresentados pela confusão de identidade de LLM e pedem maior atenção à confiabilidade e credibilidade do modelo.

Leia mais
1 2 3 4 5 6 7 9