Avaliações não são suficientes: as limitações da avaliação de LLMs

2025-03-03

Este artigo critica a prática comum de depender de avaliações para garantir o desempenho de software de Modelos de Linguagem Grandes (LLMs). Embora reconheça o papel das avaliações na comparação de diferentes modelos base e testes unitários, o autor destaca várias falhas críticas em sua aplicação no mundo real: dificuldade em criar conjuntos de dados de teste abrangentes; limitações dos métodos de pontuação automatizados; a inadequação de avaliar apenas o modelo base sem considerar o desempenho de todo o sistema; e o mascaramento de erros graves pela média dos resultados da avaliação. O autor argumenta que as avaliações não conseguem resolver o problema inerente de "cauda longa" dos LLMs, em que situações inesperadas sempre surgem na produção. Por fim, o artigo apela por uma mudança nas práticas de desenvolvimento de LLMs, defendendo uma mudança de depender exclusivamente de avaliações para priorizar testes de usuários e testes de sistema mais abrangentes.

Leia mais
IA

arXivLabs: Experimentos com Colaboração da Comunidade

2025-03-03
arXivLabs: Experimentos com Colaboração da Comunidade

arXivLabs é uma estrutura para desenvolver e compartilhar novos recursos do arXiv diretamente no site, incentivando a colaboração entre indivíduos e organizações. Os participantes devem aderir aos valores do arXiv de abertura, comunidade, excelência e privacidade dos dados do usuário. Tem uma ideia para melhorar a comunidade arXiv? Saiba mais sobre o arXivLabs.

Leia mais
Desenvolvimento

O Dilema Acadêmico e a Transformação de um Programador

2025-03-03

Um programador sênior que leciona em uma universidade britânica, após seis anos de carreira acadêmica em tempo integral, sente-se sufocado pelo sistema atual e incapaz de utilizar plenamente seus talentos. Ele decidiu mudar para um cargo em meio período para ter mais tempo para seus projetos de paixão em programação e escrita. Ele planeja complementar sua renda com consultoria e crowdfunding, buscando apoio para escapar de seu estado atual de mediocridade e redescobrir sua paixão e criatividade. Ele considera o ambiente acadêmico atual excessivamente focado em métricas, negligenciando a qualidade e o valor, o que entra em conflito com seus próprios valores. Sua transformação visa um melhor equilíbrio entre trabalho e vida e uma contribuição mais impactante para a sociedade.

Leia mais
Desenvolvimento dificuldades acadêmicas

Hackeando o Hypervisor do Xbox 360: A Exploração de Atualização Incorreta

2025-03-03
Hackeando o Hypervisor do Xbox 360: A Exploração de Atualização Incorreta

Esta postagem de blog detalha a jornada do autor para explorar vulnerabilidades no hypervisor do Xbox 360, culminando em uma nova exploração apelidada de "Bad Update". Anos após as tentativas iniciais, aproveitando a nova experiência em engenharia de segurança, o autor analisou meticulosamente o hypervisor por meio de engenharia reversa, focando em chamadas de sistema e alocações de memória criptografadas. Manipulando inteligentemente o texto cifrado e explorando uma condição de corrida em uma rotina de descompressão LZX em uma carga útil de atualização do sistema, eles conseguiram a execução de código em nível de hypervisor. O processo envolveu superar inúmeros obstáculos, incluindo problemas de cache e desafios de sincronização de threads, demonstrando técnicas inovadoras em pesquisa de vulnerabilidades.

Leia mais
Desenvolvimento Exploração de Hypervisor

A crise econômica do Reino Unido: as algemas do planejamento e da construção

2025-03-03
A crise econômica do Reino Unido: as algemas do planejamento e da construção

O Reino Unido, berço da Revolução Industrial, está lutando contra a escassez de energia e uma crise de custo de vida. Um novo relatório, "Foundations", revela que a causa raiz está em seu complexo sistema de planejamento e construção. A nacionalização do pós-guerra e leis rigorosas de planejamento urbano levaram à escassez de moradias, preços altos, falta de moradias para a classe média e aumento das tensões sociais. Em termos de energia, o Reino Unido enfrenta gargalos de políticas na produção de energia nuclear e gás, resultando em altos custos de energia. Os autores argumentam que o Reino Unido precisa de reforma de planejamento, menos ações judiciais contra o crescimento e incentivo direto à produção de energia para revitalizar sua economia.

Leia mais
Tecnologia Crise de Energia

Bocoup se torna cooperativa de trabalhadores: foco em tecnologia de interesse público

2025-03-03

A consultoria de software Bocoup tornou-se uma cooperativa de trabalhadores, com cada membro da equipe se tornando um coproprietário. Eles estão aprimorando seu foco no desenvolvimento de tecnologia resistente à captura, que preserva a privacidade e serve ao interesse público, mantendo seu compromisso com interoperabilidade, acessibilidade e testes robustos. A Bocoup mantém sua entidade corporativa existente, o que significa que os contratos existentes permanecem inalterados, e eles estão comprometidos em atender clientes focados no interesse público. Eles defendem a igualdade salarial, semanas de trabalho de quatro dias e crescimento pessoal, buscando construir um modelo de prosperidade mais equitativo.

Leia mais

Ex-CTO da SAP recebe €7,1 milhões após alegações de assédio sexual

2025-03-03
Ex-CTO da SAP recebe €7,1 milhões após alegações de assédio sexual

O ex-CTO da SAP, Jürgen Müller, recebeu uma indenização de €7,1 milhões após deixar a empresa devido a alegações de assédio sexual. O incidente ocorreu em um evento da empresa, e Müller admitiu comportamento inadequado e pediu desculpas. A investigação foi concluída, resultando em um acordo mútuo para sua saída. Enquanto isso, outros executivos, Scott Russell e Julia White, receberam indenizações de €12,6 milhões e €9 milhões, respectivamente. Apesar dessas saídas de alto perfil e pagamentos significativos, a SAP relatou resultados fortes em 2024, com receita de nuvem e software atingindo €29,96 bilhões e lucro operacional superando as expectativas. O preço das ações da SAP também aumentou aproximadamente 50% no último ano.

Leia mais

Mastigar objetos duros aumenta os níveis de GSH no cérebro e melhora a cognição?

2025-03-03

Um estudo coreano descobriu que mastigar objetos duros (como blocos de madeira) aumenta significativamente os níveis de glutationa (GSH) no córtex cingulado anterior do cérebro. GSH é um antioxidante crucial, e níveis mais altos estão associados a um melhor desempenho de memória. Em contraste, mastigar chiclete não mostrou efeito significativo nos níveis de GSH. Os pesquisadores sugerem que o aumento do fluxo sanguíneo cerebral devido à mastigação de objetos duros pode estimular a síntese de GSH. Este estudo propõe uma maneira simples de aumentar as defesas antioxidantes do cérebro, mas são necessárias mais pesquisas para validar sua eficácia em diferentes grupos etários e regiões cerebrais.

Leia mais

TSMC a investir US$ 100 bilhões em fábricas de chips nos EUA

2025-03-03
TSMC a investir US$ 100 bilhões em fábricas de chips nos EUA

A Taiwan Semiconductor Manufacturing Co. (TSMC) planeja investir US$ 100 bilhões na construção de fábricas de fabricação de chips de última geração nos EUA nos próximos quatro anos. Esse investimento maciço visa impulsionar os esforços dos EUA para reviver sua indústria doméstica de semicondutores, uma meta perseguida por décadas, à medida que a fabricação se transferiu principalmente para a Ásia.

Leia mais

Mapas do século XV? O surpreendente mapa de Piri Reis

2025-03-03
Mapas do século XV? O surpreendente mapa de Piri Reis

Em 1929, um teólogo alemão descobriu acidentalmente um mapa de pergaminho de pele de gazela no Palácio Topkapi, em Istambul – o mapa de Piri Reis, criado por um almirante otomano do século XIV. Este mapa representa as linhas costeiras da América do Sul e da África com precisão notável, até mesmo insinuando a Antártica, desafiando a tecnologia da época. Compilado a partir de pelo menos 20 fontes, possivelmente incluindo um mapa de Colombo, o mapa de Piri Reis não era apenas arte; ele utilizava cartografia portuária sofisticada com rosas dos ventos e linhas de navegação, deixando os cientistas modernos perplexos com sua precisão. Ele mostra o auge da navegação medieval e exemplifica o poder da troca cultural e da engenhosidade humana.

Leia mais
Diversos

Smartest Kid: Assistente de IA para desktop Windows em Python

2025-03-03
Smartest Kid: Assistente de IA para desktop Windows em Python

Apresentamos o Smartest Kid, um assistente de IA para desktop Windows desenvolvido em Python! Inspirado no SmarterChild, ele possui uma interface de bate-papo simples e limpa e usa a automação COM do Windows para interagir com o Microsoft Office (Word, Excel), imagens e seu sistema de arquivos. Perfeito para usuários do Windows que exploram a automação de desktop com tecnologia de IA. O projeto é de código aberto e aceita contribuições para expandir sua funcionalidade e personalidade.

Leia mais

A Era de Ouro dos Lápis Japoneses: Uma Rivalidade Secular

2025-03-03
A Era de Ouro dos Lápis Japoneses: Uma Rivalidade Secular

Em 1952, a Tombow Pencil revolucionou a indústria japonesa de lápis com seu lápis HOMO, apresentando um núcleo homogêneo e cedro de incenso de alta qualidade. Seu preço significativamente mais alto provocou uma competição acirrada com a Mitsubishi Pencil, levando a uma 'Era de Ouro' de inovação. Ambas as empresas lançaram lápis icônicos como o Uni da Mitsubishi e o MONO da Tombow, expandindo os limites da tecnologia e do design de lápis. Essa rivalidade exemplifica a dedicação à qualidade e à inovação que definiu a manufatura japonesa.

Leia mais
Diversos Lápis Japoneses

Implementação Go de alta performance de mecanismos de atenção e camadas Transformer

2025-03-03
Implementação Go de alta performance de mecanismos de atenção e camadas Transformer

A equipe de Pesquisa de Fronteira da takara.ai apresenta a primeira implementação pura em Go de mecanismos de atenção e camadas Transformer, priorizando alto desempenho e facilidade de uso. Esta biblioteca inclui atenção de produto escalar, atenção multi-cabeça e uma implementação completa da camada Transformer, com operações em lote para melhor desempenho e operações de matriz otimizadas para CPU. Ideal para computação de borda, processamento em tempo real, aplicativos nativos em nuvem, sistemas embarcados e implantações de produção. Melhorias futuras incluem codificação posicional, dropout e aceleração CUDA.

Leia mais
Desenvolvimento Mecanismos de Atenção

Repensando o SQLite: Surpreendentemente poderoso em hiperescala

2025-03-03
Repensando o SQLite: Surpreendentemente poderoso em hiperescala

Ao contrário da crença popular, o SQLite não é apenas para aplicativos pequenos. Este artigo argumenta que serviços como Cloudflare Durable Objects e Turso liberam o potencial do SQLite em hiperescala. Essas plataformas atribuem bancos de dados SQLite por entidade, substituindo as complexidades dos bancos de dados particionados. Essa abordagem resolve problemas como esquemas rígidos, alterações de esquema difíceis e operações complexas entre partições. Embora ainda existam desafios — falta de solução open-source auto-hospedada e protocolos padronizados —, a conformidade ACID do SQLite, E/S eficiente e extensões SQL ricas o tornam uma alternativa convincente aos bancos de dados particionados tradicionais.

Leia mais
Desenvolvimento Computação em nuvem

O Vasa: Um Naufrágio de 333 Anos Resgatado das Profundezas

2025-03-03
O Vasa: Um Naufrágio de 333 Anos Resgatado das Profundezas

Este artigo conta a incrível história do Vasa, um magnífico navio de guerra sueco que afundou em sua viagem inaugural em 1628 e permaneceu submerso por 333 anos. O engenheiro Anders Franzén, após cinco anos de busca, localizou e liderou a ambiciosa operação de recuperação. O desafiador processo de salvamento, envolvendo técnicas inovadoras e anos de trabalho minucioso, é detalhado. Hoje, o Vasa, notavelmente preservado, representa um testemunho da construção naval do século XVII e uma importante atração turística na Escandinávia, abrigado em seu próprio museu.

Leia mais
Tecnologia Salvamento Museu

agents.json: Simplificando a Interação de Agentes de IA com APIs

2025-03-03
agents.json: Simplificando a Interação de Agentes de IA com APIs

A Wildcard AI apresenta a especificação agents.json, projetada para otimizar a interação de agentes de IA com APIs. Construída sobre o padrão OpenAPI, ela aborda o desafio de agentes de IA executarem sequências de chamadas de API de várias etapas, adicionando recursos como fluxos e links. O arquivo agents.json descreve os endpoints da API e suas interações, permitindo a execução confiável de chamadas de API por agentes de IA. O pacote Python Wildcard Bridge fornece funcionalidade para carregar, analisar e executar arquivos agents.json, permitindo que os desenvolvedores integrem perfeitamente agentes de IA com APIs simplesmente adicionando um arquivo agents.json.

Leia mais
Desenvolvimento interação com API

Compressão Insana: Reduzindo 10 GB de Dados de Trânsito RATP para 530 KB com Rust

2025-03-03

Este projeto de fim de semana começou navegando no repositório de dados abertos da rede de transporte público de Paris. O autor notou uma seção sobre reutilização de dados, com projetos externos usando esses dados abertos, particularmente o site de status da RATP, que visualiza interrupções históricas. O repositório GitHub contém arquivos JSON consultados a cada 2 minutos por quase um ano, totalizando mais de 10 GB. O autor se perguntou se isso poderia ser melhor comprimido. Esta publicação detalha como eles usaram o padrão de design de interação do Rust para alcançar uma compressão 2000x! As técnicas exploradas incluem otimizar a estrutura do interador, ajustar o esquema de dados e alavancar a interação na serialização. O resultado? Uma redução impressionante de 1,1 GB de arquivos JSON para meros 530 KB.

Leia mais

Minhas Associações de Número-Cor-Som: Um Sistema Mnemônico de Programador

2025-03-03

O autor compartilha seu sistema único de associação de números, cores e sons, derivado de experiências na infância aprendendo sobre computadores e sistemas mnemônicos. Ele mapeia os números 0-9 para cores específicas e símbolos fonéticos do IPA, explicando as origens nos códigos de cores do IBM CGA e em um sistema mnemônico fonético. O autor demonstra como essas associações ajudam a lembrar números de ônibus e voos, observando que o sistema, embora não seja essencial no dia a dia, torna números e palavras arbitrários mais vívidos e envolventes.

Leia mais

Avanço inovador: Primeira lente plana para telescópio que captura imagens coloridas de estrelas distantes

2025-03-03
Avanço inovador: Primeira lente plana para telescópio que captura imagens coloridas de estrelas distantes

Pesquisadores da Universidade de Utah desenvolveram uma lente plana revolucionária capaz de focar a luz tão eficazmente quanto as lentes curvas tradicionais, mantendo a precisão das cores. Essa inovação resolve os problemas de tamanho e custo associados a lentes de grande abertura. A lente utiliza anéis concêntricos microscopicamente pequenos para manipular a luz, evitando as aberrações cromáticas das placas de zona de Fresnel. Essa tecnologia promete transformar a astrofotografia, especialmente em aplicações com espaço limitado, como aeronaves, satélites e telescópios baseados no espaço. Testes usando imagens do sol e da lua demonstraram suas capacidades, abrindo caminho para seu uso em equipamentos de observação astronômica em grande escala para imagens mais nítidas e realistas do cosmos.

Leia mais

Atraso dos EUA em drones: Por que os mercados comerciais são a chave para a inovação na defesa

2025-03-03
Atraso dos EUA em drones: Por que os mercados comerciais são a chave para a inovação na defesa

A indústria de drones dos EUA é prejudicada, não por deficiências tecnológicas, mas por regulamentos desatualizados da FAA que sufocam a adoção em larga escala de drones comerciais. Em contraste, o ambiente regulatório mais permissivo da Europa criou empresas como a Manna, cujo sucesso comercial sustenta aplicações militares. O artigo argumenta que um mercado de drones comerciais próspero revitalizaria a base industrial de defesa americana, reduzindo custos, acelerando a inovação e quebrando a dependência dos empreiteiros de defesa estabelecidos, refletindo o sucesso da Lockheed na Segunda Guerra Mundial, construído sobre uma base de aviação comercial. O autor pede aos EUA que imitem as abordagens europeias e chinesas, simplificando os regulamentos e apoiando o desenvolvimento de drones comerciais para obter uma vantagem de defesa futura.

Leia mais
Tecnologia defesa

Crise de Qualidade de Software da Apple: Hardware Premium, Software Inferior

2025-03-03
Crise de Qualidade de Software da Apple: Hardware Premium, Software Inferior

Um usuário Apple de longa data descreve problemas de desempenho persistentes em seu iPad Air 11" M2, com lag significativo e superaquecimento ao usar aplicativos da Apple como Notes e Freeform. Mesmo após a substituição do hardware, os problemas persistem, indicando um problema de otimização de software em vez de um defeito de hardware. O autor aponta para uma possível priorização de novos recursos em detrimento da estabilidade e testes completos do software, questionando o compromisso da Apple com a experiência do usuário, outrora valorizada. O artigo destaca as crescentes preocupações dos usuários e pede à Apple que resolva esses problemas e volte a se concentrar na qualidade.

Leia mais

arXivLabs: Experimentos com recursos impulsionados pela comunidade

2025-03-03
arXivLabs: Experimentos com recursos impulsionados pela comunidade

arXivLabs é uma estrutura experimental que permite a colaboradores desenvolverem e compartilharem novos recursos do arXiv diretamente no site. Participantes, indivíduos e organizações, abraçam os valores do arXiv de abertura, comunidade, excelência e privacidade dos dados do usuário. O arXiv está comprometido com esses valores e apenas se associa a aqueles que os compartilham. Tem alguma ideia para melhorar a comunidade do arXiv? Saiba mais sobre o arXivLabs.

Leia mais
Desenvolvimento

Lidando com Funcionários Difíceis: 5 Arquétipos e Como Gerenciá-los

2025-03-03
Lidando com Funcionários Difíceis: 5 Arquétipos e Como Gerenciá-los

Claire, fundadora da Canopy, compartilha seus insights sobre como gerenciar funcionários desafiadores, descrevendo cinco arquétipos comuns: o veterano resistente, o resistente passivo, o gênio técnico brilhante, mas abrasivo, o que inventa desculpas e o funcionário emocionalmente volátil. O artigo detalha as características de cada tipo e oferece estratégias específicas para um gerenciamento eficaz, enfatizando o foco no bem-estar da equipe e decisões baseadas em dados, em vez de reações emocionais. O objetivo final é uma cultura de equipe saudável e de alto desempenho, às vezes exigindo a difícil decisão de se separar.

Leia mais

Qodo-Embed-1: Família de modelos de embedding de código eficientes e compactos

2025-03-03
Qodo-Embed-1: Família de modelos de embedding de código eficientes e compactos

A Qodo anunciou o Qodo-Embed-1, uma nova família de modelos de embedding de código que alcança desempenho de ponta com um tamanho significativamente menor do que os modelos existentes. O modelo de 1,5B de parâmetros obteve uma pontuação de 68,53 no benchmark CoIR, superando modelos maiores de 7B de parâmetros. Treinado usando geração de dados sintéticos para superar as limitações dos modelos existentes na recuperação precisa de trechos de código, o Qodo-Embed-1 melhora significativamente a precisão e a eficiência da recuperação de código. O modelo de 1,5B de parâmetros é de código aberto, enquanto o modelo de 7B de parâmetros está disponível comercialmente.

Leia mais

Modem C1 da Apple: Menor consumo de energia, desempenho comparável

2025-03-03
Modem C1 da Apple: Menor consumo de energia, desempenho comparável

O modem C1 desenvolvido pela Apple, estreando no iPhone 16e, apresenta desempenho comparável aos chips 5G anteriores, mas com consumo de energia significativamente reduzido. Testes em laboratório e em cenários do mundo real (como trens de metrô) mostram o C1 igualando os modems da Qualcomm em velocidades 5G, enquanto ostenta um consumo de energia médio cerca de 24% menor. O iPhone 16e alcançou 53 minutos a mais de streaming de vídeo 5G do que o iPhone 16. Embora o iPhone 16e tenha uma bateria maior, os resultados destacam os ganhos significativos em eficiência de energia do design de silício interno da Apple, indo além de apenas economizar taxas de licenciamento. O sucesso sugere que o desenvolvimento relatado da Apple de um modem C2 é provável.

Leia mais
Hardware modem 5G

Construindo um Grafo de Rede de Restaurantes Franceses com LLMs

2025-03-03

Este projeto utiliza as avaliações de restaurantes franceses do LeFooding.com para construir um grafo de rede de restaurantes franceses e seus funcionários. Ao utilizar o modelo gpt4o-mini da OpenAI e técnicas de geração estruturada, o autor extrai informações sobre funcionários de restaurantes e suas trajetórias de carreira das avaliações, resultando em um grafo com mais de 5000 nós e arestas. O projeto destaca o poder dos LLMs na extração de informações estruturadas e explora os prós e contras do uso de diferentes LLMs, incluindo otimização de custos. O resultado final é um grafo de rede visual que mostra as conexões entre restaurantes franceses e a progressão da carreira dos funcionários.

Leia mais

A Perda Inevitável da Juventude e a Busca pela Escrita

2025-03-03
A Perda Inevitável da Juventude e a Busca pela Escrita

Um jovem escritor sonha em se tornar um autor prodígio como Amis ou Updike, estabelecendo um cronograma para o sucesso na publicação em seus vinte anos. No entanto, ele falha em atingir seu objetivo ambicioso, publicando seu primeiro romance apenas aos 37 anos. O ensaio explora a passagem da juventude e o confronto do escritor com a diferença entre sonhos e realidade. Ele finalmente entende que o desejo de sucesso não é exclusivo da juventude, mas uma força persistente ao longo da vida.

Leia mais
Diversos sonhos

Lenovo ThinkBook Flip: Conceito de PC AI dobrável

2025-03-03
Lenovo ThinkBook Flip: Conceito de PC AI dobrável

A Lenovo revelou o conceito de PC AI ThinkBook “Flip” na MWC, um laptop de produtividade com uma tela OLED flexível. Transformando-se entre um clamshell de 13,1 polegadas, um tablet de 12,9 polegadas e um laptop vertical de 18,1 polegadas, ele usa a mesma tela que o ThinkBook Plus Gen 6, mas se dobra de forma diferente, eliminando motores e potencialmente reduzindo custos. Dobrado, funciona como um laptop padrão; desdobrado, possui uma tela enorme e ângulo de visão ergonômico. Um trackpad Smart ForcePad exclusivo oferece atalhos personalizáveis. Embora ainda seja um conceito, a Lenovo compartilhou especificações, incluindo um processador Intel Ultra 7 e 32 GB de RAM, sugerindo um possível lançamento no mercado.

Leia mais

A Ciência da Maratonagem: Quantos Episódios Antes de Desistir?

2025-03-03
A Ciência da Maratonagem: Quantos Episódios Antes de Desistir?

Este artigo explora a estratégia ideal para maratonar séries: quando desistir de uma série. Ao analisar dados de classificação do IMDb, o autor descobre que a maioria das séries precisa de 6 a 7 episódios para atingir sua média de qualidade a longo prazo. No entanto, séries de longa duração geralmente sofrem queda de qualidade por volta da quinta ou sexta temporada. O autor também analisa os vieses psicológicos envolvidos em continuar assistindo séries ruins, usando sua própria experiência com *How I Met Your Mother* como um conto de advertência sobre a importância de cortar as perdas e evitar finais decepcionantes.

Leia mais

Chip quântico Ocelot da AWS: Um salto gigante para a computação quântica prática

2025-03-03
Chip quântico Ocelot da AWS: Um salto gigante para a computação quântica prática

A corrida para a computação quântica prática está esquentando! A Amazon Web Services (AWS) revelou Ocelot, um chip quântico inovador que enfrenta o desafio persistente da correção de erros. Ao contrário de abordagens anteriores que adicionavam a correção de erros como um pensamento posterior, Ocelot a integra desde o início, utilizando 'qubits de gato' para suprimir erros de forma eficaz e reduzir drasticamente os custos (até 90%). Esse avanço significativo promete acelerar o cronograma para um computador quântico prático em até cinco anos. Juntamente com avanços semelhantes do Google (Willow) e da Microsoft (Majorana), o futuro da computação quântica parece mais brilhante do que nunca, pronto para revolucionar vários setores de tecnologia.

Leia mais
Tecnologia chip quântico
1 2 406 407 408 410 412 413 414 595 596