Benchmark de LLM: Pelicano em uma Bicicleta

2024-12-16

Simon Willison criou um benchmark único de LLM: gerar uma imagem SVG de um pelicano andando de bicicleta. Esse prompt incomum tinha como objetivo testar as habilidades criativas dos modelos sem depender de dados de treinamento pré-existentes. Ele testou 16 modelos de OpenAI, Anthropic, Google Gemini e Meta (Llama no Cerebras), revelando variações significativas na qualidade dos SVGs gerados. Alguns modelos produziram resultados surpreendentemente bons, enquanto outros tiveram dificuldades.

Leia mais

Armazenando horários para eventos humanos: melhores práticas e desafios

2024-12-12

Esta postagem de blog discute as melhores práticas para armazenar horários de eventos em sites de eventos. O autor argumenta que armazenar diretamente o horário UTC perde informações cruciais, como a intenção original do usuário e a localização. Uma abordagem melhor é armazenar o horário pretendido pelo usuário e a localização do evento, e então derivar o horário UTC. Exemplos como erro do usuário, ajustes de fuso horário internacional e a atualização do DST do Microsoft Exchange de 2007 ilustram a importância de armazenar o horário pretendido pelo usuário. O autor recomenda projetar uma interface de usuário clara e amigável para ajudar os usuários a definir com precisão os horários e locais dos eventos, enfatizando a importância de manter a intenção original do usuário para evitar erros causados por mudanças de fuso horário.

Leia mais