AI绘图大比拼:鹈鹕骑自行车
博主Simon Willison设计了一个独特的LLM基准测试:让不同模型生成一只骑自行车的鹈鹕的SVG图像。他选择了这个主题是因为其独特性,避免模型从已有数据中学习。测试涵盖了来自OpenAI、Anthropic、谷歌Gemini和Meta等多个模型,结果显示不同模型的生成效果差异显著,部分模型生成的图像较为成功,而其他模型则表现不佳。
阅读更多
博主Simon Willison设计了一个独特的LLM基准测试:让不同模型生成一只骑自行车的鹈鹕的SVG图像。他选择了这个主题是因为其独特性,避免模型从已有数据中学习。测试涵盖了来自OpenAI、Anthropic、谷歌Gemini和Meta等多个模型,结果显示不同模型的生成效果差异显著,部分模型生成的图像较为成功,而其他模型则表现不佳。
阅读更多
文章探讨了在事件网站中存储事件时间的最佳实践。作者指出,直接存储UTC时间会丢失关键信息,例如用户最初设定的时间和地点。更好的方法是存储用户的意图时间和事件发生地,再推导出UTC时间。文中以用户错误、国际时区调整和2007年微软Exchange的DST更新为例,说明了存储用户意图时间的重要性。作者建议设计一个清晰易懂的用户界面,帮助用户准确设置事件时间和地点,并强调了维护用户原始意图的重要性,避免因时区变化而导致的错误。
阅读更多
Simon Willison 开发了一个名为 sqlite-utils-ask 的插件,允许用户使用自然语言直接查询 SQLite 数据库和 CSV/JSON 文件。该插件通过将数据库 schema 和用户问题发送给大型语言模型(LLM)来生成 SQL 查询,并执行查询返回结果。用户还可以提供示例值以帮助模型生成更准确的查询。该工具支持多种文件格式,包括 CSV、TSV 和 JSON,并兼容多种 LLM,例如 gpt-4o-mini 和 Claude 3.5 Sonnet。
阅读更多
本文介绍了一种使用`uv run`简化Python脚本运行的方法。通过在脚本开头添加`#!/usr/bin/env -S uv run`,并使用特定注释指定Python版本和依赖项,可以直接执行脚本。`uv run`会自动创建隔离环境,安装所需的依赖项和Python版本,从而简化了在不同机器上的脚本运行。
阅读更多
Foursquare 发布了一个名为“FSQ OS Places”的开放位置数据集,包含超过1亿个全球兴趣点,并提供22个核心属性。该数据集以Parquet文件格式存储在Amazon S3上,每月更新,并可在Apache 2.0许可下商业使用。Simon Willison 通过DuckDB远程查询了S3上的Parquet文件,并使用ChatGPT Code Interpreter将数据转换为GeoJSON格式,以便在地图上进行可视化。
阅读更多
阿里巴巴的Qwen研究团队发布了开源LLM Qwen2.5-Coder系列,其中Qwen2.5-Coder-32B-Instruct模型备受关注。该模型大小适中,可在64GB MacBook Pro M2上运行,并且代码生成能力堪比GPT-4o。作者在文中介绍了该模型在多个代码相关基准测试中的优异表现,并分享了使用Ollama和MLX等工具在Mac上成功运行该模型的经验,最终生成的代码质量和速度都令人满意。
阅读更多
Hugging Face 发布了 SmolLM2 系列轻量级语言模型,包含 135M、360M 和 1.7B 参数三种规模。该模型使用 FineWeb-Edu、DCLM、The Stack 等数据集以及新的数学和编码数据集,共计 11 万亿个token进行训练。SmolLM2 能够在设备上运行,并高效地完成各种任务。模型权重以 Apache 2 许可证发布。Simon Willison 通过 llm-gguf 插件进行了测试,并给出了积极的评价,同时提供了使用 LLM 和 lmstudio-community 运行模型的示例。
阅读更多
Anthropic为其聊天机器人Claude.ai发布了名为“分析工具”的新功能,类似于OpenAI的ChatGPT代码解释器。该工具允许Claude通过编写、执行JavaScript代码并在浏览器Web Worker中继续对话。它可以处理复杂数学问题和用户上传的文件,并集成了Lodash和Papa Parse库。但与Claude Artifacts不同,它无法从CDN引入其他包,且上传的文件受限于Claude上下文的大小限制,目前仅支持文本格式。
阅读更多
本文是Simon Willison对Anthropic公司产品Claude Artifacts的一周使用体验。Claude Artifacts允许用户使用Claude创建交互式单页应用程序,并直接在界面中查看、迭代和复制代码。作者详细介绍了14个使用Claude Artifacts构建的项目,包括网页文本提取工具、SQLite WASM演示、URL提取器、剪贴板查看器、Pyodide REPL等。作者对Claude Artifacts的易用性和强大功能表示赞赏,但也指出了其无法进行API调用和链接外部页面的局限性。
阅读更多
本文介绍了一种利用Google Gemini从屏幕录制中提取数据的低成本方法。作者通过录制浏览Gmail邮箱的视频,使用Gemini成功提取了邮件中的日期和金额数据,并将其转换为JSON和CSV格式。作者认为,这种“视频抓取”技术成本低廉,操作简便,适用于各种网站和应用,并将在数据新闻等领域具有广泛的应用前景。
阅读更多
这篇文章介绍了 Cloudflare Durable Object 平台的最新迭代,该平台最近从键/值存储升级到基于 SQLite 的完整关系系统。新系统的设计理念是将应用程序逻辑与其操作的数据放在一起,从而实现极快的读写性能。每个 Durable Object 都包含在与其使用的 SQLite 数据库相同的主机上执行的代码,并通过流式传输 WAL 条目到对象存储来确保持久性。文章还讨论了 Durable Object 的扩展性、API 设计以及底层 Storage Relay Service。
阅读更多
本文是 OpenAI DevDay 2024 的现场博客,记录了活动的实时进展。活动中,OpenAI 宣布将 o1 模型的速率限制翻倍至每分钟 10000 次请求,并推出了一项实时 API,允许开发者使用 WebSocket 实现语音输入和输出。此外,OpenAI 还展示了使用新 API 更新后的 Wanderlust 旅行代理演示,该演示使用语音作为输入和输出方式。
阅读更多
本文介绍了谷歌NotebookLM的新功能Audio Overview,它可以根据用户提供的内容自动生成播客。该功能使用Gemini 1.5 Pro LLM,可以生成时长约10分钟的逼真对话,并可以根据用户的提示调整内容。作者认为该功能非常有趣,并分享了一些使用案例,包括生成关于他个人博客的播客、探讨AI伦理问题的播客等。
阅读更多
本文纪念漫画XKCD 1425 (Tasks) 发表十周年,该漫画讽刺了软件开发中简单任务和困难任务的区别。作者指出,尽管人工智能技术的进步使得一些过去被认为困难的任务(例如图像识别)变得容易,但判断一项任务对软件来说是容易还是困难仍然需要丰富的经验。大型语言模型 (LLM) 的出现使这个问题更加复杂,因为理解 LLM 的能力和局限性仍然很困难。
阅读更多
本文介绍了作者在 Python 软件基金会 (PSF) 担任理事的经验和见解。PSF 是一个非营利组织,其使命是推广、保护和发展 Python 编程语言,并支持和促进 Python 程序员组成的多元化国际社区的发展。文章详细介绍了 PSF 的组织结构、资金来源、主要活动以及面临的挑战,例如如何有效地分配资金、支持 Python 生态系统以及制定长期战略规划。
阅读更多
Anthropic 宣布其 Claude API 现已支持 CORS 请求,允许开发者直接从用户浏览器调用 Claude 大语言模型。此前,开发者需要搭建代理服务器才能实现类似功能。尽管该功能存在 API 密钥泄露的风险,但 Anthropic 提供了新的请求头以启用 CORS 支持,方便开发者构建内部工具或“自带 API 密钥”模式的客户端应用程序。
阅读更多
本文是作者在 PyCon US 2024 上主题演讲的文字稿。作者首先对人工智能,特别是大型语言模型进行了概述,介绍了其工作原理、优缺点以及潜在应用。作者更倾向于使用“模仿智能”来描述大型语言模型,因为它们本质上是在模仿人类语言,而非真正具备智能。作者还探讨了提示工程、检索增强生成、函数调用等技术,以及如何利用这些技术构建实际应用。作者以自己开发的 AI 语音计数器和数据提取工具为例,展示了大型语言模型在解决实际问题方面的潜力。最后,作者强调了负责任地使用人工智能的重要性,并鼓励 Python 社区积极探索人工智能技术,构建更加智能化的应用程序。
阅读更多
文章强调了为产品功能、创意或任何希望他人理解和讨论的事物创建可链接网页的重要性。作者以ChatGPT代码解释器和“无聊技术”为例,说明了拥有专门页面和链接的好处,这不仅有利于搜索引擎优化,还能促进更有效的对话和信息传播。
阅读更多
Charity Majors 在文章中反驳了生成式 AI 可以取代初级程序员的观点。软件工程需要学徒式的经验积累,初级工程师是团队不可或缺的一部分,他们通过实践学习和成长为中高级工程师。优秀的团队需要不同技能水平的成员,初级工程师为团队带来活力,并推动高级工程师不断学习和进步。作者建议公司创造良好的环境,帮助初级工程师学习和成长。
阅读更多
本文介绍了 RAG(检索增强生成)应用中出现的意外提示注入问题。作者以自己的 LLM 项目文档为例,说明了在使用语义搜索进行文档检索时,由于语义相似度匹配的特性,可能导致意外的文本片段被纳入提示,从而改变 LLM 的行为。作者还强调了这种问题在 RAG 应用中的普遍性以及可能带来的安全风险。
阅读更多
Windows 11 新功能 Recall 可以截取用户屏幕截图、运行本地 OCR 并将文本存储在 SQLite 数据库中,方便用户搜索历史活动记录。然而该功能存在巨大安全隐患,恶意软件可以轻易获取数据库中存储的大量用户信息。安全专家 Kevin Beaumont 认为该功能适用人群非常有限,对于普通用户来说弊大于利。
阅读更多
大型语言模型如 ChatGPT 不会像人类那样,记住在对话中你说过的所有内容并用以更新自身的知识。它们更像是无状态函数,根据输入的文本预测接下来的内容,每次新对话都是独立的,不会记住所谓的“训练”内容。虽然一些模型提供记忆功能,但这只是将部分信息记录在当前对话上下文中,并非真正记住。过度担心模型会记住所有输入并泄露隐私,实际上是基于对技术原理的误解。
阅读更多
该网站讨论了人工智能在数据新闻中的应用。它概述了人工智能在数据可视化、事实核查和预测建模等领域的使用方式。它还探讨了人工智能在数据新闻中存在的挑战和机遇。
阅读更多