苏黎世大学AI实验:在r/changemyview上秘密操纵舆论?

2025-04-27

苏黎世大学未经授权在r/changemyview论坛上进行为期四个月的AI实验,利用数十个AI账号发布虚假评论试图影响用户观点。该实验违反了论坛规则,使用了虚构的个人经历来增强说服力,引发了巨大争议。研究团队辩称该实验具有重要的社会意义,但论坛版主认为这种在不知情的情况下进行的心理操纵是不可接受的,并向大学提出了抗议。这起事件凸显了AI技术滥用的风险以及对用户知情权的侵犯。

阅读更多

OpenAI 的 o3 模型:照片地理位置识别惊人准确

2025-04-26
OpenAI 的 o3 模型:照片地理位置识别惊人准确

OpenAI的新模型o3展现了令人惊叹的图像识别能力。作者上传了一张看似普通的加州El Granada酒吧照片,o3通过分析图像细节(如房屋样式、植被、车牌等),结合Python代码进行图像处理和分析,最终推断出照片拍摄位置在加州中部海岸地区,虽然与实际位置(El Granada)略有偏差,但其“次优选择”却精准命中。这不仅展现了AI惊人的推理能力,也引发了关于隐私和安全性的担忧,因为这项技术很容易被滥用以追踪个人位置。

阅读更多
AI

AI 辅助搜索研究:终于可用!

2025-04-21
AI 辅助搜索研究:终于可用!

两年半前,人们梦想着大型语言模型(LLM)能自主进行基于搜索的研究。2023年初,Perplexity和微软必应率先尝试,但结果令人失望,常常出现幻觉。然而,2025年上半年,情况发生了转变。Gemini、OpenAI和Perplexity推出了“深度研究”功能,能够生成包含大量引文的详细报告,尽管速度较慢。OpenAI最新的o3和o4-mini模型则实现了突破,它们能够在思考过程中进行搜索,实时提供基于搜索结果的可靠答案,几乎不会出现幻觉。这得益于强大的推理模型和对垃圾信息的抵抗能力。虽然谷歌Gemini和Anthropic Claude也具备搜索功能,但体验远不如OpenAI的模型。一个令人惊叹的例子是,o4-mini成功地将一段代码升级到新的谷歌库,这证明了AI辅助搜索的巨大潜力,但也引发了对未来网络经济模式的担忧,以及由此可能引发的法律诉讼。

阅读更多

Meta的Llama开源之谜:欧盟AI法案的策略?

2025-04-20
Meta的Llama开源之谜:欧盟AI法案的策略?

Meta公司将Llama模型称为“开源”,但这与其许可证并不完全符合开源定义。有人猜测,这是因为欧盟AI法案对开源模型有特殊规定,无需遵守OSI标准。作者利用Gemini 2.5 Flash LLM分析了欧盟AI法案全文,发现该法案确实对“自由开放源码”模型有豁免,定义其需允许用户运行、复制、分发、学习、更改和改进软件及数据,即使要求署名或遵守相同的或类似的发布条款也能被认为是自由开放源码。这支持了Meta利用“开源”营销策略的推测,但需注意Meta此前就存在类似行为。

阅读更多

Anthropic揭秘Claude Code的“超思考”模式

2025-04-20

Anthropic发布了关于其Claude Code CLI编码代理工具的最佳实践文档,其中一个引人注目的技巧是使用“think”、“think hard”等关键词来触发Claude的扩展思考模式。这些词语直接对应着不同的思考预算,例如“ultrathink”会分配最大的31999个token的思考预算,而“think”仅为4000个。通过代码分析发现,这些关键词会触发不同的函数,分配不同的token数量,从而影响Claude的思考深度和结果。这表明“ultrathink”并非Claude模型本身的功能,而是Claude Code特有特性。

阅读更多
AI

使用Gemini 2.5 Pro改进Ollama模型Atom Feed抓取脚本

2025-03-26

作者创建了一个GitHub Actions和GitHub Pages驱动的Atom Feed,用于抓取Ollama最新模型页面数据。最初的脚本使用Claude编写,能够将HTML转换为Atom格式。为了改进,作者使用Google Gemini 2.5 Pro模型重写了脚本,使其生成两个Atom Feed:一个包含所有模型,另一个仅包含最近20个模型。此改进提高了Feed的效率和实用性。

阅读更多

告别虚拟环境配置:Aider 的巧妙安装方案

2025-03-06

Paul Gauthier 的 Aider CLI 工具提供了一种创新的安装方式,无需用户了解虚拟环境的概念即可轻松安装。只需运行 `pip install aider-install && aider-install`,Aider 便会利用 uv 工具自动安装一个独立的 Python 3.12 环境,并将 Aider 安装其中,并自动配置环境变量。这对于 Python 新手来说,是一种安全便捷的安装体验,避免了复杂的配置步骤。

阅读更多
开发 Aider

LLM代码幻觉:并非洪水猛兽

2025-03-02

开发者常抱怨大型语言模型(LLM)在代码生成中出现“幻觉”——编造不存在的方法或库。但作者认为,这并非LLM用于代码生成的致命缺陷。代码幻觉易于通过编译器或解释器报错直接发现并修正,甚至一些“智能”系统会自动纠正。真正的风险在于LLM生成的错误代码在运行时才暴露,这需要强大的手动测试和QA技能来规避。作者建议开发者提升代码阅读理解和评审能力,并介绍了减少LLM代码幻觉的技巧,例如尝试不同模型、充分利用上下文、选择成熟技术等。

阅读更多
开发

不到100MB的LLM模型:llm-smollm2插件发布

2025-02-07
不到100MB的LLM模型:llm-smollm2插件发布

作者发布了llm-smollm2插件,该插件将一个压缩的SmolLM2-135M-Instruct LLM模型打包到Python包中,大小不到100MB,可以直接通过pip安装。文章详细介绍了插件的构建过程,包括寻找合适的模型、处理llama-cpp-python库的冗余日志输出,以及打包和发布到PyPI的过程。虽然该模型能力有限,但作者认为它是学习LLM技术的好工具。

阅读更多
开发

OpenAI发布o3-mini:经济实惠的高性能LLM

2025-02-01

OpenAI发布了新的语言模型o3-mini,其在Codeforces编程竞赛基准测试中表现出色,远超GPT-4o和o1。虽然在其他方面并非全面领先,但其低廉的价格(110美元/百万输入token,440美元/百万输出token)和超高的token输出限制(100,000 tokens)使其极具竞争力。OpenAI计划将其用于ChatGPT的网络搜索和摘要功能,并已在LLM 0.21中提供支持,但目前仅限于Tier 3及以上用户(API消费至少100美元)。o3-mini的出现为开发者提供了更经济高效的强大LLM选择。

阅读更多
AI o3-mini

llama.cpp WASM性能翻倍:AI辅助编程的胜利

2025-01-28

Simon Willison 的博文中介绍了 llama.cpp 的一个重大改进:通过优化 SIMD 指令,WASM 版本的速度提升了两倍。令人惊讶的是,99% 的代码由 AI 辅助编程工具 DeepSeek R1 生成。DeepSeek R1 花费了 3-5 分钟思考每个提示,最终帮助开发者改进了 llm_groq.py 插件,并成功消除了 model_map,优化了代码结构。这展示了 AI 在代码优化和重构方面的巨大潜力。

阅读更多
开发

阿里巴巴开源Qwen 2.5:百万token上下文长度的LLM

2025-01-26

阿里巴巴发布了其开源大语言模型Qwen 2.5的重大更新,上下文长度提升至惊人的100万token!这得益于名为“Dual Chunk Attention”的新技术。目前已在Hugging Face上发布了7B和14B参数的两个版本,但运行它们需要大量的VRAM:7B版本至少需要120GB,14B版本则需要至少320GB。虽然可以使用较短的任务,但阿里巴巴推荐使用他们定制的vLLM框架。此外,已经出现了GGUF量化版本,体积更小,但在处理完整上下文长度时可能存在兼容性问题。博主尝试使用Ollama在Mac上运行GGUF版本,但遇到了一些问题,后续将更新运行结果。

阅读更多

AI专家预测未来AI/LLM发展趋势

2025-01-11

Simon Willison在Oxide and Friends播客中分享了他对未来1年、3年和6年AI/LLM发展的预测。他认为,通用AI代理在短期内难以实现,但代码和研究助手类应用将会蓬勃发展。3年内,AI辅助的调查性报道可能会获得普利策奖,同时更严格的隐私法律也会出台。6年后,AI可能会创造出令人惊叹的艺术作品,但也可能引发大规模的社会动荡,这取决于AGI/ASI的发展和经济影响。Willison强调,他对这些预测缺乏十足的信心,并表示这将是一个有趣的回顾未来发展的参考点。

阅读更多
AI

我的链接博客运营之道

2025-01-06
我的链接博客运营之道

Simon Willison分享了他运营链接博客的经验。从2003年开始,他坚持15年更新链接博客,积累了7000多篇文章。他认为链接博客是低投入高回报的写作方式,可以记录有趣的内容、分享观点并给予创作者应有的认可。他总结了运营技巧:添加额外信息(如创作者姓名、关键主题引用、代码片段等),力求为读者提供增值体验;使用Markdown和Django等技术搭建博客;并通过Substack等工具发送周报。他鼓励更多人尝试这种分享方式,认为这是一种低成本、高价值的网络参与方式。

阅读更多
开发 链接博客

苹果Siri录音风波:$9500万和解背后

2025-01-03

苹果公司以9500万美元的价格与用户就Siri“意外”录音并用于广告定向投放的诉讼达成和解,但否认有任何不当行为。文章作者认为,精准的广告投放并非源于麦克风监听,而是通过App收集用户数据实现的。尽管如此,用户“巧合”看到与语音对话相关的广告的经历,将持续强化“麦克风监听”的阴谋论。

阅读更多
科技 广告投放

2024年大型语言模型:突破与挑战并存

2024-12-31
2024年大型语言模型:突破与挑战并存

2024年大型语言模型(LLM)领域发展迅猛,GPT-4的性能被多个机构超越,模型运行效率大幅提升,甚至可在个人笔记本电脑上运行。多模态模型成为主流,语音和视频功能也开始出现。基于提示的应用生成已成为商品,但最佳模型的普遍访问仅持续了几个月。虽然“智能体”尚未真正实现,但评估的重要性日益凸显。苹果的MLX库表现出色,但其“Apple Intelligence”功能令人失望。推理缩放模型兴起,降低了运行成本并提升了环境效益,但也带来了新的基础设施建设带来的环境问题。合成训练数据效果显著,但LLM的使用难度依然很高,知识分布不均,且需要更多批判性评价。

阅读更多
AI

阿里巴巴发布视觉推理模型QvQ:让AI拥有“慧眼”

2024-12-25
阿里巴巴发布视觉推理模型QvQ:让AI拥有“慧眼”

阿里巴巴近日发布了全新视觉推理模型QvQ-72B-Preview,该模型基于Apache 2.0许可证开源,旨在增强AI的视觉推理能力。QvQ是其推理扩展模型QwQ的视觉升级版本,能够处理图像并结合提示进行复杂的推理。博主Simon Willison对其进行了测试,发现QvQ在图像计数和物体识别方面表现出色,例如准确计数图片中的鹈鹕数量,但在更复杂的推理任务上仍存在不足。QvQ目前可在Hugging Face Spaces上体验,未来有望在本地运行,并支持更多平台。

阅读更多

AI绘图大比拼:鹈鹕骑自行车

2024-12-16

博主Simon Willison设计了一个独特的LLM基准测试:让不同模型生成一只骑自行车的鹈鹕的SVG图像。他选择了这个主题是因为其独特性,避免模型从已有数据中学习。测试涵盖了来自OpenAI、Anthropic、谷歌Gemini和Meta等多个模型,结果显示不同模型的生成效果差异显著,部分模型生成的图像较为成功,而其他模型则表现不佳。

阅读更多
AI

存储人类事件时间:最佳实践与挑战

2024-12-12
存储人类事件时间:最佳实践与挑战

文章探讨了在事件网站中存储事件时间的最佳实践。作者指出,直接存储UTC时间会丢失关键信息,例如用户最初设定的时间和地点。更好的方法是存储用户的意图时间和事件发生地,再推导出UTC时间。文中以用户错误、国际时区调整和2007年微软Exchange的DST更新为例,说明了存储用户意图时间的重要性。作者建议设计一个清晰易懂的用户界面,帮助用户准确设置事件时间和地点,并强调了维护用户原始意图的重要性,避免因时区变化而导致的错误。

阅读更多
开发 时间存储

在终端中查询 SQLite 数据库和 CSV/JSON 文件

2024-12-03
在终端中查询 SQLite 数据库和 CSV/JSON 文件

Simon Willison 开发了一个名为 sqlite-utils-ask 的插件,允许用户使用自然语言直接查询 SQLite 数据库和 CSV/JSON 文件。该插件通过将数据库 schema 和用户问题发送给大型语言模型(LLM)来生成 SQL 查询,并执行查询返回结果。用户还可以提供示例值以帮助模型生成更准确的查询。该工具支持多种文件格式,包括 CSV、TSV 和 JSON,并兼容多种 LLM,例如 gpt-4o-mini 和 Claude 3.5 Sonnet。

阅读更多
未分类

使用uv run简化Python脚本运行

2024-11-21

本文介绍了一种使用`uv run`简化Python脚本运行的方法。通过在脚本开头添加`#!/usr/bin/env -S uv run`,并使用特定注释指定Python版本和依赖项,可以直接执行脚本。`uv run`会自动创建隔离环境,安装所需的依赖项和Python版本,从而简化了在不同机器上的脚本运行。

阅读更多
未分类 uv run 脚本运行

Foursquare 开放位置数据集:地理空间社区的新基础数据集

2024-11-20
Foursquare 开放位置数据集:地理空间社区的新基础数据集

Foursquare 发布了一个名为“FSQ OS Places”的开放位置数据集,包含超过1亿个全球兴趣点,并提供22个核心属性。该数据集以Parquet文件格式存储在Amazon S3上,每月更新,并可在Apache 2.0许可下商业使用。Simon Willison 通过DuckDB远程查询了S3上的Parquet文件,并使用ChatGPT Code Interpreter将数据转换为GeoJSON格式,以便在地图上进行可视化。

阅读更多
未分类

Qwen2.5-Coder-32B:一款可在Mac上运行的优秀代码生成LLM

2024-11-13
Qwen2.5-Coder-32B:一款可在Mac上运行的优秀代码生成LLM

阿里巴巴的Qwen研究团队发布了开源LLM Qwen2.5-Coder系列,其中Qwen2.5-Coder-32B-Instruct模型备受关注。该模型大小适中,可在64GB MacBook Pro M2上运行,并且代码生成能力堪比GPT-4o。作者在文中介绍了该模型在多个代码相关基准测试中的优异表现,并分享了使用Ollama和MLX等工具在Mac上成功运行该模型的经验,最终生成的代码质量和速度都令人满意。

阅读更多
未分类 Qwen2.5-Coder-32B

SmolLM2:Hugging Face 发布轻量级语言模型

2024-11-02

Hugging Face 发布了 SmolLM2 系列轻量级语言模型,包含 135M、360M 和 1.7B 参数三种规模。该模型使用 FineWeb-Edu、DCLM、The Stack 等数据集以及新的数学和编码数据集,共计 11 万亿个token进行训练。SmolLM2 能够在设备上运行,并高效地完成各种任务。模型权重以 Apache 2 许可证发布。Simon Willison 通过 llm-gguf 插件进行了测试,并给出了积极的评价,同时提供了使用 LLM 和 lmstudio-community 运行模型的示例。

阅读更多
未分类 SmolLM2

Claude推出JavaScript代码执行分析工具

2024-10-25
Claude推出JavaScript代码执行分析工具

Anthropic为其聊天机器人Claude.ai发布了名为“分析工具”的新功能,类似于OpenAI的ChatGPT代码解释器。该工具允许Claude通过编写、执行JavaScript代码并在浏览器Web Worker中继续对话。它可以处理复杂数学问题和用户上传的文件,并集成了Lodash和Papa Parse库。但与Claude Artifacts不同,它无法从CDN引入其他包,且上传的文件受限于Claude上下文的大小限制,目前仅支持文本格式。

阅读更多
未分类 代码执行

我一周使用Claude Artifacts构建的一切

2024-10-24
我一周使用Claude Artifacts构建的一切

本文是Simon Willison对Anthropic公司产品Claude Artifacts的一周使用体验。Claude Artifacts允许用户使用Claude创建交互式单页应用程序,并直接在界面中查看、迭代和复制代码。作者详细介绍了14个使用Claude Artifacts构建的项目,包括网页文本提取工具、SQLite WASM演示、URL提取器、剪贴板查看器、Pyodide REPL等。作者对Claude Artifacts的易用性和强大功能表示赞赏,但也指出了其无法进行API调用和链接外部页面的局限性。

阅读更多

利用视频抓取技术,以不到 1/10 美分的成本从 35 秒的屏幕录像中提取 JSON 数据

2024-10-19
利用视频抓取技术,以不到 1/10 美分的成本从 35 秒的屏幕录像中提取 JSON 数据

本文介绍了一种利用Google Gemini从屏幕录制中提取数据的低成本方法。作者通过录制浏览Gmail邮箱的视频,使用Gemini成功提取了邮件中的日期和金额数据,并将其转换为JSON和CSV格式。作者认为,这种“视频抓取”技术成本低廉,操作简便,适用于各种网站和应用,并将在数据新闻等领域具有广泛的应用前景。

阅读更多
← 前页 1