内循环代理:LLM 直接调用工具的革命性转变

2025-04-21
内循环代理:LLM 直接调用工具的革命性转变

传统的LLM需要客户端解析和执行工具调用,而内循环代理则允许LLM直接解析和执行工具,这是一种概念上的转变。文章解释了内循环代理的工作原理,并用图表说明了其与传统LLM的区别。内循环代理的优势在于LLM能够与其思考过程同时并发地调用工具,从而提高效率。文章还讨论了强化学习在训练内循环代理中的作用,以及模型上下文协议(MCP)在支持多种工具使用方面的意义。最终,文章指出,虽然目前LLM能够使用工具,但要实现高效的工具使用,仍然需要对模型进行专门的训练,才能达到最佳的工具使用效果。

阅读更多

正则表达式并不难:掌握核心概念,轻松玩转文本处理

2025-04-21
正则表达式并不难:掌握核心概念,轻松玩转文本处理

本文作者认为正则表达式并不像很多人想象的那么复杂。通过聚焦核心概念——字符集、重复、分组和 |、^、$ 运算符——就能轻松掌握正则表达式的强大功能。文章详细解释了这些核心概念,并建议忽略一些不常用的“快捷方式”,以避免不必要的复杂性。作者强调,掌握正则表达式能用极少的代码完成大量文本处理工作,效率远高于传统程序代码。

阅读更多
开发

只需6美元训练的AI模型:S1挑战LLM巨头

2025-02-05
只需6美元训练的AI模型:S1挑战LLM巨头

一篇新论文展示了一个仅需6美元训练成本的AI模型S1,其性能逼近最先进水平,却可在普通笔记本电脑上运行。S1的关键在于其巧妙的“推理时间缩放”方法:通过在LLM的思考过程中插入“Wait”指令,控制其思考时长,从而优化性能。这与Entropix技术异曲同工,都通过干预模型的内部状态来提升性能。S1极度节约数据,仅用1000个精选样本就达到了令人惊讶的效果,这为AI研究带来了新的思路,也引发了关于模型蒸馏和知识产权的讨论。S1的低成本和高效性预示着AI发展将进入一个更加快速迭代的时代。

阅读更多

开源模型R1横空出世,AI发展加速!

2025-01-26
开源模型R1横空出世,AI发展加速!

近期AI领域发展日新月异,各种新模型层出不穷。DeepSeek公司发布的开源推理模型R1,性能堪比OpenAI的闭源模型o1,却成本低廉,引发业界震动。R1的出现验证了OpenAI模型o1和o3的运作原理,并揭示了新的AI发展趋势:预训练的重要性下降,推理时间缩放定律、模型小型化、强化学习以及模型蒸馏等新定律的出现,推动AI加速发展。R1的开源也加剧了中美在AI领域的竞争,未来AI发展将带来巨大的地缘政治影响。

阅读更多
AI

我用NotebookLM教会了我8岁的孩子什么是俯冲带

2024-10-03
我用NotebookLM教会了我8岁的孩子什么是俯冲带

作者分享了他如何使用NotebookLM帮助他8岁的女儿理解一篇关于地质学研究的复杂文章。NotebookLM将文章转化为播客形式,用简单易懂的语言解释了俯冲带的概念,并成功地吸引了孩子的注意力。尽管孩子可能无法完全理解PhD水平的研究,但NotebookLM提供了一种新颖的学习方式,使复杂的信息更容易理解。作者认为,这种技术不仅对成年人有用,对孩子们的学习也具有革命性的意义。

阅读更多
未分类 地质学学习

Llama 3.1 发布: 开源大型语言模型的巨大意义

2024-07-23
Llama 3.1 发布: 开源大型语言模型的巨大意义

Meta 发布了新的开源大型语言模型 Llama 3.1 405B,作者认为这具有重大意义:首先,开源保证了数据安全,企业可以自行训练模型,无需担心数据泄露;其次,开源降低了使用成本,企业无需支付高昂的费用给模型提供商;第三,开源使企业更加独立,不再受制于模型提供商的政策变化;最后,开源使得模型可定制化,开发者可以进行更深入的研究和应用。

阅读更多
未分类 Llama 3.1