嵌入式维度:从300到4096,AI模型的进化之路

2025-09-08
嵌入式维度:从300到4096,AI模型的进化之路

几年前,200-300维的嵌入式向量在工业界很常见。但随着深度学习模型(如BERT、GPT)的兴起和GPU计算能力的提升,嵌入式向量的维度不断增长,从BERT的768维到GPT-3的1536维,再到如今的4096维甚至更高。这背后是模型架构(Transformer)、训练数据规模、以及开源平台(Hugging Face)和向量数据库的共同作用。虽然维度增加带来了性能提升,但也带来了存储和推理的挑战。最近的研究开始探索更有效的嵌入式表示方法,例如Matryoshka表示学习,以平衡性能和效率。

阅读更多

Hadley Wickham谈大数据采样:小样本也能解决大问题

2025-05-31
Hadley Wickham谈大数据采样:小样本也能解决大问题

Hadley Wickham近期接受采访时指出,许多大数据问题其实可以通过合适的子集、样本或摘要简化为小数据问题。本文探讨了如何在大数据分析中进行有效采样。作者以一家为患有嗜睡症的山羊提供服务的公司Goatly为例,说明了如何计算合适的样本量以进行逻辑回归分析,最终得出需要约2345个样本才能准确代表10万个农场的数据。文章还介绍了计算样本量的Python脚本和在线工具,并简要解释了统计检验功效的概念。

阅读更多

Hacker News:我的十年技术成长之路

2025-03-18
Hacker News:我的十年技术成长之路

从2011年开始接触Hacker News,作者最初对其中的技术术语和公司一无所知。然而,通过坚持每天阅读,并深入研究遇到的每一个陌生的技术概念,作者逐渐从一名数据分析师成长为能够自信地将代码部署给数百万用户的工程师。Hacker News不仅提供了学习资源,更是一个充满智慧的社区,帮助作者提升技术能力和写作水平,最终实现了职业的巨大飞跃。

阅读更多
开发 技术学习

大型语言模型:算术能力的探索与AGI的追求

2024-12-24
大型语言模型:算术能力的探索与AGI的追求

文章探讨了为何将大型语言模型(LLM)用于计算。虽然LLM擅长自然语言处理,但研究人员却尝试让其进行数学运算,从简单的加法到复杂的定理证明。这并非为了取代计算器,而是为了探索LLM的推理能力,并最终实现人工通用智能(AGI)。文章指出,人类一直以来都试图利用新技术进行计算,而LLM的数学能力测试是检验其推理能力的一种途径。然而,LLM进行计算的过程与计算器截然不同,前者依赖于庞大的知识库和概率模型,而后者则基于确定的算法。因此,LLM的计算结果并非总是准确可靠,这体现了实用性和研究之间的权衡。

阅读更多

别担心LLM

2024-05-31
别担心LLM

本文以寓言的形式,讲述了开发者如何应对LLM的炒作和复杂性。作者以Medici公司的案例为例,阐述了如何从单一用例出发,逐步迭代开发LLM应用。作者强调了专注于单一机器学习任务、建立可衡量目标、创建可复现示例的重要性。通过类比中世纪僧侣的专注力和Unix哲学的模块化思想,作者引导开发者在LLM开发中保持清晰思路,化繁为简,最终实现目标。

阅读更多
未分类

我们被置于“氛围空间”

2024-05-07
我们被置于“氛围空间”

这篇文章探讨了大型语言模型(LLM)的兴起如何改变了用户与网络的交互方式。作者认为,用户习惯于四种不同的在线体验:电子商务搜索、社交推荐、社交搜索和电子商务推荐。然而,像ChatGPT这样的LLM的出现模糊了这些界限,创造了一个“氛围空间”,用户期望能够以自然语言与模型互动并接收开放式内容。作者批评了Meta将Llama3集成到其所有平台搜索栏的决定,认为这违反了用户的期望,迫使他们在所有界面上都与AI互动,而用户实际上更希望进行定向搜索。

阅读更多
未分类 情感体验