资深数据科学家眼中的生成式AI:并非万能,但效率惊人

2025-05-05
资深数据科学家眼中的生成式AI:并非万能,但效率惊人

一位BuzzFeed资深数据科学家分享了他如何巧妙运用大型语言模型(LLM)提高工作效率。他并非LLM的狂热拥趸,而是将其视为提升效率的工具,并强调了提示工程的重要性。文章详细介绍了他在工作中如何利用LLM完成数据分类、文本摘要和代码生成等任务,并探讨了LLM在不同场景下的适用性和局限性,例如,LLM擅长处理简单的代码问题,但在处理复杂的数据科学任务时,其准确性和效率则有所下降。他认为,LLM并非万能,但合理运用可以极大提升效率,关键在于选择合适的工具解决相应的问题。

阅读更多
AI

告别向量数据库?用Parquet和Polars高效处理文本嵌入

2025-02-24
告别向量数据库?用Parquet和Polars高效处理文本嵌入

本文介绍了一种无需向量数据库即可高效处理文本嵌入的方法。作者利用Parquet文件存储包含Magic: The Gathering卡牌嵌入及其元数据的表格数据,并使用Polars库进行快速相似性搜索和数据过滤。Polars的零拷贝特性和对嵌套数据的良好支持,使得该方法在速度和效率上均优于传统的CSV或Pickle方法,即使在对数据集进行过滤的情况下也能保持极高的性能。作者还比较了其他存储方法,如CSV、Pickle和NumPy,并指出Parquet结合Polars是处理中等规模文本嵌入的最佳选择,仅在处理超大规模数据时才需考虑向量数据库。

阅读更多
开发

反复迭代提示LLM能否写出更好的代码?

2025-01-03
反复迭代提示LLM能否写出更好的代码?

本文作者通过实验探讨了反复提示大型语言模型(LLM)“写出更好的代码”是否能提高代码质量。实验使用Claude 3.5 Sonnet,初始提示为一个简单的Python编程问题。通过多次迭代提示“写出更好的代码”,代码性能逐步提升,最终实现了100倍的加速。然而,作者也发现,简单的迭代提示会导致代码过度工程化,而精确的提示工程则能更有效地引导LLM生成更高效的代码。实验结果表明,LLM可以辅助代码优化,但仍需人工干预和专业知识来确保代码质量和效率。

阅读更多
开发

仅使用原始JSON和图像实现神奇宝贝嵌入的超凡效果

2024-06-30
仅使用原始JSON和图像实现神奇宝贝嵌入的超凡效果

这篇文章探讨了如何使用大型语言模型(LLM)将神奇宝贝的数据编码为文本和图像嵌入。作者详细介绍了如何使用PokéAPI获取神奇宝贝数据,并使用Nomic AI的开源模型nomic-embed-text-v1.5和nomic-embed-vision-v1.5生成嵌入。通过计算嵌入之间的余弦相似度,作者展示了如何识别最相似的宝可梦,并发现了一些有趣的模式。此外,文章还探讨了如何使用UMAP等降维技术将高维嵌入投影到二维空间进行可视化。

阅读更多
未分类 神奇宝贝