搜索技巧 海洋云增白 开源地图 AI 搜索答案 沙丘魔堡2 压缩机站 自由职业 policy 小团队 颈挂空调 Chumby 个人电脑 极端主义 团队 PostgreSQL AI工具 证券 DirectX DrawingPics 化学 KDE 披萨农场 多动症 植物学 分析化学 Three.js 大会 残疾人学校 初创 QB64 更多

用4000万条语义嵌入数据寻找Hacker News上的知识达人 (blog.wilsonl.in)

本文介绍了一个利用4000万条Hacker News帖子和评论的语义嵌入数据,来寻找社区内各领域知识达人的项目。该项目创建了一个语义地图,可以根据用户使用的语言来分析他们的知识和兴趣,并根据主题将用户进行分类。用户可以探索地图,找到与自己兴趣相投的人,并了解他们在社区中的语义身份。

用 4 千万篇帖子和评论绘制和分析 Hacker News 以获得乐趣 (blog.wilsonl.in)

本文作者利用文本嵌入技术,对 Hacker News 上自创建以来的 4 千万篇帖子和评论进行了分析和可视化。作者首先抓取了 Hacker News 的所有帖子和评论数据,并使用 BGE-M3 和 jina-embeddings-v2-small-en 模型生成了文本嵌入。为了提高嵌入的准确性,作者还抓取了帖子链接的网页内容,并提取了文本信息。作者使用 UMAP 将高维嵌入降维到二维空间,并创建了一个交互式地图,可视化了 Hacker News 的主题空间。此外,作者还开发了一个基于嵌入的搜索引擎,可以根据语义相似性检索帖子和评论,并探索了使用嵌入进行情感分析和主题流行度分析的可能性。最后,作者公开了所有数据和代码,鼓励社区进一步探索和利用这些资源。