用4000万条语义嵌入数据寻找Hacker News上的知识达人

2024-07-25

本文介绍了一个利用4000万条Hacker News帖子和评论的语义嵌入数据,来寻找社区内各领域知识达人的项目。该项目创建了一个语义地图,可以根据用户使用的语言来分析他们的知识和兴趣,并根据主题将用户进行分类。用户可以探索地图,找到与自己兴趣相投的人,并了解他们在社区中的语义身份。

阅读更多
未分类

用 4 千万篇帖子和评论绘制和分析 Hacker News 以获得乐趣

2024-05-09

本文作者利用文本嵌入技术,对 Hacker News 上自创建以来的 4 千万篇帖子和评论进行了分析和可视化。作者首先抓取了 Hacker News 的所有帖子和评论数据,并使用 BGE-M3 和 jina-embeddings-v2-small-en 模型生成了文本嵌入。为了提高嵌入的准确性,作者还抓取了帖子链接的网页内容,并提取了文本信息。作者使用 UMAP 将高维嵌入降维到二维空间,并创建了一个交互式地图,可视化了 Hacker News 的主题空间。此外,作者还开发了一个基于嵌入的搜索引擎,可以根据语义相似性检索帖子和评论,并探索了使用嵌入进行情感分析和主题流行度分析的可能性。最后,作者公开了所有数据和代码,鼓励社区进一步探索和利用这些资源。

阅读更多