用 4 千万篇帖子和评论绘制和分析 Hacker News 以获得乐趣

2024-05-09

本文作者利用文本嵌入技术,对 Hacker News 上自创建以来的 4 千万篇帖子和评论进行了分析和可视化。作者首先抓取了 Hacker News 的所有帖子和评论数据,并使用 BGE-M3 和 jina-embeddings-v2-small-en 模型生成了文本嵌入。为了提高嵌入的准确性,作者还抓取了帖子链接的网页内容,并提取了文本信息。作者使用 UMAP 将高维嵌入降维到二维空间,并创建了一个交互式地图,可视化了 Hacker News 的主题空间。此外,作者还开发了一个基于嵌入的搜索引擎,可以根据语义相似性检索帖子和评论,并探索了使用嵌入进行情感分析和主题流行度分析的可能性。最后,作者公开了所有数据和代码,鼓励社区进一步探索和利用这些资源。