QB64 搜索技巧 核手提箱 文字记录 海洋云增白 开源地图 Bliss AI 搜索答案 深海沉船 自由职业 policy 小团队 颈挂空调 Chumby 个人电脑 极端主义 团队 世界 PostgreSQL AI工具 证券 DirectX 防溢 DrawingPics Zulip 儿童读物 化学 连续滚动 代码审查 三菱电机 更多

用 4 千万篇帖子和评论绘制和分析 Hacker News 以获得乐趣 (blog.wilsonl.in)

本文作者利用文本嵌入技术,对 Hacker News 上自创建以来的 4 千万篇帖子和评论进行了分析和可视化。作者首先抓取了 Hacker News 的所有帖子和评论数据,并使用 BGE-M3 和 jina-embeddings-v2-small-en 模型生成了文本嵌入。为了提高嵌入的准确性,作者还抓取了帖子链接的网页内容,并提取了文本信息。作者使用 UMAP 将高维嵌入降维到二维空间,并创建了一个交互式地图,可视化了 Hacker News 的主题空间。此外,作者还开发了一个基于嵌入的搜索引擎,可以根据语义相似性检索帖子和评论,并探索了使用嵌入进行情感分析和主题流行度分析的可能性。最后,作者公开了所有数据和代码,鼓励社区进一步探索和利用这些资源。