GitHub 数据工程师手册

2024-11-20

该GitHub仓库提供成为优秀数据工程师所需的全面资源,包括针对数据工程入行者的2024学习路线图、为期六周的免费YouTube训练营、实践项目、面试技巧、书籍推荐、优质社群以及邮件订阅列表。涵盖数据湖、数据仓库、数据质量、数据集成、实时数据聚合、LLM应用库等主题,并列举了多个学习平台、播客、邮件订阅和术语表,力求一站式解决数据工程师的学习需求。

阅读更多
未分类

Leopards:像查询数据库一样查询 Python 列表

2024-11-20

Leopards 是一个 Python 库,允许用户像查询数据库管理系统 (DBMS) 一样查询字典或对象的列表。它支持多种过滤条件,例如等于、大于、小于、包含、开头、结尾等,并支持 AND、OR、NOT 等逻辑运算符。Leopards 还提供了一些聚合函数,例如计数、最大值、最小值、求和和平均值。与 Pandas 相比,Leopards 的包大小更小,导入速度更快,并且在处理过滤和聚合操作时效率更高。

阅读更多

WebVM:网页版虚拟机

2024-11-20

WebVM是一个在浏览器中运行的Linux虚拟机,其源码托管于此仓库。它是一个完全在客户端运行的无服务器虚拟环境,基于HTML5/WebAssembly,兼容Linux ABI,运行未经修改的Debian发行版,并包含许多原生开发工具链。WebVM由CheerpX虚拟化引擎驱动,支持在任何浏览器上安全地沙盒执行x86二进制文件。用户可以通过Tailscale实现网络连接,并可自行fork仓库进行部署和自定义。

阅读更多
未分类

GitHub - mtantaoui/Integrate:一个用 Rust 编写的轻量级数值积分库

2024-11-19

Integrate 是一个轻量级的 Rust 库,用于执行实值函数的数值积分。它支持多种数值积分技术,包括牛顿-科茨公式(矩形法则、梯形法则、辛普森法则、牛顿 3/8 法则)、高斯求积法(高斯-勒让德、高斯-拉盖尔、高斯-埃尔米特、高斯-切比雪夫第一类、高斯-切比雪夫第二类)以及自适应方法(自适应辛普森法和龙贝格法)。使用前需要注意被积函数的连续性、奇点和振荡等问题。

阅读更多

pglite-fusion:在PostgreSQL表中嵌入SQLite数据库

2024-11-19

pglite-fusion是一个PostgreSQL扩展,允许在PostgreSQL表中嵌入SQLite数据库。该项目提供了一种多租户解决方案,允许用户在单个PostgreSQL表中管理多个SQLite数据库。它提供了一组用于创建、查询和修改嵌入式SQLite数据库的函数,例如`empty_sqlite`、`query_sqlite`和`execute_sqlite`。用户可以使用Docker运行预先安装了pglite-fusion的PostgreSQL数据库,并通过psql连接进行操作。

阅读更多
未分类

GitHub - ssoready/hyrumtoken:一个用于加密分页令牌的 Golang 包

2024-11-19

hyrumtoken是一个Golang包,用于加密分页令牌,防止API客户端依赖令牌内容、顺序或其他特征。它通过加密分页状态数据来实现这一点,使用NaCL的secretbox和随机nonce进行加密,并需要一个密钥。该包提供了Marshal和Unmarshal函数,类似于json的对应函数,但需要一个密钥。文章还讨论了如何使用hyrumtoken实现令牌过期、密钥轮换和更改分页方案等高级用法。

阅读更多
未分类

Sequin:一款可读的 ANSI 序列工具

2024-11-19

Sequin 是一款用于解析和解释 ANSI 转义序列的命令行工具,可帮助开发者调试 CLI 和 TUI 程序,理解终端输出中的颜色、样式等效果,并检查测试输出。它支持多种安装方式,包括包管理器、二进制文件和 Go 安装,并提供 shell 自动补全功能。Sequin 可以直接解释 ANSI 序列、读取程序输出以及检查 TUI 的 golden 文件。它还提供了一种原始模式,可以高亮显示原始序列。

阅读更多
未分类

GitHub - notrab/dumbo: 轻量友好的HTTP PHP框架

2024-11-19

Dumbo是一个轻量、友好的PHP HTTP框架,灵感来自Hono。它具有轻量快速、中间件支持、灵活路由、内置安全特性(CSRF、JWT)、Cookie管理、日期辅助工具、请求ID追踪、静态文件服务、基本和Bearer身份验证、日志支持、HTTP缓存以及CORS支持等功能。可以通过Composer安装,并提供了快速入门示例和详细文档,涵盖路由、参数、嵌套、上下文、响应、中间件和自定义上下文等方面。

阅读更多
未分类 HTTP框架 Dumbo

Hyperfine:一款命令行基准测试工具

2024-11-19

Hyperfine是一款命令行基准测试工具,支持统计分析、任意shell命令、缓存清理、参数化基准测试以及结果导出为CSV、JSON、Markdown等格式。它适用于Linux、macOS、Windows等多个平台,可以通过多种方式安装,例如dpkg、Homebrew、cargo等。Hyperfine通过多次运行命令并进行统计分析,可以帮助用户精确地评估不同命令或程序的性能。

阅读更多
未分类

GitHub - circlemind-ai/fast-graphrag:智能适应用例、数据和查询的RAG

2024-11-19

Fast GraphRAG是一个简化的、可提示的快速图RAG框架,专为可解释的、高精度的、代理驱动的检索工作流而设计。它具有快速、低成本、高效的特点,支持动态数据和增量更新,并利用基于PageRank的图探索来提高准确性和可靠性。该框架易于安装和使用,提供异步和类型支持,并可与不同的OpenAI API兼容语言模型和嵌入器配合使用。Fast GraphRAG旨在无缝集成到检索管道中,提供高级RAG的功能,而无需构建和设计代理工作流的开销。

阅读更多
未分类 检索

Documind:基于AI的开源文档结构化数据提取平台

2024-11-18

Documind是一个利用AI从PDF文档中提取结构化数据的开源平台。它能够将PDF转换为图像,使用OpenAI的API提取信息,并根据自定义模式格式化结果。用户可以定义提取模式以处理不同格式的文档。Documind支持本地和云端部署,即将推出托管版本,提供更便捷的使用体验。使用前需要安装Ghostscript、GraphicsMagick、Node.js和NPM等依赖,并设置环境变量。

阅读更多
未分类 PDF提取

GitHub - serpapi/nokolexbor:基于 Lexbor 的 Ruby 高性能 HTML5 解析器,支持 CSS 选择器和 XPath

2024-11-18

Nokolexbor 是一个 Nokogiri 的替代品,速度提升显著,解析 HTML 的速度提高了 5.2 倍,CSS 选择器的速度则最高提升了 997 倍。它是一个基于 Lexbor 的 Ruby 高性能 HTML5 解析器,支持 CSS 选择器和 XPath,API 设计尽可能与 Nokogiri 兼容。基准测试显示,在解析谷歌结果页面和使用 CSS 选择器方面,Nokolexbor 比 Nokogiri 快得多,但在 XPath 方面两者速度相近。

阅读更多
未分类 HTML 解析器

GitHub - trynova/nova:JS引擎

2024-11-18

Nova 是一个用 Rust 编写的 JavaScript 和 WebAssembly 引擎,以库的形式提供 API 供 Rust 项目调用,并作为 JavaScript 代码的运行时环境。它的执行模型深受 Kiesel 和 SerenityOS 的 LibJS 启发,采用数据驱动设计,核心团队在 Discord 服务器上活跃。该项目目前仍处于开发阶段,尚不适合实际使用。它在芬兰 Rust-lang meetup 和 Web Engines Hackfest 2024 上进行了演讲,重点介绍了 JavaScript 引擎的工作原理、Nova 的设计选择以及数据驱动引擎设计的优缺点。

阅读更多
未分类

C 语言 Web 模块:模块化高效的 C 语言 Web 开发方法

2024-11-18

c-web-modules 项目提供了一种模块化和高效的 C 语言 Web 开发方法。该项目允许直接上传 C 代码到服务器,并在运行时编译和部署,无需预编译。它解决了 C 语言在 Web 开发中的一些常见问题,例如:缓慢的构建周期、速度与实用性的权衡、人力和上市时间、内存管理和崩溃以及预制解决方案等。该项目通过隔离模块并动态管理它们,降低了服务器崩溃的风险,并支持 WebSocket,即使模块更新,现有的 WebSocket 连接也能保持活动状态。

阅读更多
未分类 C 语言

Map Matrix:支持 MapLibre、自定义图层和可配置布局的同步多视图地图比较 React 应用

2024-11-17

Map Matrix 是一款使用 React 开发的用于同步多视图地图比较的应用程序,支持 MapLibre、自定义图层和可配置布局。该项目主要由 Claude AI 生成,开发者最初是为了 veloplanner.com 网站而开发这个简单工具,并借此机会尝试用 Claude AI 从零开始编写代码。用户可以通过单击导航栏中的“添加自定义源”按钮来添加自定义地图源,配置存储在浏览器的本地存储中。

阅读更多

Memos:一个由你掌控数据的被动记录项目

2024-11-17

Memos是一个注重隐私的被动记录项目,可自动记录屏幕内容、构建智能索引,并提供便捷的Web界面检索历史记录。数据完全本地存储,用户可完全控制数据,避免数据泄露到不可信的数据中心。Memos支持全文和向量搜索,集成Ollama作为机器学习引擎,兼容任何OpenAI API模型,支持Mac和Windows系统,并可通过插件扩展功能。

阅读更多
10
未分类 被动记录

GitHub - NVIDIA/garak: LLM漏洞扫描器

2024-11-17

Garak是一款用于评估大型语言模型(LLM)漏洞的命令行工具。它通过静态、动态和自适应探测来识别LLM中的弱点,例如幻觉、数据泄露、提示注入、错误信息、毒性生成和越狱等。Garak支持多种LLM,包括Hugging Face、OpenAI、Replicate、Cohere、Groq、ggml、REST API以及私有模型等。用户可以通过指定模型类型和名称,选择不同的探测方式进行测试,并获得详细的评估报告。

阅读更多
未分类

GitHub - oracle/bpftune: 基于 BPF 的 Linux 系统自动调优工具

2024-11-17

bpftune是一个基于BPF的Linux系统自动调优守护进程,旨在通过持续监控和调整系统行为,实现轻量级、始终在线的自动调优。它利用BPF的可观测性功能,针对系统中的各项可调参数(例如sysctl参数),根据系统运行时的实际情况进行动态调整,而不是依赖静态配置。bpftune的核心组件是调优器,每个调优器管理一组相关的可调参数,并根据BPF程序通过共享环形缓冲区发送到用户空间的事件做出响应。它还支持策略机制,允许为同一组可调参数定义多种调优策略,并根据策略的有效性进行评估和切换。bpftune的设计原则包括最小化开销、提供明确的策略变更解释、避免与管理员手动设置冲突、零配置以及采用推拉式方法进行调优。

阅读更多
未分类 自动调优

2024统计反思课程

2024-11-17

该课程由Richard McElreath教授,重点讲解科学模型的贝叶斯数据分析及其在生物和社会科学中的应用。课程为期十周,采用线上翻转课堂形式,每周发布两节预录视频,并在线讨论。课程使用《统计反思》第二版教材,涵盖模型构建、因果推断、高维数据处理等内容,并提供R语言代码示例及其他语言版本。课程注册已满。

阅读更多

GitHub上的混沌:James Gleick的混沌软件

2024-11-17

该项目发布于GitHub,是1991年Autodesk DOS程序“James Gleick的混沌:软件”的免费开源版本。该软件由Josh Gordon、Rudy Rucker和John Walker编写,包含六个模块:Mandelbrot集、磁铁摆、奇异吸引子、巴恩斯利分形、分形锻造和玩具宇宙。用户可以在DOSBox中运行该程序,并可以自由修改和上传新版本。

阅读更多
未分类

GitHub - pyro-ppl/numpyro:基于NumPy的概率编程,由JAX支持自动微分和JIT编译到GPU/TPU/CPU

2024-11-16

NumPyro是一个轻量级的概率编程库,它为Pyro提供NumPy后端,并依赖JAX进行自动微分和JIT编译到GPU/CPU/TPU。它支持多种推理算法,特别是MCMC算法,如NUTS、HMC、MixedHMC和HMCECS,以及变分推理。NumPyro提供了类似于PyTorch的distributions模块,并支持使用TFP的分布。它还提供了类似Pyro的效果处理器,用户可以轻松扩展它以实现自定义推理算法和实用程序。文章用一个8所学校的例子演示了NumPyro的使用,包括模型定义、MCMC推理、非中心参数化以及使用Predictive类进行预测。

阅读更多
10
未分类 概率编程 MCMC

HCC:一款将C代码编译为SPIR-V的编译器

2024-11-16

HCC是一款能够将C代码编译成SPIR-V的C编译器,用于Vulkan图形API。它允许在CPU和GPU代码之间共享结构体、枚举和函数。HCC专注于GPU编程的未来,设计围绕无绑定资源和标量对齐等特性。该项目目前处于alpha阶段,支持Windows和Linux,目标是C11支持,并包含数学库。它还提供了一些示例和一个playground应用程序。

阅读更多
未分类 C编译器 SPIR-V

GitHub - juls0730/zqdgr:Zoe 快速 Golang 运行器

2024-11-16

ZQDGR (Zoe's Quick and Dirty Golang Runner) 是一个简单的工具,允许用户像使用 npm 一样运行 Go 项目。它可以监控文件并在修改时重新构建项目,还包含一个可选的 WebSocket 服务器,用于通知监听器 rebuild 事件,这对于使用 Go 进行 Web 开发时的实时重新加载非常有用。

阅读更多
未分类

Go-Taskflow:一个类似Taskflow的Go通用任务并行编程框架

2024-11-16

Go-Taskflow是一个受taskflow-cpp启发的Go通用任务并行编程框架,集成了可视化工具和分析器。它利用Go的原生并发模型和简单的编程接口,简化了复杂任务依赖管理。该框架支持静态任务、条件节点、嵌套子流程和循环流程,并提供优先级任务调度。内置的可视化和分析工具有助于调试和优化。适用于数据流水线、工作流自动化和并行任务等场景。

阅读更多
11
未分类

FreeTOWNSOS:一个兼容FM Towns OS的开源操作系统

2024-11-16

FreeTOWNSOS是一个旨在构建一个无版权的FM Towns OS的开源项目,目标是运行免费游戏、复刻游戏以及全新开发的FM Towns游戏,无需担心原版Towns OS的版权问题。目前该项目已成功运行一些热门免费游戏,如Panic Ball 2、VSGP和Sky Duel。项目使用了如ORICON、Free386、YAMAND.COM和YSDOS.SYS等外部程序或库。

阅读更多

Kyanos:一款用于可视化网络数据包在内核中耗时的命令行工具

2024-11-16

Kyanos是一款基于eBPF的网络问题分析工具,可以捕获HTTP、Redis、MySQL等网络请求,并分析网络异常问题。它提供强大的流量过滤功能,支持按进程、容器、L7协议、请求/响应大小、延迟等过滤。与tcpdump不同,Kyanos支持聚合捕获的数据包指标,并提供内核级别的延迟细节,以可视化方式展示数据包从网卡到内核socket缓冲区的过程。该工具轻量级,几乎无依赖,并支持SSL流量自动解密。

阅读更多
未分类 网络分析

emiT-C:一款时间旅行编程语言

2024-11-16

emiT-C是一款允许变量进行时间旅行并修改过去的实验性编程语言。通过“warps”关键字,变量可以回到之前的“time”点,创建新的时间线并改变程序执行流程。变量有生死状态,被“kills”的变量将永久失效,除非有其他变量回溯阻止其死亡。这种机制容易造成悖论和时间循环,需要谨慎处理。该项目目前处于早期阶段,功能尚在完善中,例如变量间冲突处理、逻辑非运算符等。

阅读更多
未分类

GitHub - pex-tool/pex:一个用于生成.pex(Python可执行文件)、锁定文件和虚拟环境的工具

2024-11-15

pex是一个用于创建.pex文件的工具,.pex文件是一种类似于virtualenvs的可执行Python环境。它简化了Python应用程序的部署,使其像复制文件一样简单。pex文件可以包含多个特定于平台的Python发行版,这意味着单个pex文件可以跨Linux和OS X移植。pex工具可以用来构建pex文件,一些构建系统如Pants、Buck和{py}gradle也支持直接构建.pex文件。

阅读更多
24
未分类 pex virtualenv
1 2 3 4 6 8 9 10 44 45