Webtagr - 科技资讯摘要

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

Apertus：一个完全开放的多语言大型语言模型

2025-09-06

Apertus：一个完全开放的多语言大型语言模型

Apertus是一个具有700亿和80亿参数的完全开放的多语言大型语言模型，支持超过1000种语言和长文本上下文。它使用完全合规的开放训练数据，性能与闭源模型相当。Apertus采用新的xIELU激活函数和AdEMAMix优化器进行训练，并经过监督微调和QRPO对齐。该模型的权重、数据和训练细节均公开，并遵守数据所有者的退出同意权，避免记忆训练数据。Apertus已集成到transformers库中，并支持多种部署方式。虽然性能优异，但仍需注意其可能产生不准确或有偏见的信息。

(huggingface.co)

AI 开放模型

Qwen3-235B-A22B-Thinking-2507：开源思考模型的重大升级

2025-07-25

Qwen3-235B-A22B-Thinking-2507：开源思考模型的重大升级

Qwen3-235B-A22B-Thinking-2507 是一个显著改进的开源大型语言模型，在推理能力方面取得了突破性进展。它在逻辑推理、数学、科学、编码和学术基准测试中表现出色，达到了最先进的水平。该模型还增强了指令遵循、工具使用、文本生成和与人类偏好的一致性等通用能力，并支持256K的长文本理解。值得注意的是，该模型默认启用“思考模式”，并建议用于高度复杂的推理任务。

(huggingface.co)

AI

SmolLM3：小巧、多语言、长上下文推理模型

2025-07-09

SmolLM3：小巧、多语言、长上下文推理模型

SmolLM3是一个仅30亿参数的开源多语言大模型，在效率和性能上取得了显著平衡。它在多个基准测试中超越了Llama-3.2-3B和Qwen2.5-3B，甚至与更大的40亿参数模型竞争。该模型支持6种语言，上下文长度可达128k，并具有独特的双模式推理能力（think/no_think）。研究人员不仅发布了模型本身，还公开了完整的训练蓝图，包括架构细节、数据混合策略和训练方法，这对于希望构建或理解此规模模型的人来说是一笔宝贵的财富。

(huggingface.co)

AI

Nanonets-OCR-s：超越传统OCR的智能文档处理模型

2025-06-16

Nanonets-OCR-s：超越传统OCR的智能文档处理模型

Nanonets-OCR-s 是一款先进的图像到Markdown OCR 模型，它不仅仅进行简单的文本提取，还能将文档转换为结构化的Markdown格式，并进行智能内容识别和语义标记。该模型支持LaTeX公式识别、智能图像描述、签名检测、水印提取、复选框处理和复杂表格提取等功能，非常适合大型语言模型 (LLM) 的后续处理。用户可以通过transformers、vLLM或docext等方式使用该模型。

(huggingface.co)

AI

19世纪爱尔兰风格语言模型：Penny-1.7B

2025-06-02

19世纪爱尔兰风格语言模型：Penny-1.7B

Penny-1.7B是一个17亿参数的因果语言模型，通过群体相对策略优化（GRPO）微调，模仿1840年爱尔兰《便士杂志》的19世纪散文风格。它使用一个训练过的奖励模型来区分原始杂志文本和现代翻译，从而最大限度地提高生成的文本的真实性。该模型适用于创意写作、教育内容或维多利亚时代爱尔兰英语风格的仿写，但不建议用于需要当代事实的场合。

(huggingface.co)

AI

Hugging Face 上 685B 参数的 DeepSeek-R1-0528 模型发布

2025-05-28

Hugging Face 上 685B 参数的 DeepSeek-R1-0528 模型发布

Hugging Face 平台上新上线了一个名为 DeepSeek-R1-0528 的大型语言模型，参数量高达 6850 亿。该模型采用 Safetensors 格式，支持 BF16、F8_E4M3 和 F32 等多种张量类型。目前尚未有推理提供商部署该模型，但其在 Hugging Face 上的页面显示了模型的详细信息，包括模型卡、文件和版本等信息。

(huggingface.co)

AI

Hugging Face推出免费MCP课程：AI模型上下文协议入门

2025-05-21

Hugging Face推出免费MCP课程：AI模型上下文协议入门

Hugging Face推出了一个免费的Model Context Protocol (MCP) 课程，旨在帮助学习者从入门到精通地掌握MCP。课程内容涵盖MCP理论、设计、实践，以及使用现有MCP SDK和框架构建应用程序。学员可以通过完成作业获得结业证书，并有机会参与挑战赛。课程还包括与Hugging Face合作伙伴合作的单元，提供最新的MCP实现和工具。学习者需要具备基本的AI和LLM概念、软件开发原理和API概念以及至少一门编程语言（Python或TypeScript）的经验。

(huggingface.co)

AI

关于完全自主AI代理的批判性分析

2025-02-08

关于完全自主AI代理的批判性分析

一篇论文批判性地分析了“不应开发完全自主的AI代理”这一论点。论文结构清晰，论证严谨，使用了有用的价值分类法，并有效地指出了自主系统带来的风险，例如安全隐患、隐私泄露和失业。然而，论文立场过于绝对，对“完全自主”的定义模糊，风险收益分析不够平衡，对缓解策略的探讨不足，并带有一定的技术决定论色彩。改进建议包括：放宽绝对立场，改进“完全自主”的定义，平衡风险和收益分析，深入探讨缓解策略，并加强实证依据。总而言之，这篇论文为关于先进AI伦理和社会影响的讨论做出了宝贵贡献，但其结论并非定论，需要进一步探讨。

(huggingface.co)

AI

开源复现DeepSeek-R1推理模型：Open-R1项目启动

2025-01-28

开源复现DeepSeek-R1推理模型：Open-R1项目启动

DeepSeek-R1模型凭借其强大的推理能力惊艳业界，但其训练细节却未公开。Open-R1项目旨在完全开源复现DeepSeek-R1，包括数据集和训练流程。该项目将通过蒸馏DeepSeek-R1的数据，复现其纯强化学习训练流程，并探索多阶段训练方法，最终目标是构建一个透明、可复现的推理模型，并推动开源社区发展。

(huggingface.co)

AI

Janus-Pro-7B：一款统一的多模态理解与生成模型

2025-01-27

Janus-Pro-7B：一款统一的多模态理解与生成模型

DeepSeek发布了Janus-Pro-7B，这是一个创新的自回归框架，它统一了多模态理解和生成能力。不同于以往模型，Janus-Pro巧妙地解耦视觉编码，在单个Transformer架构下实现高效处理。这种解耦不仅解决了视觉编码器在理解和生成中的角色冲突，还提升了框架的灵活性。Janus-Pro在性能上超越了之前的统一模型，与特定任务模型相比也毫不逊色。其简洁性、高灵活性和有效性使其成为下一代统一多模态模型的有力竞争者。

(huggingface.co)

AI

DeepSeek-R1：基于强化学习的推理模型及其蒸馏版

2025-01-20

DeepSeek-R1：基于强化学习的推理模型及其蒸馏版

DeepSeek团队发布了其首个推理模型DeepSeek-R1，该模型通过大规模强化学习训练，无需监督微调。为了解决DeepSeek-R1-Zero版本中存在的重复、可读性和语言混合等问题，DeepSeek-R1在强化学习前加入了冷启动数据，并在推理性能上与OpenAI-o1模型相当。此外，团队还开源了DeepSeek-R1及其六个基于Llama和Qwen的蒸馏模型，其中DeepSeek-R1-Distill-Qwen-32B在多个基准测试中超越了OpenAI-o1-mini，取得了新的SOTA结果。这些模型已在Hugging Face上公开，并提供配套的API和在线聊天平台。

(huggingface.co)

AI 模型蒸馏

Sentence Transformers：训练速度提升400倍的静态嵌入模型

2025-01-15

Sentence Transformers：训练速度提升400倍的静态嵌入模型

本文介绍了一种训练静态嵌入模型的方法，该方法在CPU上的运行速度比最先进的嵌入模型快100到400倍，同时保持了大部分质量。这解锁了许多令人兴奋的用例，包括设备上和浏览器中的执行、边缘计算、低功耗和嵌入式应用。我们应用此方法训练了两个极其高效的嵌入模型：sentence-transformers/static-retrieval-mrl-en-v1（用于英文检索）和sentence-transformers/static-similarity-mrl-multilingual-v1（用于多语言相似性任务）。这些模型在CPU上的速度比all-mpnet-base-v2和multilingual-e5-small等常用模型快100到400倍，同时在各种基准测试中达到至少85％的性能。

(huggingface.co)

AI 静态嵌入 Sentence Transformers

ModernBERT：BERT 的革命性替代品

2024-12-19

ModernBERT：BERT 的革命性替代品

Answer.AI 和 LightOn 推出了 ModernBERT，一个比 BERT 更快、更准确的编码器模型系列。ModernBERT 结合了近年来大型语言模型的诸多进展，具有更长的上下文长度（8192 个 token）、更快的处理速度以及在各种基准测试中更优异的性能。其在代码检索方面尤其出色，为代码搜索和 IDE 功能等新应用打开了大门。ModernBERT 可作为 BERT 模型的直接替代品，并已在 Hugging Face 上提供。

(huggingface.co)

AI ModernBERT 编码器模型

Hugging Face Spaces 推出 ZeroGPU：动态 GPU 分配提升 AI 模型效率

2024-12-15

Hugging Face Spaces 推出 ZeroGPU：动态 GPU 分配提升 AI 模型效率

Hugging Face Spaces 推出了 ZeroGPU，这是一个动态分配 NVIDIA A100 GPU 的共享基础设施，旨在优化 AI 模型和演示的 GPU 使用效率。ZeroGPU 支持免费 GPU 访问、多 GPU 支持，并能有效降低开发和部署 AI 模型的门槛。用户只需在创建 Gradio 空间时选择 ZeroGPU 硬件，并使用 `@spaces.GPU` 装饰器标记 GPU 相关函数即可。ZeroGPU 与 PyTorch 兼容，并针对 Hugging Face 的 transformers 和 diffusers 库进行了优化，但目前仅限于 Gradio SDK。个人账户（PRO 用户）最多可创建 10 个 ZeroGPU 空间，组织账户（企业版）最多可创建 50 个。

(huggingface.co)

2

AI ZeroGPU GPU资源分配

Meta Llama 3.3-70B-Instruct 模型发布

2024-12-06

Meta Llama 3.3-70B-Instruct 模型发布

Meta 发布了Llama 3.3-70B-Instruct，这是一个经过预训练和指令微调的多语言大型语言模型。该模型针对多语言对话用例进行了优化，并在常见行业基准测试中优于许多现有的开源和闭源聊天模型。它支持多种工具使用格式和聊天模板，并提供8位和4位量化以优化内存使用。该模型遵循Meta负责任的发布方法，旨在安全、灵活地部署，并提供保护措施以防止滥用。开发者在部署Llama 3.3时，需要进行安全测试和调整，并遵守Llama 3.3社区许可协议和可接受使用策略。

(huggingface.co)

10

未分类 Llama 3.3

OuteAI/OuteTTS-0.1-350M 语音合成模型

2024-11-09

OuteAI/OuteTTS-0.1-350M 语音合成模型

OuteTTS-0.1-350M是一个基于LLaMa架构的文本转语音合成模型，使用纯语言建模方法，无需外部适配器或复杂架构。它通过精心设计的提示和音频标记实现了高质量的语音合成，并具有声音克隆功能。该模型采用三步音频处理方法：使用WavTokenizer进行音频标记化、CTC强制对齐以及结构化提示创建。目前版本为v0.1，存在一些限制，例如词汇量限制、仅支持字符串输入、输出质量可能不稳定以及对长句子的准确性较低。

(huggingface.co)

30

未分类 LLaMa

ostris/OpenFLUX.1 模型介绍

2024-10-04

ostris/OpenFLUX.1 模型介绍

这是一篇介绍 Hugging Face 上名为 ostris/OpenFLUX.1 的文本到图像扩散模型的文章。该模型是 FLUX.1-schnell 模型的微调版本，移除了蒸馏训练部分，采用经典的 CFG 方法，允许用户进行微调。文章还介绍了模型的使用方法和代码示例。

(huggingface.co)

28

未分类

Hugging Face 推出 NVLM 1.0，这是一系列前沿的多模态大型语言模型

2024-10-02

Hugging Face 推出 NVLM 1.0，这是一系列前沿的多模态大型语言模型

这篇文章介绍了英伟达发布的 NVLM 1.0，这是一系列前沿的多模态大型语言模型 (LLM)，在视觉语言任务上取得了最先进的结果，可与领先的专有模型（例如 GPT-4o）和开放访问模型（例如 Llama 3-V 405B 和 InternVL 2）相媲美。文章详细介绍了 NVLM-D-72B（仅解码器架构）的模型权重、代码、环境准备、模型加载、多 GPU 使用以及推理过程等内容。

(huggingface.co)

32

未分类

victor的Hugging Face空间：假昆虫

2024-08-18

victor的Hugging Face空间：假昆虫

这是一篇介绍Hugging Face空间中名为“假昆虫”的作品，由victor创作。

(huggingface.co)

68

未分类

Hugging Face 上的 numind/NuExtract

2024-06-29

Hugging Face 上的 numind/NuExtract

numind/NuExtract 是一个基于 phi-3-mini 的信息提取模型，在 Hugging Face 上提供使用。该模型经过高质量私有数据集的微调，可用于从文本中提取信息。用户可以通过提供 JSON 模板来指定要提取的信息格式。

(huggingface.co)

111

未分类信息提取

开放式大语言模型性能停滞不前，让我们再次让排行榜变得陡峭

2024-06-29

开放式大语言模型性能停滞不前，让我们再次让排行榜变得陡峭

Hugging Face Space 上的“开放式大语言模型性能停滞不前，让我们再次让排行榜变得陡峭”项目指出，开放式大语言模型的性能表现趋于平稳。该项目旨在通过持续评估和比较不同的模型，推动开放式大语言模型的发展，使其性能再次快速提升。

(huggingface.co)

51

未分类

利用abliteration技术去除LLM模型的审查机制

2024-06-13

利用abliteration技术去除LLM模型的审查机制

本文介绍了abliteration技术，该技术可以去除大型语言模型（LLM）的审查机制，使其能够响应所有类型的提示。文章详细介绍了abliteration技术的原理和实现步骤，并通过实验验证了其效果。实验结果表明，abliteration技术能够有效去除LLM模型的审查机制，但也可能导致模型性能下降。为了解决这个问题，文章建议使用DPO等技术对abliterated模型进行微调，以恢复其性能。

(huggingface.co)

79

未分类 abliteration 审查机制

FineWeb：大规模提取优质网络文本数据

2024-06-02

FineWeb：大规模提取优质网络文本数据

FineWeb 是一个由 Hugging Face 推出的开源项目，旨在从互联网上提取高质量的文本数据。该项目利用机器学习和自然语言处理技术，对网页内容进行分析和筛选，剔除低质量、重复和有害信息，为大型语言模型训练提供高质量数据集。

(huggingface.co)

48

未分类文本数据

Hugging Face曝安全漏洞：部分用户密钥或泄露

2024-06-01

Hugging Face曝安全漏洞：部分用户密钥或泄露

Hugging Face近日发现其Spaces平台存在未经授权的访问行为，可能导致部分用户密钥泄露。作为补救措施，Hugging Face已撤销了受影响的HF tokens，并建议用户刷新密钥或token，并改用更安全的细粒度访问令牌。此外，Hugging Face还采取了其他安全措施，包括移除组织令牌、实施密钥管理服务、增强识别和作废泄露令牌的能力等。

(huggingface.co)

111

未分类密钥泄露 Hugging Face

apple/OpenELM · Hugging Face

2024-04-24

apple/OpenELM · Hugging Face

Hugging Face上OpenELM的页面提供了关于OpenELM模型的信息，包括其文档、预训练模型、示例和讨论区。OpenELM是一个面向自然语言处理任务的高效语言模型，由Apple开发。该页面允许用户探索OpenELM模型，了解其功能并参与相关的讨论。

(huggingface.co)

52

未分类

IP-Adapter-FaceID

2024-01-19

IP-Adapter-FaceID可以根据仅有的文本提示，在面部条件下生成各种风格的图像。

(huggingface.co)

55

未分类