Apertus:一个完全开放的多语言大型语言模型

2025-09-06
Apertus:一个完全开放的多语言大型语言模型

Apertus是一个具有700亿和80亿参数的完全开放的多语言大型语言模型,支持超过1000种语言和长文本上下文。它使用完全合规的开放训练数据,性能与闭源模型相当。Apertus采用新的xIELU激活函数和AdEMAMix优化器进行训练,并经过监督微调和QRPO对齐。该模型的权重、数据和训练细节均公开,并遵守数据所有者的退出同意权,避免记忆训练数据。Apertus已集成到transformers库中,并支持多种部署方式。虽然性能优异,但仍需注意其可能产生不准确或有偏见的信息。

阅读更多

Qwen3-235B-A22B-Thinking-2507:开源思考模型的重大升级

2025-07-25
Qwen3-235B-A22B-Thinking-2507:开源思考模型的重大升级

Qwen3-235B-A22B-Thinking-2507 是一个显著改进的开源大型语言模型,在推理能力方面取得了突破性进展。它在逻辑推理、数学、科学、编码和学术基准测试中表现出色,达到了最先进的水平。该模型还增强了指令遵循、工具使用、文本生成和与人类偏好的一致性等通用能力,并支持256K的长文本理解。 值得注意的是,该模型默认启用“思考模式”,并建议用于高度复杂的推理任务。

阅读更多
AI

SmolLM3:小巧、多语言、长上下文推理模型

2025-07-09
SmolLM3:小巧、多语言、长上下文推理模型

SmolLM3是一个仅30亿参数的开源多语言大模型,在效率和性能上取得了显著平衡。它在多个基准测试中超越了Llama-3.2-3B和Qwen2.5-3B,甚至与更大的40亿参数模型竞争。该模型支持6种语言,上下文长度可达128k,并具有独特的双模式推理能力(think/no_think)。研究人员不仅发布了模型本身,还公开了完整的训练蓝图,包括架构细节、数据混合策略和训练方法,这对于希望构建或理解此规模模型的人来说是一笔宝贵的财富。

阅读更多
AI

Nanonets-OCR-s:超越传统OCR的智能文档处理模型

2025-06-16
Nanonets-OCR-s:超越传统OCR的智能文档处理模型

Nanonets-OCR-s 是一款先进的图像到Markdown OCR 模型,它不仅仅进行简单的文本提取,还能将文档转换为结构化的Markdown格式,并进行智能内容识别和语义标记。该模型支持LaTeX公式识别、智能图像描述、签名检测、水印提取、复选框处理和复杂表格提取等功能,非常适合大型语言模型 (LLM) 的后续处理。用户可以通过transformers、vLLM或docext等方式使用该模型。

阅读更多
AI

19世纪爱尔兰风格语言模型:Penny-1.7B

2025-06-02
19世纪爱尔兰风格语言模型:Penny-1.7B

Penny-1.7B是一个17亿参数的因果语言模型,通过群体相对策略优化(GRPO)微调,模仿1840年爱尔兰《便士杂志》的19世纪散文风格。它使用一个训练过的奖励模型来区分原始杂志文本和现代翻译,从而最大限度地提高生成的文本的真实性。该模型适用于创意写作、教育内容或维多利亚时代爱尔兰英语风格的仿写,但不建议用于需要当代事实的场合。

阅读更多
AI

Hugging Face 上 685B 参数的 DeepSeek-R1-0528 模型发布

2025-05-28
Hugging Face 上 685B 参数的 DeepSeek-R1-0528 模型发布

Hugging Face 平台上新上线了一个名为 DeepSeek-R1-0528 的大型语言模型,参数量高达 6850 亿。该模型采用 Safetensors 格式,支持 BF16、F8_E4M3 和 F32 等多种张量类型。目前尚未有推理提供商部署该模型,但其在 Hugging Face 上的页面显示了模型的详细信息,包括模型卡、文件和版本等信息。

阅读更多
AI

Hugging Face推出免费MCP课程:AI模型上下文协议入门

2025-05-21
Hugging Face推出免费MCP课程:AI模型上下文协议入门

Hugging Face推出了一个免费的Model Context Protocol (MCP) 课程,旨在帮助学习者从入门到精通地掌握MCP。课程内容涵盖MCP理论、设计、实践,以及使用现有MCP SDK和框架构建应用程序。学员可以通过完成作业获得结业证书,并有机会参与挑战赛。课程还包括与Hugging Face合作伙伴合作的单元,提供最新的MCP实现和工具。学习者需要具备基本的AI和LLM概念、软件开发原理和API概念以及至少一门编程语言(Python或TypeScript)的经验。

阅读更多
AI

关于完全自主AI代理的批判性分析

2025-02-08
关于完全自主AI代理的批判性分析

一篇论文批判性地分析了“不应开发完全自主的AI代理”这一论点。论文结构清晰,论证严谨,使用了有用的价值分类法,并有效地指出了自主系统带来的风险,例如安全隐患、隐私泄露和失业。然而,论文立场过于绝对,对“完全自主”的定义模糊,风险收益分析不够平衡,对缓解策略的探讨不足,并带有一定的技术决定论色彩。改进建议包括:放宽绝对立场,改进“完全自主”的定义,平衡风险和收益分析,深入探讨缓解策略,并加强实证依据。总而言之,这篇论文为关于先进AI伦理和社会影响的讨论做出了宝贵贡献,但其结论并非定论,需要进一步探讨。

阅读更多
AI

开源复现DeepSeek-R1推理模型:Open-R1项目启动

2025-01-28
开源复现DeepSeek-R1推理模型:Open-R1项目启动

DeepSeek-R1模型凭借其强大的推理能力惊艳业界,但其训练细节却未公开。Open-R1项目旨在完全开源复现DeepSeek-R1,包括数据集和训练流程。该项目将通过蒸馏DeepSeek-R1的数据,复现其纯强化学习训练流程,并探索多阶段训练方法,最终目标是构建一个透明、可复现的推理模型,并推动开源社区发展。

阅读更多
AI

Janus-Pro-7B:一款统一的多模态理解与生成模型

2025-01-27
Janus-Pro-7B:一款统一的多模态理解与生成模型

DeepSeek发布了Janus-Pro-7B,这是一个创新的自回归框架,它统一了多模态理解和生成能力。不同于以往模型,Janus-Pro巧妙地解耦视觉编码,在单个Transformer架构下实现高效处理。这种解耦不仅解决了视觉编码器在理解和生成中的角色冲突,还提升了框架的灵活性。Janus-Pro在性能上超越了之前的统一模型,与特定任务模型相比也毫不逊色。其简洁性、高灵活性和有效性使其成为下一代统一多模态模型的有力竞争者。

阅读更多
AI

DeepSeek-R1:基于强化学习的推理模型及其蒸馏版

2025-01-20
DeepSeek-R1:基于强化学习的推理模型及其蒸馏版

DeepSeek团队发布了其首个推理模型DeepSeek-R1,该模型通过大规模强化学习训练,无需监督微调。为了解决DeepSeek-R1-Zero版本中存在的重复、可读性和语言混合等问题,DeepSeek-R1在强化学习前加入了冷启动数据,并在推理性能上与OpenAI-o1模型相当。此外,团队还开源了DeepSeek-R1及其六个基于Llama和Qwen的蒸馏模型,其中DeepSeek-R1-Distill-Qwen-32B在多个基准测试中超越了OpenAI-o1-mini,取得了新的SOTA结果。这些模型已在Hugging Face上公开,并提供配套的API和在线聊天平台。

阅读更多

Sentence Transformers:训练速度提升400倍的静态嵌入模型

2025-01-15
Sentence Transformers:训练速度提升400倍的静态嵌入模型

本文介绍了一种训练静态嵌入模型的方法,该方法在CPU上的运行速度比最先进的嵌入模型快100到400倍,同时保持了大部分质量。这解锁了许多令人兴奋的用例,包括设备上和浏览器中的执行、边缘计算、低功耗和嵌入式应用。我们应用此方法训练了两个极其高效的嵌入模型:sentence-transformers/static-retrieval-mrl-en-v1(用于英文检索)和sentence-transformers/static-similarity-mrl-multilingual-v1(用于多语言相似性任务)。这些模型在CPU上的速度比all-mpnet-base-v2和multilingual-e5-small等常用模型快100到400倍,同时在各种基准测试中达到至少85%的性能。

阅读更多

ModernBERT:BERT 的革命性替代品

2024-12-19
ModernBERT:BERT 的革命性替代品

Answer.AI 和 LightOn 推出了 ModernBERT,一个比 BERT 更快、更准确的编码器模型系列。ModernBERT 结合了近年来大型语言模型的诸多进展,具有更长的上下文长度(8192 个 token)、更快的处理速度以及在各种基准测试中更优异的性能。其在代码检索方面尤其出色,为代码搜索和 IDE 功能等新应用打开了大门。ModernBERT 可作为 BERT 模型的直接替代品,并已在 Hugging Face 上提供。

阅读更多

Hugging Face Spaces 推出 ZeroGPU:动态 GPU 分配提升 AI 模型效率

2024-12-15
Hugging Face Spaces 推出 ZeroGPU:动态 GPU 分配提升 AI 模型效率

Hugging Face Spaces 推出了 ZeroGPU,这是一个动态分配 NVIDIA A100 GPU 的共享基础设施,旨在优化 AI 模型和演示的 GPU 使用效率。ZeroGPU 支持免费 GPU 访问、多 GPU 支持,并能有效降低开发和部署 AI 模型的门槛。用户只需在创建 Gradio 空间时选择 ZeroGPU 硬件,并使用 `@spaces.GPU` 装饰器标记 GPU 相关函数即可。ZeroGPU 与 PyTorch 兼容,并针对 Hugging Face 的 transformers 和 diffusers 库进行了优化,但目前仅限于 Gradio SDK。个人账户(PRO 用户)最多可创建 10 个 ZeroGPU 空间,组织账户(企业版)最多可创建 50 个。

阅读更多

Meta Llama 3.3-70B-Instruct 模型发布

2024-12-06
Meta Llama 3.3-70B-Instruct 模型发布

Meta 发布了Llama 3.3-70B-Instruct,这是一个经过预训练和指令微调的多语言大型语言模型。该模型针对多语言对话用例进行了优化,并在常见行业基准测试中优于许多现有的开源和闭源聊天模型。它支持多种工具使用格式和聊天模板,并提供8位和4位量化以优化内存使用。该模型遵循Meta负责任的发布方法,旨在安全、灵活地部署,并提供保护措施以防止滥用。开发者在部署Llama 3.3时,需要进行安全测试和调整,并遵守Llama 3.3社区许可协议和可接受使用策略。

阅读更多
未分类 Llama 3.3

OuteAI/OuteTTS-0.1-350M 语音合成模型

2024-11-09
OuteAI/OuteTTS-0.1-350M 语音合成模型

OuteTTS-0.1-350M是一个基于LLaMa架构的文本转语音合成模型,使用纯语言建模方法,无需外部适配器或复杂架构。它通过精心设计的提示和音频标记实现了高质量的语音合成,并具有声音克隆功能。该模型采用三步音频处理方法:使用WavTokenizer进行音频标记化、CTC强制对齐以及结构化提示创建。目前版本为v0.1,存在一些限制,例如词汇量限制、仅支持字符串输入、输出质量可能不稳定以及对长句子的准确性较低。

阅读更多
未分类 LLaMa

ostris/OpenFLUX.1 模型介绍

2024-10-04
ostris/OpenFLUX.1 模型介绍

这是一篇介绍 Hugging Face 上名为 ostris/OpenFLUX.1 的文本到图像扩散模型的文章。该模型是 FLUX.1-schnell 模型的微调版本,移除了蒸馏训练部分,采用经典的 CFG 方法,允许用户进行微调。文章还介绍了模型的使用方法和代码示例。

阅读更多
未分类

Hugging Face 推出 NVLM 1.0,这是一系列前沿的多模态大型语言模型

2024-10-02
Hugging Face 推出 NVLM 1.0,这是一系列前沿的多模态大型语言模型

这篇文章介绍了英伟达发布的 NVLM 1.0,这是一系列前沿的多模态大型语言模型 (LLM),在视觉语言任务上取得了最先进的结果,可与领先的专有模型(例如 GPT-4o)和开放访问模型(例如 Llama 3-V 405B 和 InternVL 2)相媲美。文章详细介绍了 NVLM-D-72B(仅解码器架构)的模型权重、代码、环境准备、模型加载、多 GPU 使用以及推理过程等内容。

阅读更多
未分类

利用abliteration技术去除LLM模型的审查机制

2024-06-13
利用abliteration技术去除LLM模型的审查机制

本文介绍了abliteration技术,该技术可以去除大型语言模型(LLM)的审查机制,使其能够响应所有类型的提示。文章详细介绍了abliteration技术的原理和实现步骤,并通过实验验证了其效果。实验结果表明,abliteration技术能够有效去除LLM模型的审查机制,但也可能导致模型性能下降。为了解决这个问题,文章建议使用DPO等技术对abliterated模型进行微调,以恢复其性能。

阅读更多

Hugging Face曝安全漏洞:部分用户密钥或泄露

2024-06-01
Hugging Face曝安全漏洞:部分用户密钥或泄露

Hugging Face近日发现其Spaces平台存在未经授权的访问行为,可能导致部分用户密钥泄露。作为补救措施,Hugging Face已撤销了受影响的HF tokens,并建议用户刷新密钥或token,并改用更安全的细粒度访问令牌。此外,Hugging Face还采取了其他安全措施,包括移除组织令牌、实施密钥管理服务、增强识别和作废泄露令牌的能力等。

阅读更多

apple/OpenELM · Hugging Face

2024-04-24
apple/OpenELM · Hugging Face

Hugging Face上OpenELM的页面提供了关于OpenELM模型的信息,包括其文档、预训练模型、示例和讨论区。OpenELM是一个面向自然语言处理任务的高效语言模型,由Apple开发。该页面允许用户探索OpenELM模型,了解其功能并参与相关的讨论。

阅读更多
未分类