大型语言模型数据管道和通用抓取(WARC/WAT/WET)

2024-06-19

本文介绍了训练大型语言模型(LLM)的数据管道,重点介绍了使用通用抓取(CC)数据集的流程。文章详细解释了CC数据集的不同格式(WARC/WAT/WET),以及如何从中提取和处理文本数据。文章还涵盖了数据去重、语言识别和过滤、以及使用语言模型进行质量控制等关键步骤,并比较了CCNet和RefinedWeb两种不同管道的设计思路和方法。

阅读更多
未分类 通用抓取

阿吉帕 (死者之书)

2024-06-19

文章讲述了1992年威廉·吉布森、丹尼斯·阿什博和凯文·贝戈斯,三人合作创作了一个名为“阿吉帕 (死者之书)”的艺术项目。该项目包含实体和数字两个部分,实体部分由艺术家阿什博创作,数字部分则由科幻作家吉布森创作。数字部分是一首名为“阿吉帕”的诗歌,存储在一张软盘上,并在阅读一次后自我销毁。 文章详细描述了项目的创作过程、加密技术、媒体报道以及公众反应,并探讨了该项目在艺术史上的地位和意义。

阅读更多
未分类

Amphi:基于 Python 的低代码 ETL 工具

2024-06-19
Amphi:基于 Python 的低代码 ETL 工具

Amphi 是一款基于 Python 的 ETL(提取、转换、加载)工具,旨在从各种来源和格式中提取、准备和清理数据。它通过图形用户界面设计数据管道,并生成可在任何地方部署的原生 Python 代码。Amphi 适用于数据集成、数据科学和基于 LLM 的系统的数据提取和准备,以及 API 检索和充实。

阅读更多
131
未分类

RTranslator:全球首个开源实时翻译应用

2024-06-19
RTranslator:全球首个开源实时翻译应用

RTranslator是一款开源、免费、离线的Android实时翻译应用。它使用Meta的NLLB进行翻译,使用OpenAi的Whisper进行语音识别,这两款AI模型都直接在手机上运行,确保了绝对的隐私和离线使用的可能性。RTranslator支持多种语言,提供对话模式、对讲机模式和文本翻译模式,并具有后台运行功能。

阅读更多
98
未分类 Android应用

NAT环境下Wi-Fi网络中的非路径TCP劫持

2024-06-19
NAT环境下Wi-Fi网络中的非路径TCP劫持

本文揭示了路由器NAT映射处理中的一个安全漏洞,攻击者可以利用该漏洞绕过TCP的内置随机化,从而实现对Wi-Fi TCP流量的劫持。研究测试了来自30个不同制造商的67个主流路由器,发现其中52个路由器容易受到这种攻击。文章还提出了三种缓解措施:随机端口分配、反向路径验证和TCP窗口检查。

阅读更多

服装捐赠堆积如山,非洲纺织品浪费问题堪忧

2024-06-19
服装捐赠堆积如山,非洲纺织品浪费问题堪忧

本文探讨了欧美国家向非洲捐赠旧衣物导致的纺织品浪费问题。作者指出,大量低质量的旧衣物最终被丢弃或焚烧,对环境和经济造成负面影响。文章呼吁修改贸易法案,鼓励对非洲回收基础设施的投资,并支持非洲本土的环保创新和人才培养,以解决纺织品浪费问题,实现可持续发展。

阅读更多

iOS 18 或将导致第三方应用损失 4 亿美元收入

2024-06-19
iOS 18 或将导致第三方应用损失 4 亿美元收入

据应用情报公司 Appfigures 分析,苹果公司计划在今年秋季发布的 iOS 18 系统中,将新增多项功能与第三方应用重合,可能导致这些应用损失约 3.93 亿美元的收入。受影响的应用类别包括追踪应用、语法助手、数学解题、密码管理器以及自定义表情符号等,其中以追踪应用受损最为严重,年收入损失高达 3.07 亿美元。

阅读更多
未分类 第三方应用

高级Shell脚本技术:使用Bash自动化复杂任务

2024-06-19
高级Shell脚本技术:使用Bash自动化复杂任务

本文探讨了Bash中的高级shell脚本技术,侧重于脚本优化、稳健的错误处理和自动化复杂的系统管理任务。文章涵盖了优化技巧,如使用内置命令、最小化子shell、数组、noclobber选项、函数和高效的文件操作,以及错误处理策略,如退出错误、自定义错误消息、信号捕获、输入验证和日志记录。此外,还提供了使用Bash脚本自动化备份、系统监控、用户管理、更新和网络配置等任务的实用示例。

阅读更多
54
未分类 Bash脚本

反叛精神

2024-06-19
反叛精神

播客系列节目《反叛精神》讲述了20世纪60年代一群特立独行的嬉皮士,在一个秘密实验室里开发出智能科技的故事。这些远早于乔布斯的技术,最终却被硅谷扭曲。节目揭示了这段迷人的历史,涵盖了冷战精神病学、毛主义、麦角酸二乙酰胺、洛克菲勒家族、科学教、中央情报局的超感官知觉以及技术自由主义的出现。

阅读更多
未分类

利用推测执行攻破 ARM 的内存标记扩展

2024-06-19
利用推测执行攻破 ARM 的内存标记扩展

这篇论文揭示了ARM内存标记扩展 (MTE) 面临的潜在安全风险,特别是由推测执行攻击带来的风险。作者发现了一种名为TikTag的新型攻击方法,可以利用推测执行从任意内存地址泄漏MTE标签。通过TikTag,攻击者可以绕过MTE的概率防御,将攻击成功率提高到接近100%。论文展示了TikTag如何绕过现实世界系统(如谷歌浏览器和Linux内核)中的MTE保护机制,并提出了新的防御机制以减轻TikTag带来的安全风险。

阅读更多
68

互联网补贴计划再次受阻

2024-06-19
互联网补贴计划再次受阻

美国联邦通信委员会(FCC)试图通过频谱拍卖收益来资助互联网补贴计划“平价互联计划”(ACP)的努力再次受阻。民主党提出的法案旨在为ACP提供资金,而共和党提出的法案则没有。参议院商务委员会主席玛丽亚·坎特维尔指责共和党议员阻挠立法,而共和党议员则提出了自己的频谱立法,该立法侧重于扩大商业对5G常用中频段频谱的访问。由于总统大选临近,任何两党合作都将变得更加困难,ACP的复兴前景黯淡。

阅读更多
未分类 补贴

加州议员应否决强制互联网身份检查法案

2024-06-18
加州议员应否决强制互联网身份检查法案

电子前哨基金会(EFF)敦促加州议员反对A.B. 3080法案,该法案将要求互联网用户在浏览色情内容时出示身份证。EFF认为,该法案将审查互联网,侵犯成年人浏览网络的权利,并导致数据泄露风险增加。EFF强调,网络身份检查与现实世界不同,会创建持久记录,增加数据落入坏人手中的风险。此外,该法案对“色情内容”定义模糊,可能导致广泛网站被错误分类。EFF指出,美国法院已多次否决类似的年龄分级法案,加州应作为网络隐私法的领导者,否决该法案。

阅读更多
未分类 网络隐私

C# 游戏序列化:打造更轻松的游戏开发体验

2024-06-18
C# 游戏序列化:打造更轻松的游戏开发体验

本文介绍了Chickensoft推出的一系列C#游戏开发工具,重点讲解了全新的序列化系统。该系统旨在解决传统序列化方法的痛点,如版本控制、多态反序列化、集合处理等。文章详细介绍了Introspection生成器、Serialization系统、SaveFileBuilder等工具,以及它们如何协同工作,简化C#游戏中的数据保存和加载。文章还介绍了如何使用这些工具序列化Godot引擎的特定类型,以及如何将它们应用于层次状态机。最后,文章以Chickensoft游戏演示为例,展示了这些工具的实际应用。

阅读更多
未分类 序列化

英伟达超越微软成为全球市值最高公司

2024-06-18
英伟达超越微软成为全球市值最高公司

截至2024年6月18日,GPU制造商英伟达的市值已达到3.335万亿美元,超过微软成为全球市值最高的公司。得益于生成式AI技术的蓬勃发展,英伟达的芯片需求量大增,推动了其股价的飙升。今年以来,英伟达的股价已上涨了160%,2月份才突破2万亿美元大关。

阅读更多
未分类

Rust 中的进程间通信:乒乓比较

2024-06-18

本文探讨并比较了 Rust 中几种进程间通信方法,包括管道、TCP、UDP 和共享内存,并通过“乒乓”测试评估其性能。结果表明,共享内存的速度最快,但实现复杂且存在安全风险;其他方法性能接近,但远低于共享内存。作者建议根据实际需求选择合适的通信方式,并提供了代码示例和测试结果分析。

阅读更多
未分类 进程间通信

水的结冰之谜

2024-06-18
水的结冰之谜

文章探讨了水结冰的奥秘,指出水结冰并非只是简单的达到零摄氏度,还需要成核过程。文章介绍了影响冰核形成的因素,包括温度、杂质、表面结构等,并提到了科学家正在通过计算机模拟和研究自然界中的细菌、真菌等来揭示冰核形成的机制,以及这些研究在人工降雨、防雹等领域的潜在应用。

阅读更多
未分类 结冰 冰核

Plasma 6.1:未来桌面已就绪

2024-06-18
Plasma 6.1:未来桌面已就绪

KDE社区发布了Plasma 6.1,新版本在6.0版本的基础上进行了改进,实现了许多强大的新功能,包括远程访问Plasma桌面、更强大的自定义功能(例如同步键盘LED颜色以匹配桌面主题色)、改进的编辑模式、应用程序持久化、屏幕锁定选项以及Wayland的重大突破等,提升了用户体验。

阅读更多
61
未分类 Plasma

Mozilla 收购广告公司 Anonym,押注隐私与广告兼容

2024-06-18
Mozilla 收购广告公司 Anonym,押注隐私与广告兼容

Mozilla 收购了广告指标公司 Anonym,旨在帮助在线广告行业在保护用户隐私的同时提供有效的广告。Anonym 由前 Meta 高管于 2022 年创立,其技术可以帮助广告商和广告网络在保护用户隐私的情况下衡量广告效果。Mozilla 首席执行官 Laura Chambers 表示,此举是为了应对行业向更加注重隐私的广告模式转变。

阅读更多
未分类

美国海军成功将航空母舰连接到云端

2024-06-18
美国海军成功将航空母舰连接到云端

美国海军成功完成一项将航空母舰连接到云端的试点项目。该项目在“亚伯拉罕·林肯”号航空母舰上进行,展示了海军每天可以在云和数千名用户之间持续传输数TB的数据。该项目被称为“侧翼速度边缘”,是海军更广泛的云环境“侧翼速度”的扩展。连接由低地球轨道卫星服务实现,该服务通过光链路形成网状网络。

阅读更多
未分类 航空母舰

人工智能竞选怀俄明州州长

2024-06-18
人工智能竞选怀俄明州州长

Victor Miller 正在竞选怀俄明州州长,他承诺如果当选,将由一个名为 VIC 的人工智能聊天机器人来做决策。Miller 认为,VIC 比许多现任政府官员更聪明,更了解法律。然而,怀俄明州州务卿 Chuck Gray 表示,人工智能机器人不能成为合格的选民,因此 VIC 不能参加竞选。Miller 认为,VIC 在分析政策文件、了解民意和做出决策方面具有优势。

阅读更多
未分类

语言模型中的拒绝行为由单一方向介导

2024-06-18
语言模型中的拒绝行为由单一方向介导

这篇论文研究了大型语言模型如何拒绝执行有害指令。研究发现,模型拒绝行为是由模型残差流激活中一个单一方向介导的,通过操控这个方向可以控制模型的拒绝行为。作者提出了一种新的白盒攻击方法,可以精准地消除模型的拒绝行为,同时对其他能力的影响最小。

阅读更多
62
未分类 拒绝行为

亚马逊因违反加州劳动法被罚款 590 万美元

2024-06-18
亚马逊因违反加州劳动法被罚款 590 万美元

加州劳工官员对亚马逊处以 590 万美元罚款,原因是该公司违反了一项旨在防止仓库工人因工作速度过快而损害身心健康的州法律。这是加州劳工委员会根据 2022 年生效的《仓库配额法》开出的最高罚单,该法律限制了“必须以特定速度完成否则工人将受到处罚的工作”的配额。加州调查了亚马逊位于洛杉矶附近的两家工厂,并于 5 月份发现该公司未能“向每位员工提供与其所承担配额相关的书面通知”。

阅读更多
未分类 仓库工人

儿童网络安全法案获得足够支持,将在参议院获得通过

2024-06-18
儿童网络安全法案获得足够支持,将在参议院获得通过

儿童网络安全法案(KOSA)获得了超过60名参议员的支持,达到参议院通过所需票数。该法案旨在让科技平台承担起保护未成年人网络安全的责任,允许未成年人选择退出基于算法的推荐。法案修改了一些条款以解决人们对于政治和执法部门审查网络内容的担忧,例如明确“设计功能”的定义,并移除州检察长执行监管的权力。一些LGBTQ+团体表示,如果新法案获得推进,他们将不会反对。但一些团体,例如电子前沿基金会,仍然反对该法案,认为它仍然是一项危险的审查法案。

阅读更多
1 2 889 890 891 893 895 896 897 1084 1085