转置张量文件
2024-11-30
本文讨论了safetensors文件格式的优缺点,并提出了一种改进方案tensorsafe。safetensors文件格式用于存储多维数组,其头部包含张量元数据(形状、类型、偏移量),之后是原始张量数据。然而,这种设计需要两次遍历数据集才能创建文件,并且元数据中的偏移量是相对于数据部分的,使用不便。tensorsafe格式将元数据块移到文件末尾,并使用绝对偏移量,从而解决了这些问题。文章还探讨了其他替代方案,如分块元数据和浮动元数据,并总结了各种设计的优劣。
8