大规模存储系统数据消冗

978-7-115-61016-4
作者: 夏文冯丹华宇邹翔宇
译者:
编辑: 贺瑞君

图书目录:

第 1 章绪论 1

1.1 数据增长与数据消冗 1

1.2 大规模存储系统冗余负载分析 2

1.3 数据消冗技术的应用与挑战 4

1.4 本章小结 6

参考文献 6

第 2 章从传统压缩到大规模数据消冗 10

2.1 传统压缩技术 10

2.2 数据去重技术 13

2.3 差量压缩技术 16

2.4 本章小结 19

参考文献 19

第3 章数据消冗前沿技术概述 23

3.1 数据分块 23

3.2 计算加速 28

3.3 指纹索引 29

3.4 数据恢复 32

3.5 垃圾回收 33

3.6 安全性 36

3.7 可靠性 38

3.8 差量压缩 39

3.9 开源社区实践 41

3.10 本章小结 43

参考文献 43

第4 章极速基于内容分块算法 53

4.1 技术背景 53

4.1.1 FSC 算法 54

4.1.2 CDC 算法 55

4.2 典型的CDC 算法 56

4.2.1 基于拉宾指纹的CDC 算法 56

4.2.2 非对称极值CDC 算法 57

4.3 FastCDC 算法的技术框架 59

4.3.1 基于齿轮哈希的CDC 算法 59

4.3.2 分块判断优化 61

4.3.3 收敛分块策略 62

4.3.4 循环展开优化 65

4.4 性能分析 66

4.4.1 实验设置 66

4.4.2 分块判断优化评估 67

4.4.3 收敛分块策略评估 69

4.4.4 综合评估 70

4.5 本章小结 73

参考文献 73

第5 章流水线化和并行化数据去重技术 75

5.1 数据去重技术面临的计算挑战 75

5.1.1 数据去重技术的计算瓶颈与研究背景 75

5.1.2 数据去重流程的独立性与依赖性 78

5.2 流水线化和并行化数据去重技术的设计与实现 79

5.2.1 设计原理 80

5.2.2 主要功能模块 81

5.2.3 数据去重子任务的流水线化 82

5.2.4 指纹计算的并行化 83

5.2.5 分块的并行化 84

5.2.6 并行化过程中的同步和异步问题 87

5.3 性能分析 88

5.3.1 实验设置 88

5.3.2 关键参数测试 89

5.3.3 整体性能测试 93

5.3.4 其他CDC 算法的适配性测试 94

5.4 本章小结 95

参考文献 96

第6 章高效的数据去重指纹索引技术 99

6.1 数据去重指纹索引的规模与挑战 99

6.2 基于局部性的数据去重指纹索引策略相关研究 100

6.2.1 备份数据流的局部性 100

6.2.2 典型相关系统介绍 100

6.3 基于相似性的数据去重指纹索引策略相关研究 103

6.3.1 备份数据流的相似性 103

6.3.2 典型相关系统介绍 104

6.4 基于局部性和相似性的数据去重指纹索引策略设计与实现 106

6.4.1 小文件与大文件的去重策略问题 106

6.4.2 局部性与相似性的互补设计 108

6.4.3 基于互补设计的指纹索引技术原理与理论剖析 109

6.4.4 基于互补设计的指纹索引技术设计与实现 110

6.5 性能分析 117

6.5.1 测试环境 117

6.5.2 相似性与局部性测试分析 118

6.5.3 与其他数据去重指纹索引算法性能比较 121

6.6 本章小结 125

参考文献 125

第7 章面向相似去重的快速差量压缩技术 128

7.1 相似数据差量压缩的技术背景 128

7.2 快速差量压缩技术的设计原理 130

7.3 受数据去重启发的快速差量压缩技术 131

7.3.1 主要设计思路与模块介绍 131

7.3.2 Gear-CDC 算法 134

7.3.3 基于重复数据相邻区域的贪心检测算法 135

7.3.4 差量编码与解码操作 135

7.3.5 差量编码的总体流程 136

7.4 性能分析 137

7.4.1 测试环境 137

7.4.2 Gear-CDC 算法性能测试 138

7.4.3 应用案例一测试:数据去重后的相似数据差量压缩 142

7.4.4 应用案例二测试:文件更新后的差量压缩 146

7.5 本章小结 147

参考文献 148

第8 章基于数据去重感知的相似数据检测和差量压缩技术 150

8.1 相似数据消冗技术概述 150

8.1.1 相似数据消冗技术的原理与发展趋势 150

8.1.2 基于超级特征值的相似数据检测技术分析 152

8.1.3 基于数据去重感知的相似数据检测技术的提出 153

8.2 基于数据去重感知的相似数据检测和差量压缩技术的设计与实现 154

8.2.1 设计原理与结构 154

8.2.2 基于数据去重感知的相似数据检测 156

8.2.3 基于超级特征值的相似数据检测 157

8.2.4 差量压缩与存储管理 158

8.2.5 整体流程 159

8.3 性能分析 160

8.3.1 测试环境 160

8.3.2 基于超级特征值的相似数据检测的验证学习 161

8.3.3 基于数据去重感知的相似数据检测和差量压缩性能 165

8.3.4 可扩展性测试 167

8.3.5 恢复性能测试 169

8.4 本章小结 170

参考文献 171

第9 章受数据去重启发的轻量级差量同步技术 174

9.1 差量同步与数据去重技术 174

9.1.1 差量同步与数据去重技术简介 174

9.1.2 本章的主要内容 183

9.2 基于内容分块的差量同步算法 184

9.2.1 CDC 算法回顾与选择 184

9.2.2 用CDC 算法代替FSC 算法 189

9.2.3 CDC 算法中的弱指纹复用策略 190

9.2.4 改进CDC 算法后的差量同步算法简述 195

9.3 面向差量同步的协议优化 196

9.3.1 强弱指纹比较过程分离 196

9.3.2 合并连续相同数据块 198

9.3.3 关于元数据规模 200

9.3.4 最终版本 203

9.4 性能分析 204

9.4.1 测试环境 205

9.4.2 整体性能测试 206

9.4.3 三种代表性差量同步技术对比 208

9.4.4 高带宽大文件场景下的性能对比 212

9.5 本章小结 212

参考文献 213

第 10 章面向人工智能模型的差量压缩技术 217

10.1 人工智能模型压缩技术现状 217

10.1.1 基于轻量化设计的模型压缩 218

10.1.2 基于剪枝技术的模型压缩 221

10.1.3 基于量化技术的模型压缩 223

10.2 基于局部敏感性的网络浮点参数量化压缩技术 225

10.2.1 网络浮点参数压缩的难点 225

10.2.2 神经网络浮点参数的分布 226

10.2.3 局部敏感量化方案设计 228

10.2.4 量化压缩后模型的版本相似性 230

10.3 利用版本间相似性的神经网络差量压缩方案 233

10.3.1 现有神经网络差量压缩方案的不足与改进思路 233

10.3.2 基于量化的神经网络差量压缩方案 234

10.3.3 基于误差反馈的神经网络量化训练更新算法 235

10.3.4 神经网络的量化及差量压缩方案 237

10.3.5 压缩时间复杂度分析 241

10.4 资源受限场景应用分析 241

10.4.1 场景一:减少人工智能模型快照的存储开销 242

10.4.2 场景二:减少人工智能模型传输的通信开销 242

10.5 性能分析 245

10.5.1 测试环境、数据集与对比方法 245

10.5.2 网络浮点参数量化比特数的选择 245

10.5.3 压缩后网络模型精度测试 247

10.5.4 网络模型压缩性能测试 249

10.6 本章小结 253

参考文献 254

第 11 章面向时序数据库的有损压缩技术 260

11.1 时序数据特性和有损浮点数压缩编码器 260

11.1.1 数据库浮点数压缩现状 260

11.1.2 有损浮点数压缩算法简介 261

11.1.3 时序数据库场景简介 262

11.1.4 有损浮点数压缩算法在时序数据库中的应用 262

11.2 典型的有损浮点数压缩算法 263

11.3 在线化设计与实现 268

11.3.1 特殊值编码器在线化方案 268

11.3.2 哈夫曼编码器在线化方案 270

11.3.3 无损编码器在线化方案 271

11.3.4 自适应算术编码方案 272

11.3.5 对比测试 277

11.4 预测器的改进 280

11.4.1 预测器方案介绍 280

11.4.2 对比测试 282

11.5 数据库中的性能测试 283

11.5.1 测试环境与方案 284

11.5.2 测试结果 285

11.6 本章小结 287

参考文献 287

第 12 章面向非易失性内存场景的数据消冗技术 290

12.1 NVM 文件系统与数据消冗技术 290

12.1.1 NVM 的发展及其结构与特性 291

12.1.2 NVM 文件系统研究现状 292

12.1.3 面向NVM 的数据消冗技术研究现状 295

12.1.4 本章的主要内容 300

12.2 NVM 文件系统在数据消冗方面的性能与一致性挑战 300

12.2.1 面向NVM 的高吞吐率数据消冗技术难点分析 301

12.2.2 面向NVM 的数据消冗一致性技术难点分析 304

12.3 支持数据消冗的NVM 文件系统设计与实现 306

12.3.1 轻量级的数据消冗框架设计 306

12.3.2 高效的冗余检测优化策略 307

12.3.3 NVM 友好的去重元数据管理 309

12.3.4 高性能的NVM 去重索引构建 310

12.3.5 轻量级一致性的设计与恢复 312

12.4 性能分析 316

12.4.1 测试环境 316

12.4.2 整体测试 317

12.4.3 高吞吐率设计的有效性测试 324

12.4.4 一致性设计的有效性测试 327

12.4.5 恢复时间测试 329

12.4.6 交织模式的影响 330

12.5 本章小结 332

参考文献 333

第 13 章面向图像存储的细粒度数据去重技术 336

13.1 图像去重的研究现状 336

13.2 图像去重的特性与挑战 337

13.2.1 图像场景的特性 338

13.2.2 图像去重的挑战 339

13.3 细粒度图像去重框架 341

13.4 基于特征位图的相似性检测器 342

13.4.1 相似性检测器的框架 342

13.4.2 生成二维特征 343

13.4.3 基于特征位图的指纹算法 345

13.4.4 基于特征位图的相似性检测器的优点 348

13.5 与图像编码兼容的差量压缩器 349

13.5.1 差量压缩器的框架 349

13.5.2 差量压缩器的细节 350

13.5.3 针对连续重复块的优化 352

13.5.4 与图像编码兼容的差量压缩器的优点 353

13.6 性能分析 353

13.6.1 系统原型的实现和具体配置 354

13.6.2 测试环境与数据集介绍 354

13.6.3 关键性能测试指标 355

13.6.4 针对相似性检测器的测试 355

13.6.5 针对差量压缩器的测试 360

13.6.6 与粗粒度图像去重技术对比 361

13.7 本章小结 362

参考文献 363

第 14 章总结与展望 365

14.1 面向存储系统的通用数据消冗技术 365

14.2 针对特定场景的专用数据消冗技术 367

附录主要术语表 369

详情

近年来,云计算、物联网、区块链和边缘计算等多种新型应用产生了海量的、有价值的数据,而且呈现出持续增长的趋势。如何有效地存储和管理如此庞大数据是现代工业界和学术界共同关注的重点和难点问题。 本书系统地介绍了数据消冗技术,该技术能够通过有效地检测和排除数据中的冗余部分,达到减轻存储系统的负担和降低成本的目标,从而应对海量数据增长带来的挑战。本书结合作者近十余年在与存储系统领域相关的国际学术会议和期刊上发表的前沿成果,一方面对单个数据消冗技术问题进行深入的理论剖析,另一方面针对多种常见应用场景的数据消冗需求提供丰富的系统级解决方案和技术思路。

图书摘要

相关图书

SPSS医学数据统计与分析
SPSS医学数据统计与分析
首席数据官知识体系指南
首席数据官知识体系指南
大数据实时流处理技术实战——基于Flink+Kafka技术
大数据实时流处理技术实战——基于Flink+Kafka技术
大数据安全治理与防范——流量反欺诈实战
大数据安全治理与防范——流量反欺诈实战
搜索引擎与程序化广告:原理、设计与实战
搜索引擎与程序化广告:原理、设计与实战
医疗大数据挖掘与可视化
医疗大数据挖掘与可视化

相关文章

相关课程