EMC存储上的大数据–HDFS存储可靠性

jopen 10年前

原文  http://www.thebigdata.cn/JieJueFangAn/13145.html

企业为了从其 Hadoop 分析投资中获取最大价值,企业需要富有弹性的大数据存储基础架构。在传统 Hadoop 集群中,用户必须依赖于自定义的子数据块 CRC 校验和来提供硬件层数据保护,并且在 HDFS 层使用镜像技术以保持某种级别的数据冗余。但是,在规模较大的情况下,这会成为一个非常高成本的方案。如果通过 EMC Isilon 作为存储层, Isilon 的数据保护是在 OneFS 文件系统级别实施的,因此要使新的保护和性能方案可用,只需执行 OneFS 软件升级即可。 OneFS 使用经过广泛验证的 Reed-Solomon 擦除编码算法来执行其奇偶校验保护计算。在文件界别应用保护,使得集群可以快速高效地恢复数据。信息节点、目录和其他元数据在于其引用的数据块相同或更高的级别进行保护。由于所有数据、元数据和向前纠错( FEC )数据跨多个节点条带化,因此不需要专用的奇偶校验驱动器。这不仅可以防止出现单点故障和瓶颈,还使文件重建成为一个高度并行化的过程。

OneFS 还支持多种混合保护方案。这包括 N+2 1 N+3 1 ,前者可针对两个驱动器故障或者一个节点故障提供保护,后者可针对三个驱动器故障或一个节点故障提供保护。对于高密度节点配置而言,这些保护方案特别有用。万一发生多个设备同时故障的情况,以至于文件“超过了其保护级别”,则 OneFS 将尽可能重新保护所有可保护的内容,并且将与受影响的个别文件相关的错误报告到 Isilon 集群的日志。

EMC存储上的大数据–HDFS存储可靠性

Isilon 还支持多项保证数据可靠性功能,例如:

  • 日志文件系统:每个 Isilon 节点都配备了一个由双电池支持的 NVRAM 卡,以保护节点的文件系统。
  • 主动节点 / 设备故障: OneFS 将主动删除任何达到特点的已检测 ECC 错误阀值的驱动器,自动重建该驱动器中的数据并将其定位至该集群中的其他位置。整个过程完全自动化,无需人工干预。
  • Isilon 数据完整性: ISI 数据完整性( IDI )是一种通过 32 CRC 校验和防止文件系统结构损坏的 OneFS 过程。所有 Isilon 数据块(包括文件和元数据)都利用校验和验证。
  • 协议校验和: OneFS 为远程数据块管理( RBM )协议数据提供了校验和验证。 RBM Isilon 开发的机遇 RPC 的单播协议,可供在后端集群互连上使用。
  • 动态扇区修复: DSR 功能可用来隔离损坏的磁盘扇区,重新向完好的数据以便在其他位置重新写入。
  • Mediascan MediaScan OneFS 中的作用是检查磁盘扇区并部署 DSR 机制,以便强制磁盘驱动器修复他们可能遇到的任何扇区 ECC 错误。

总之,在 HDFS 存储层使用 EMC Isilon 存储,可以避免多种传统 Hadoop 存储实施的许多缺点,如下所示:

EMC存储上的大数据–HDFS存储可靠性