皮皮网
皮皮网

【mui源码教程】【源码精讲7】【安卓vafat源码】raid源码

来源:lame源码怎么用 发表时间:2024-11-25 10:05:52

1.HDFS纠删码
2.深刻了解Linux内核RAID基础知识(图例解析)
3.jar包内读取资源文件

raid源码

HDFS纠删码

           å‰¯æœ¬æ˜¯æ˜‚贵的--在HDFS中默认的3副本机制有%的存储空间和其它的资源(比如:网络带宽)开销。然而,相对于低 I/O 活动的暖数据集和冷数据集,在正常的操作期间对其额外的副本很少访问,但是仍然消耗与第一副本相同数量的资源。

            å› æ­¤ï¼Œä¸€ä¸ªè‡ªç„¶çš„改进是使用纠删码(Erasure Coding)替代副本机制,它使用更少的存储空间提供相同的容错级别,一个典型的纠删码设置,会使得存储空间的开销不超过%;一个EC文件的副本因子是无意义的,它一直保持为1,并且不能通过命令 -setrep修改EC的副本因子的值。

            ç£ç›˜é˜µåˆ—(RAID)是在存储系统中,使用EC最出名的。RAID使用条 带的方式实现的EC,它提供逻辑上序列的数据(比如文件)到更小的单元(比如比特、字节、或块),并存储连续的单元到不同的磁盘上。在本指南的其余部分,这种条带分布单元被称为条带单元(或者单元),对于每一个条带原始数据单元,计算并存储一定数量的奇偶校验单元,这个过程叫做编码。通过对剩余的数据和奇偶校验单元解码计算,可以恢复任意条带单元的错误。

            å°†EC和HDFS集成可以提高存储效率,然而同样提供传统的基于副本机制的HDFS持久化部署,例如:3副本的文件有6个块,将会消耗 6*3 = 个块的磁盘空间,但是使用EC(6个数据,3个校验)部署,他将只消耗9个块的磁盘空间。

            åœ¨EC的环境中,条带有若干主要的优点,首先,它能在线EC(使用EC的格式直接写数据),避免转换阶段,直接节省存储空间。在线EC通过并行利用多磁盘主轴增强I/O性能;这在高性能的网络的集群中尤其需要。其次,它自然的分发小文件到多个DataNodes,消除了将多个文件绑定到一个编码组的需要,这会很大的简化文件的操作,比如删除、配额汇报和在联邦集群中不同的Namespace之间迁移数据等。在典型的HDFS集群中,小文件占总存储空间3/4以上的消耗,为了更好的支持小文件,在第一阶段工作中,HDFS支持条带的EC。在未来,HDFS也会支持连续的EC布局,查看设计文档,更多的信息在issue HDFS- 中讨论。

             条带的HDFS文件是由逻辑上的块组构成,每个块组包含一定数量的内部块,为了减少额外的块对NameNode内存消耗,提出了新的分层块命名协议,块组的ID可以从它的内部块的任意 ID 中推断出来,这允许块组级别的管理,而不是块级别的。

             客户端读写路径被增强,可以并行处理一个块组的多个内部块;在输出/写入路径, DFSStripedOutputStream 用于管理一组数据流,每个数据流对应一个DataNode,该DataNode在当前块组中存储一个内部块,这些数据流大多是异步工作;协调器负责操作整个块组,包括结束当前的块组、分配新的块组等等。在输入 / 读路径, DFSStripedInputStream 将请求的逻辑字节范围的数据转换为存储在DataNodes上的内部块的范围,然后并行的发布读请求,在出现故障时,它发出额外的读请求用于解码。

             DataNode会运行一个额外的 ErasureCodingWorker (ECWorker) 任务用于后台恢复失败的EC块,当NameNode检测到一个失败的EC块,它会选择一个DataNode去做恢复的工作,恢复任务通过心跳响应传递至DataNode,这个过程类似于副本块重新复制失败的数据块,重建失败的块有3个主要的任务:

             使用专用的线程池并行的读取输入数据,基于EC策略,它将所有的读请求调度到所有的源节点,并且只读取最小数据量的输入块数用于重构。

             从输入数据中解码出新的数据块和奇偶校验块,所有丢失的数据块和校验块一起解码。

             解码完成后,恢复的数据块被传输到目标DataNode节点。

             为了使纠删码策略适合异构的工作方式,我们允许HDFS集群上的文件和目录具有不同的副本和纠删码策略,纠删码策略封装了如何编码/解码文件,每一个策略由以下信息部分定义:

             这个包括在EC组(比如:6+3)中数据块和校验块的数量,以及编解码器算法(比如: Reed-Solomon,源码 XOR )

            è¿™å†³å®šäº†æ¡å¸¦è¯»å†™çš„粒度,包括缓冲区大小和编码工作。

           ç­–略被命名为数据块数量-校验块数量-块单元的大小,当前支持6种内置策略:RS-3-2-k, RS-6-3-k, RS--4-k, RS-LEGACY-6-3-k, XOR-2-1-k å’ŒREPLICATION。

            REPLICATION是一种特殊的策略,它只能被设置在目录上,强制目录采用3副本策略,而不是继承它的祖先的纠删码策略,该策略使3副本目录与纠删码目录交叉成为可能。

            REPLICATION ç­–略是一直启用的,而其它的内置策略在默认的情况下是禁用的。

            ç±»ä¼¼äºŽHDFS存储策略,纠删码策略是设置在目录上的,当一个文件被创建,它继承离它最近的祖先目录的EC策略。

            ç›®å½•çº§åˆ«çš„EC策略只影响在该目录下创建的新文件,一旦一个文件已经被创建,它的纠删码策略可以被查询,但是不能改变,如果一个纠删码文件被重命名到一个不同的EC策略的目录中,该文件会保留它之前存在的EC策略,转换一个文件到不同的EC策略需要重写它的数据,重写数据是通过拷贝文件(比如:通过distcp)而不是重命名文件。

            æˆ‘们允许用户通过XML文件的方式去定义它们自己的EC策略,该XML文件必须要有下面的3部分:

                1) layoutversion:  表示EC策略文件格式的版本。

                2) schemas: 这个包括所有用户定义的EC约束

                3) policies:  这个包括所有用户定义的EC策略,每个策略由schema id和条带单元的大小(cellsize)构成,

            åœ¨hadoop conf目录中有一个名称叫 user_ec_policies.xml.template的样本EC策略的XML文件。

            因特尔 ISA-L 代表因特尔智能存储加速库, ISA-L 是为存储应用程序优化的底层函数开源的集合,它包括在 AVX 和 AVX2 指令集上快速的块  Reed-Solomon 类型的纠删码优化,HDFS纠删码可以利用ISA-L去加速编解码计算,ISA-L支持大多数开源的操作系统,包括linux和windows,ISA-L默认是不启动的,有关如何启动ISA-L,请看下面的说明。

            çº åˆ ç åœ¨é›†ç¾¤çš„CPU和网络方面提出了额外的要求。

            ç¼–码和解码工作会消耗HDFS客户端和DataNodes上额外的CPU。

            çº åˆ ç æ–‡ä»¶ä¹Ÿåˆ†å¸ƒåœ¨æœºæž¶ä¹‹é—´ï¼Œç”¨äºŽæœºæž¶å®¹é”™ï¼Œè¿™æ„å‘³ç€å½“读取和写入条带文件,大多数操作是在机架外的,因此,网络对分带宽非常重要的。

            å¯¹äºŽæœºæž¶å®¹é”™æ¥è¯´ï¼Œè‡³å°‘拥有与配置的EC条带宽度相同的机架数量也是很重要的,对于EC策略RS (6,3),这意味着至少要有9个机架,理想的情况下要有或者个机架用于处理计划内和计划外的停机。对于机架数量少于条带宽度的集群,HDFS不能维护机架容错,但是仍然会分散条带文件到多个节点为了节点级别的容错。

            é»˜è®¤æƒ…况下,所有内置的纠删码策略是被禁用的,但是定义在参数dfs.namenode.ec.system.default.policy中的除外,该策略在默认情况下是启用的。集群管理员可以根据集群的大小和希望的容错属性使用命令hdfs ec [-enablePolicy -policy <policyName>]启用一组策略;例如,对于一个拥有9个机架的集群,类似RS--4-k è¿™æ ·çš„策略不能达到机架级别的容错,而策略RS-6-3-k æˆ–者RS-3-2-k更适合。如果管理员只关心节点级别的容错,在至少有个DataNodes的集群中策略RS--4-k也是适合的。

            ç³»ç»Ÿé»˜è®¤çš„EC策略可以通过参数‘dfs.namenode.ec.system.default.policy’ 来配置,在这种配置下,当命令 â€˜-setPolicy’没有指定策略名称的参数时,默认的策略将会被使用。

            é»˜è®¤æƒ…况下,参数 â€˜dfs.namenode.ec.system.default.policy’ 的值为“RS-6-3-k”,使用Reed-Solomon和XOR实现的编解码器可以使用客户端和DataNode节点指定如下的关键字配置:io.erasurecode.codec.rs.rawcoders用来指定默认的RS编解码器,io.erasurecode.codec.rs-legacy.rawcoders用于指定legacy RS编解码器,io.erasurecode.codec.xor.rawcoders用于指定XOR编解码器;用户也可以使用类似关键字io.erasurecode.codec.self-defined-codec.rawcoders来配置自定义的编解码器。这些关键字的值是带有回退机制的编码器名称的列表。这些编解码器工厂以指定的配置的值有序的被加载,直到一个编解码器被成功的加载,默认的RS和XOR编解码器配置更喜欢本地实现,而不是纯java实现;RS-LEGACY没有本地编解码器实现,因此默认的只能是纯java的实现;所有这些编解码器都有纯java的实现;对于默认的RS编解码器,它也有一个本地实现,利用英特尔 ISA-L库提高编解码器性能;对于XOR编解码器,也支持利用英特尔 ISA-L库提升编解码的性能的本地实现;请参阅“Enable Intel ISA-L”获取更详细的信息。默认的RSLegacy的实现是纯java的,默认的RS和XOR是使用了因特尔ISA-L库本地实现的,在DataNodes上的纠删码后台恢复工作也可以使用下面的参数被调优:

             1) dfs.datanode.ec.reconstruction.stripedread.timeout.millis --条带读取超时时间,默认值 ms

             2) dfs.datanode.ec.reconstruction.stripedread.buffer.size --读取服务的缓存大小,默认值 K

             3) dfs.datanode.ec.reconstruction.threads -- DataNode用于后台重构工作的线程数量,默认值 8 个线程

             4) dfs.datanode.ec.reconstruction.xmits.weight -- 与副本块恢复 相比,EC后台恢复任务使用的xmits 的相对权重,默认值0.5,设置它的值为0去禁用计算EC恢复任务的权重,也就是说,EC任务总是1 xmits。通过计算出读数据流的数量和写数据流的数量的最大值来计算出纠删码恢复任务的xmits。例如,如果一个EC恢复任务需要从6个节点读取数据,往2个节点写入数据,它拥有的 xmits 是max(6, 2) * 0.5 = 3,复制文件的恢复任务总是计算为1xmit,NameNode利用dfs.namenode.replication.max-streams减去DataNode上总的xmitsInProgress(合并来自副本文件和EC文件的xmits) ï¼Œä»¥ä¾¿è°ƒåº¦æ¢å¤ä»»åŠ¡åˆ°è¿™ä¸ªDataNode。

            HDFS利用因特尔ISA-L库去提高默认的RS本地实现的编解码器的编解码计算速度,开启并使用英特尔ISA-L库,需要3步:

                1)构建ISA-L库,请参阅官方的网站 â€œ /org/isa-l/ ” 获取详情信息。

                2)构建带有ISA-L支持的Hadoop,请参阅源码中BUILDING.txt文件中的 â€œBuild instructions for Hadoop”中的“Intel ISA-L build options”部分。

                3)使用-Dbundle.isal拷贝 isal.lib ç›®å½•ä¸­çš„内容到最终的tar文件中。

            ä½¿ç”¨è¯¥tar文件部署Hadoop,确保ISA-L是在HDFS客户端和DataNodes端是可用的。为了验证ISA-L能够被Hadoop正确的检测到,运行命令  hadoop checknative来验证。

            HDFS提供了EC的子命令用于执行纠删码相关的管理命令。

            hdfs ec [generic options] [-setPolicy -path <path> [-policy <policyName>] [-replicate]] [-getPolicy -path <path>] [-unsetPolicy -path <path>] [-listPolicies] [-addPolicies -policyFile <file>] [-listCodecs] [-enablePolicy -policy <policyName>] [-disablePolicy -policy <policyName>] [-help [cmd ...]]

           ä¸‹é¢æ˜¯å…³äºŽæ¯ä¸ªå‘½ä»¤çš„详情:

            [-setPolicy -path <path> [-policy <policyName>] [-replicate]]

            åœ¨æŒ‡å®šçš„目录的路径上设置纠删码策略。

            path:HDFS中的目录,这是一个强制的参数,设置一个策略只影响新创建的文件,不影响已经存在的文件。

            policyName:在这个目录下的文件上使用的纠删码策略,如果配置了参数‘dfs.namenode.ec.system.default.policy’,这个参数可以被省略,这时路径的EC策略将会被设置成配置文件中的默认值。

            -replicate:在目录上应用指定的REPLICATION策略,强制目录采用3副本复制方案。

            -replicate å’Œ-policy <policyName>是可选的参数,它们不能同时被指定。

            [-getPolicy -path <path>]

            èŽ·å–在指定路径上目录或者文件的纠删码策略的详情。

            [-unsetPolicy -path <path>]

            å–消之前使用setPolicy åœ¨ç›®å½•ä¸Šè®¾ç½®çš„纠删码策略。如果目录是从祖先中继承的纠删码策略,unsetPolicy æ˜¯ä¸€ä¸ªç©ºæ“ä½œï¼Œå³åœ¨æ²¡æœ‰æ˜Žç¡®è®¾ç½®ç­–略的目录上取消策略将不会返回错误。

            [-listPolicies ]

            åˆ—出所有在HDFS中注册的纠删码策略,只有启用的策略才能使用setPolicy å‘½ä»¤ã€‚

            [-addPolicies -policyFile <file>]

            æ·»åŠ ä¸€ä¸ªçº åˆ ç ç­–略的列表,请参阅模板策略文件etc/hadoop/user_ec_policies.xml.template,最大的条带单元大小被定义在属性 â€˜dfs.namenode.ec.policies.max.cellsize’ 中,默认值是4MB,当前的HDFS中总共允许用户添加个策略,被添加的策略ID的范围是~,如果已经有个策略被添加,再添加策略将会失败。

            [-listCodecs]

            èŽ·å–系统中支持的纠删码编解码器和coder列表。一个coder是一个编解码器的实现,一个编解码器可以有不同的实现,因此会有不同的coder,编解码器的coders采用后备的顺序被列出。

            [-removePolicy -policy <policyName>]

            ç§»é™¤ä¸€ä¸ªçº åˆ ç ç­–略。

            [-enablePolicy -policy <policyName>]

            å¯ç”¨ä¸€ä¸ªçº åˆ ç ç­–ç•¥

            [-disablePolicy -policy <policyName>]

            ç¦ç”¨ä¸€ä¸ªçº åˆ ç ç­–略。

            ç”±äºŽå¤§é‡çš„技术挑战,在纠删码文件上不支持某些HDFS的写操作,比如hflush, hsync å’Œappend操作。

            åœ¨çº åˆ ç æ–‡ä»¶ä¸Šä½¿ç”¨append()将会抛出IOException。

            åœ¨DFSStripedOutputStream ä¸Šæ‰§è¡Œhflush() å’Œhsync()是空操作,因此,在纠删码文件上调用hflush() æˆ–者hsync()不能保证数据被持久化。

            å®¢æˆ·ç«¯å¯ä»¥ä½¿ç”¨ StreamCapabilities  æä¾›çš„API去查询一个OutputStream æ˜¯å¦æ”¯æŒhflush() å’Œhsync(),如果客户端渴望数据通过hflush() å’Œhsync()持久化,当前的补救措施是在非纠删码目录中创建3副本文件,或则使用FSDataOutputStreamBuilder#replicate()提供的API在纠删码目录中创建3副本文件。

深刻了解Linux内核RAID基础知识(图例解析)

       深入剖析Linux内核中的RAID技术:关键原理与实战应用

       RAID技术,即Redundant Array of Independent Disks,源码通过智能地组织数据和校验,源码为数据存储提供了卓越的源码可靠性、性能和容错能力。源码它通过巧妙结合镜像、源码mui源码教程数据条带和校验,源码为不同的源码应用场景量身打造。让我们逐一探索这些关键技术及其在Linux内核中的源码重要性。

       首先,源码镜像(RAID1)如同双胞胎备份,源码提供数据冗余和故障快速恢复,源码但空间占用较大,源码适合重要数据的源码保护,特别是源码源码精讲7对高可用性有严格要求的场合,如邮件系统。

       数据条带(RAID0)则追求极致性能,无校验的并行读写,适用于对性能敏感但对数据安全要求不高的应用,但需要谨慎,因为数据丢失的风险较高。

       RAID5通过分散数据和校验,安卓vafat源码提升了写入性能和扩展性,但一旦单块硬盘故障,数据重建会暂时影响性能。RAID6则提供双重校验,能容忍两块硬盘故障,但成本和技术复杂性较高,是web认证页面源码极高数据安全的保障。

       RAID(虚拟镜像)和RAID(物理镜像)是RAID1和RAID0的结合,RAID的容错性通常优于RAID,但在实际选择中,需平衡性能和保护等级。

       RAID 和RAID 则是RAID5和RAID6的扩展,RAID 虽然能提供高性能和部分容错,但存在风险;RAID 则提供更高的高级排产源码数据安全,但硬盘利用率较低,适合对数据保护极其敏感的场景。

       在硬件层面,SSD和PCIe SSD的引入显著提升了IOPS,阵列卡的CACHE和BBU(电池备份单元)则增强存储系统的稳定性。阵列的写策略选择WB/FORCE WB,避免WT,预读策略倾向于RAID-,以优化性能。同时,选择高转速机械盘如KRPM,确保数据读取的快速响应。

       最后,深入理解RAID技术并非一蹴而就,阅读腾讯文档和内核源码是不可或缺的学习路径,这将帮助你更好地在Linux内核环境中管理并优化RAID配置,以适应多样化的业务需求。

       总的来说,RAID技术是Linux内核中的重要基石,它以灵活的方式满足不同场景的存储需求,但每个等级的选择都需要根据具体的应用场景、性能要求和成本效益来权衡。通过深入理解并实践,你将能够有效地利用RAID技术提升系统的稳定性和效率。

jar包内读取资源文件

       //源代码3:

       package edu.hxraid;

       import java.io.*;

       public class Resource {

        public void getResource() throws IOException{

        //返回读取指定资源的输入流

        InputStream is=this.getClass().getResourceAsStream("/resource/res.txt");

        BufferedReader br=new BufferedReader(new InputStreamReader(is));

        String s="";

        while((s=br.readLine())!=null)

        System.out.println(s);

        }

       }

       //源代码3:

       package edu.hxraid;

       import java.io.*;

       public class Resource {

       public void getResource() throws IOException{

       //返回读取指定资源的输入流

       InputStream is=this.getClass().getResourceAsStream("/resource/res.txt");

       BufferedReader br=new BufferedReader(new InputStreamReader(is));

       String s="";

       while((s=br.readLine())!=null)

       System.out.println(s);

       }

       }

        我们将java工程下/bin目录中的edu/hxraid/Resource.class和资源文件resource/res.txt一并打包进ResourceJar.jar中,不管jar包在系统的任何目录下,调用jar包中的Resource类都可以获得jar包中的res.txt资源,再也不会找不到res.txt文件了。

相关栏目:探索