网版权文章,未经授权禁止转载
陈侃表示:之所以分布式存储和集中式存储并行发展,主要原因是为用户打造数据存储的全生命周期的解决方案。后入局者如何做好超融合?当下,VMware、Nutanix和DELL EMC已在全球超融合市场形成三足鼎立局面。
从时间上来算,中国电子云在超融合领域是一个新手,但是从修炼内功上讲,一点也不算新手。从目前市场情况来看,许多企业从多方购买了云服务,造成多云的情况,多云管理变得更加复杂。其次,中国电子云超融合CeaCube产品,基于中国电子PKS自主计算体系,自主研发了纯国产化软硬件产品,同时承接了 X86 平台的技术能力,实现了 国产化和 X86 的共存底座。陈侃表示,中国电子云仓海存储在满足用户数据存储需求的基础上,坚持安全、高效、绿色、节能四条设计理念。陈侃表示:成本优化是我们的又一竞争力,最终希望给客户带来性价比高、端到端安全的产品。
在数字化浪潮的推动下,企业IT基础架构已经逐步迈入以场景泛化、技术深度融合、数据价值释放为特点的云原生时代。中国电子云副总裁、IT产品线总经理曹心驰就曾表示:中国电子云固然是后来者,但绝对不是弱者,团队成员在行业中均有着丰富的经验,对于超融合、分布式存储等基础设施的发展有着深刻理解,对未来充满信心。对云计算感兴趣的IT朋友可以关注深信服科技公众号回顾本期直播,了解更多云计算知识。
开启卡慢盘功能后的效果,可保障1min内触发隔离,虚拟机未出现HA,隔离后业务IO恢复稳定。2.针对卡慢盘处置时业务还是数据的抉择,制定了多级隔离算法。在未发现其他问题的情况下选择重启系统,业务中断时间十几分钟。采用了Linux通用的工具和信息,不依赖特定硬件工具,包括内核日志分析、smart信息分析、硬盘io监控数据分析等从多个维度精确定位故障硬盘。
先是ZOOKEEPER出现故障,后出现集群平衡状态异常。内存发生故障的原因有:内存单元能量泄漏 leakage、内存数据传输路径存在高阻抗、内存电压工作异常、内部时序异常、内部操作异常(如自刷新)、bit line/word line线路异常、地址解码线路异常、内存存在弱单元(可正常使用)、宇宙射线或放射性(没有造成永久损伤)导致的软失效(多次检测故障不复现)。
针对内存UE故障,信服云的方案设计思路是解决内存UE的可恢复和提前预警问题,把一部分UE宕机降级为杀死对应应用程序,甚至只需隔离坏页,避免宕机来提升系统稳定性和可靠性。然后同一节点的其他服务也出现故障,最后整个节点所有服务全部故障,随后重启自动恢复。相较于业界一般的方案的CE屏蔽,不能及时隔离CE以及出错后定位内存条的问题,信服云在方案上具有领先优势,并且在这个领域申请了5项专利。而在现有的故障模式中,内存、硬盘故障是最高发和最严重故障。
(一)制程缩小带来的挑战(1)光刻更容易受到衍射,聚焦等影响质量。某大数据平台集群节点出现慢盘故障(系统每一秒执行一次iostat命令,监控磁盘I/O的系统指标,如果在60s内,svctm大于100ms的周期数大于30次则认为磁盘有问题,产生该告警)。当使用内存隔离功能把发生故障的内存页切换到正常的内存页后,就把这个故障内存页隔离出来不再使用。案例一,内存UCE错误导致服务器系统反复宕机重启。
数据盘一般使用机械硬盘HDD,容量高适合做数据盘则作为数据(如虚拟机的虚拟磁盘)最终存放的位置。寿命不足:机械硬盘物理磨损,或者固态硬盘的闪存颗粒积极达到擦写次数。
高可靠可以从三个层面理解:一,不出故障,系统可以一直正常运行,这种情况就需要提高硬件的研发质量。(5)未来TSV封装多die后段封装难度加大,失效率增加。
案例二,磁盘卡慢导致大数据集群故障。以上就是本次直播的主要内容。二、内存的可靠性技术内存从外部结构看有PCB板、金手指、内存芯片、内存条固定卡缺口等。简而言之,可靠性的目标是缩短因故障(产品质量、外部部件、环境、人因等)造成的业务中断时间。有一部分UE错误由于操作系统无法处理会导致系统宕机。隔离方案在使用过程中针对CPU和内存资源开销小,并且效果明显。
3.在多级隔离算法的基础上进行阈值打磨。在云的环境当中,同一台服务器上可能运行了若干不同业务、不同场景的虚拟机,一旦物理设备崩溃,将会波及众多用户,同时也会对运营商自身造成巨大损失。
缓存盘一般使用固态硬盘SSD,利用SSD速度快的特性作为缓存盘作为IO读写提速的缓存层,用于存放用户业务经常被访问的数据,称之为热数据。CE(可以纠正的错误)发生后,如果不去处理它,会有可能变成不可纠正的UE错误。
软件定义的方式会把有故障的内存区域隔离出来,让它不再使用,从而不会对业务产生影响。从历史问题分布、以及业界硬盘可靠性故障曲线,都可以看到硬盘卡盘问题正成为影响系统稳定运行的最严重问题之一。
当硬盘出现输入输出(Input Output,I/O)响应时间变长,或者卡住不返回的情况,会导致用户业务持续出现卡慢,甚至挂起,一块硬盘卡住甚至会导致系统的全部业务中断。UE(Uncorrectable Error):不能纠正的错误统称。谈到可靠性,首先要了解服务器的关键基础部件。(3)更高频率带来更高功耗,对PI的要求更高。
(1)硬盘TOP故障模式/分类:卡死:硬盘IO暂时或者一直不响应。至少提升30%以上内存故障恢复能力,信服云的解决方案能够达到60% 内存UE故障恢复率,效果优于业界公开数据(业界普遍是UE故障恢复能覆盖50%),在实际POC测试场景中,优于业界的一般方案(如一般方案会宕机,无内存故障告警日志,无法定位故障内存所在的插槽位置)。
随着使用年限的增加,硬盘出现坏道、磁头退化或者其他问题的概率也在增加。内存故障按照故障能不能纠正可以分为两类:CE(Correctable Error):可以纠正任意单比特错误、部分单颗粒多比特错误的统称。
关于内存和硬盘的故障,可以通过这两个案例来进一步了解。后两个层面可以通过软件定义的方式去规避硬件故障产生的业务中断。
卡慢:硬盘IO明显变慢或者卡顿。雷峰网(公众号:雷峰网)。三,影响业务但能快速恢复。从内部结构看,包括存储体、存储单元Cell、存储阵列Bank、Chip(device)、Rank、DIMM、Channel等。
①轻度慢盘:不隔离,在页面告警通知用户。但硬件是没有办法做得非常可靠的,就需要软件去做一些工作。
系统盘一般使用固态硬盘SSD,存放云平台系统软件和主机OS,以及相关的日志和配置。↑ 内存UE故障隔离方案总体架构三、硬盘的可靠性技术硬盘主要包括系统盘、缓存盘、数据盘。
(4)单die尺寸变小,单wafer die数量增加。信服云针对内存CE故障隔离方案设计思路当内存硬件发生CE触发中断,看这些内存能否被隔离(不是被操作系统内核或外设使用),如果可以被隔离就加入白名单,对这些内存进行隔离。
如今,深圳是全国唯一的全市禁燃高污染燃料、淘汰全部散煤和普通工业用煤的城市,也是清洁能源装机容量全国占比最高、新能源公交车数量全球最多的城市。 [阅读]
其中,相关行业适用的排污系数方法中产排污系数为区间值的,纳税人结合实际情况确定具体适用的产排污系数值。 [阅读]
二是积极配合发展改革委,研究校核《市场准入负面清单草案(试点版)》,对其中8项清单事项提出删、改、增建议。 [阅读]
优化报表结构,减轻纳税人填报负担环境保护税纳税申报包括哪些报表?1月27日,国家税务总局公告了《环境保护税纳税申报表》,明确环境保护税报表由两部分构成,分别是《环境保护税纳税申报表》和《环境保护税基础 [阅读]
广东省环保厅大气处处长李智广深有感触地说。 [阅读]
一是依照法定途径分类处理信访问题。 [阅读]
问:环境保护税都由哪些人来缴?答:《环境保护税法》第二条规定,在中华人民共和国领域和中华人民共和国管辖的其他海域,直接向环境排放应税污染物的企业事业单位和其他生产经营者为环境保护税的纳税人。 [阅读]
过去一年,黑龙江省坚决贯彻落实党中央、国务院关于大气污染防治决策部署,积极淘汰燃煤小锅炉,加快工业企业污染治理,管控机动车污染,推进秸秆禁烧和综合利用等一系列工作,并取得了突出效果。 [阅读]