Total Pageviews

Wednesday, 8 August 2018

腾讯云公布丢数据的原因:人为误操作,未提及赔偿及犯错员工的处理

日前,一则因为存储数据丢失,用户像腾讯云索赔千万的消息,让腾讯云身处风口浪尖,也给云计算和云存储的神奇形象蒙上了阴影。
8月7日晚间,腾讯云对外公布了其内部调查的关于客户“前沿数控”数据完整性受损的技术复盘情况,腾讯云表示,系运维人员人为操作错误导致有关数据最终无法恢复。
腾讯云公布丢数据原因:人为误操作,未提及赔偿及犯错员工处理
据悉,事发当天上午11:57,腾讯云的运维人员收到仓库Ⅰ空间使用率过高告警,准备发起搬迁扩容;在14:05时,运维人员从仓库Ⅰ选择了一批云盘搬迁至新仓库Ⅱ,为了加速搬迁,手动关闭了迁移过程中的数据校验;在20:27 搬迁完成之后,运维人员将客户的云盘访问切至仓库Ⅱ,同时为了释放空间,对仓库Ⅰ中的源数据发起了回收操作;到20:30 监控发现仓库Ⅱ部分云盘出现IO异常。
腾讯云在对故障原因进行分析和复盘后得出结论:本次事故起源自因磁盘静默错误导致的单副本数据错误,再由于数据迁移过程中的不规范操作,导致异常数据扩散至三副本,三副本安全机制失效,最终导致客户数据完整性受损。
具体来说,腾讯云的运维人员存在如下两点违规操作,导致拥有99.9999999%可靠性以及三副本安全机制的腾讯云最终也没能保住“前沿数控”存储的数据——
第一次,运维人员为了加速完成搬迁任务,违规关闭了数据校验。而正常数据搬迁流程是默认开启数据校验,这样才能有效发现并规避源端数据异常,保障搬迁数据正确性。
第二次,运维人员为了尽快降低仓库使用率,违规对源仓库进行了数据回收。而正常的操作是数据搬迁完成后,源仓库数据应保留24小时,用于搬迁异常情况下的数据恢复。
正是以上两点致命的违规操作,最终导致了悲剧的发生。令人不解的是,上述两步操作都应该是一个运维人员最基础的标准操作流程,可是偏偏腾讯云的运维人员两步都人为做错。
既然事情已经发生了,腾讯云也只能亡羊补牢了。
作为改进措施,腾讯云表示,会把全流程的数据安全校验作为系统的常开功能,不允许被关闭。同时,进一步提升常规运维自动化和流程化,降低人工干预。
而针对导致本次事件的物理硬盘静默数据错误,腾讯云提出的改进办法是,通过优先巡检主副本数据块、跳过近期用户访问过的正确数据块等方法,加速发现该类错误,进行数据修复。
与此同时,腾讯云呼吁,客户开启免费的快照功能,对重要数据进行定期备份。
不过,在当晚的通告中,腾讯云并没有提及跟“前沿数控”之间是否就巨大的赔偿金额差异矛盾进行新的沟通,或者有什么新的进展。
而对于在本次事件中负有直接责任的相关运维人员,腾讯云也没有提及是否会进行相关处罚。
自己家NAS倒数据都知道校验,留两天,数据存在人家那的时候不考虑丢了怎么办,心也是够大的。
如果是真的
那么互联网公司的操作流程,真的跟传统行业压根比都不能比
这才是可能正确的原因,一开始忽悠硬盘错误导致数据丢失是以为业内人都是傻叉?
是的,这个是说的过去的,而且是腾讯责任最大的说法
这应该就是真实原因了
这个锅背的远比bug大多了
任何情况下不按流程的操作都远比系统bug要严重得多
这种错误是不可饶恕的,体现了腾讯管理上存在严重的问题,招的根本是没有基
本运维素质的员工
不过从这点看也看出腾讯还是比阿里老实,要是阿里,肯定不会把事件原因说成
是自己管理严重失误的,而不是阿里真的管理严格
腾讯、阿里的运维,国内互联网基本算是最高水准的了吧
看怎么界定运维水平,如果以运维的本质来看,他们比银行的水平差远了
这个员工就是根本没有基本的运维人员素养,不按标准流程操作,心存侥幸,也没有复核,这样严重的失误体现的是腾讯云糟糕到极点的运维水平
现在中国的互联网公司可能就是这个水平,银行毕竟运维了几十年了,经验丰富得很,流程非常重视。没有教训不会重视,中国的互联网公司还需要时间的磨炼.

No comments:

Post a Comment

Note: only a member of this blog may post a comment.