>  行业动态  >  腾讯云公布丢数据原因:人为误操作,未提及赔偿及犯错员工处理

腾讯云公布丢数据原因:人为误操作,未提及赔偿及犯错员工处理

 

2018-08-08

日前,一则因为存储数据丢失,用户像腾讯云索赔千万的消息,让腾讯云身处风口浪尖,也给云计算和云存储的神奇形象蒙上了阴影。

8月7日晚间,腾讯云对外公布了其内部调查的关于客户“前沿数控”数据完整性受损的技术复盘情况,腾讯云表示,系运维人员人为操作错误导致有关数据最终无法恢复。

据悉,事发当天上午11:57,腾讯云的运维人员收到仓库Ⅰ空间使用率过高告警,准备发起搬迁扩容;在14:05时,运维人员从仓库Ⅰ选择了一批云盘搬迁至新仓库Ⅱ,为了加速搬迁,手动关闭了迁移过程中的数据校验;在20:27 搬迁完成之后,运维人员将客户的云盘访问切至仓库Ⅱ,同时为了释放空间,对仓库Ⅰ中的源数据发起了回收操作;到20:30 监控发现仓库Ⅱ部分云盘出现IO异常。

腾讯云在对故障原因进行分析和复盘后得出结论:本次事故起源自因磁盘静默错误导致的单副本数据错误,再由于数据迁移过程中的不规范操作,导致异常数据扩散至三副本,三副本安全机制失效,最终导致客户数据完整性受损。

具体来说,腾讯云的运维人员存在如下两点违规操作,导致拥有99.9999999%可靠性以及三副本安全机制的腾讯云最终也没能保住“前沿数控”存储的数据——

第一次,运维人员为了加速完成搬迁任务,违规关闭了数据校验。而正常数据搬迁流程是默认开启数据校验,这样才能有效发现并规避源端数据异常,保障搬迁数据正确性。

第二次,运维人员为了尽快降低仓库使用率,违规对源仓库进行了数据回收。而正常的操作是数据搬迁完成后,源仓库数据应保留24小时,用于搬迁异常情况下的数据恢复。

正是以上两点致命的违规操作,最终导致了悲剧的发生。令人不解的是,上述两步操作都应该是一个运维人员最基础的标准操作流程,可是偏偏腾讯云的运维人员两步都人为做错。

既然事情已经发生了,腾讯云也只能亡羊补牢了。

作为改进措施,腾讯云表示,会把全流程的数据安全校验作为系统的常开功能,不允许被关闭。同时,进一步提升常规运维自动化和流程化,降低人工干预。

而针对导致本次事件的物理硬盘静默数据错误,腾讯云提出的改进办法是,通过优先巡检主副本数据块、跳过近期用户访问过的正确数据块等方法,加速发现该类错误,进行数据修复。

与此同时,腾讯云呼吁,客户开启免费的快照功能,对重要数据进行定期备份。

不过,在当晚的通告中,腾讯云并没有提及跟“前沿数控”之间是否就巨大的赔偿金额差异矛盾进行新的沟通,或者有什么新的进展。

而对于在本次事件中负有直接责任的相关运维人员,腾讯云也没有提及是否会进行相关处罚。

 行业动态

行业动态

页脚区
 中创软件微信号
地址:
山东省济南市千佛山东路41-1号
邮编:
250014
邮箱:
contact@cvicse.com
电话:
400-618-6180(业务)
 
 

中创软件工程股份有限公司版权所有   1991-2018      鲁ICP备05035133号