携程解释瘫痪原因：员工错误操作删除执行代码

jopen 10年前

编者：从上午11点到夜间11点完全恢复，整个故障时间持续整整12个小时，运维的反思、互联网的反思！

昨日上午11:09，携程官方网站及APP大面积瘫痪，无法正常使用。直到昨日晚间23:29，携程官方网站及APP恢复正常。对此，携程向凤凰科技发来声明，称经技术排查，确认此次事件是由于员工错误操作，删除了生产服务器上的执行代码导致。

携程在声明中说，携程后台是一个由SOA（面向服务）架构组成的庞大服务器集群，看似简单的一个页面背后由上千个应用子系统以及上千个Web Service组成，而每个应用子系统和每个Web Service之间都存在着相互调用的依赖关系。发生事件后，携程的技术人员除了需要恢复生产服务器上的执行代码以外，还需要做的是恢复并确保每个应用子系统以及每个Web Service的功能正常，同时确保应用子系统与Web Service间的调用关系得以正常执行。因此才花费了十二个多小时才恢复正常。

携程称，数据和数据库并未受到此次事件的影响，用户订单数据也完整无损。

对于该员工后续如何处理，携程方面暂未表态。

以下为携程的简要原因说明：

1、事件发生原因

经携程技术排查，确认此次事件是由于员工错误操作，删除了生产服务器上的执行代码导致。

2、为什么恢复时间那么长

一般来说，类似携程这样的大型网站承载着繁多业务，其后台是一个由SOA（面向服务）架构组成的庞大服务器集群，看似简单的一个页面背后由上千个应用子系统以及上千个Web Service组成，而每个应用子系统和每个Web Service之间都存在着相互调用的依赖关系。

发生事件后，携程的技术人员除了需要恢复生产服务器上的执行代码以外，还需要做的是恢复并确保每个应用子系统以及每个Web Service的功能正常，同时确保应用子系统与Web Service间的调用关系得以正常执行。

这种验证性的操作需要携程的工程师及运维人员通力合作，尽快恢复生产代码并通过反复地、持续性地调试以确保应用子系统与Web Service功能的正常运行。

携程再次保证，数据和数据库并未受到此次事件的影响，用户订单数据也完整无损，请用户放心并继续使用携程网站及App。

3、如何杜绝此类事件的再次发生？

携程在系统上做了改进，规范并杜绝技术人员错误删除生产服务器上代码的操作。

来自：http://www.oschina.net/news/62851/ctrip-down-reason

携程解释瘫痪原因：员工错误操作 删除执行代码

相关资讯

携程解释瘫痪原因：员工错误操作删除执行代码