跳过正文
支付宝淘宝闲鱼全崩了?又是消息队列的锅?
  1. 云计算泥石流/

支付宝淘宝闲鱼全崩了?又是消息队列的锅?

·2141 字·5 分钟· ·
冯若航
作者
冯若航
Pigsty 创始人, @Vonng
目录

2025年12月4日晚,淘宝、支付宝、闲鱼集体崩了,用户钱扣了订单却显示未支付,症状与2024年双十一支付宝故障类似,推测根因可能是消息队列或分布式事务协调问题。

截止至本文发出,阿里巴巴截至发稿仍未公布任何技术原因说明。本文基于公开信息和技术原理分析,推测部分仅供参考。


发生了什么
#

2025年12月4日晚21点左右,淘宝、支付宝、闲鱼集体崩了。

bengle.webp

用户付完钱,订单还显示"待付款";手一抖多点几下,同一笔订单扣了好几遍。 闲鱼客服排队9000+人,微博热搜前十被"淘宝崩了"“支付宝崩了"“闲鱼崩了"霸榜。 这场闹剧持续了约两个半小时,直到23:37左右才基本恢复。

  • 约21:00:用户开始反馈支付宝付款异常,订单显示待付款但银行已扣款(微博用户反馈、第一财经)
  • 21:41:米哈游《原神》官方发布公告:“由于支付宝服务异常,导致游戏出现无法充值、充值未到账问题”
  • 约22:00:三个"崩了"话题冲上微博热搜前十
  • 23:37: 第一财经确认故障已修复

影响范围:淘宝、支付宝、闲鱼、1688、饿了么、盒马——整个阿里电商生态的支付链路都受波及。 第三方接入支付宝的应用也跟着遭殃,《原神》是唯一一个明确甩锅的,官方公告写得很直白:“由于支付宝服务异常”。 阿里自己呢?淘宝客服只会让用户"不要重复支付,稍后系统会更新”。至于到底出了什么问题,截至本文发稿,官方没有任何技术性说明。

mihoyo.jpg


似曾相识的症状
#

这次故障的核心症状很有特点:钱扣成功了,订单状态没更新

这不是简单的"服务不可用”,而是更麻烦的分布式事务状态不一致——支付系统认为交易完成了,订单系统却不知道。用户看到"待付款"自然会再点一次,于是重复扣款。

眼熟吗?翻翻去年的新闻:2024年11月11日,双十一当天上午,支付宝也崩过一次。 症状几乎一模一样:银行卡扣款成功但订单显示未支付,同一订单被扣多次,余额宝提现不到账。那次支付宝官方给出了明确的故障原因:

2024.jpg

“系统消息库"这个措辞,指向的是消息中间件——在支付宝的架构里,这套东西基于RocketMQ,负责在各个微服务之间传递事务消息,是分布式事务一致性的关键枢纽。


大概率是什么问题
#

根据症状来推断,可以先排除几种可能:

  • 不是风控误杀:如果是风控触发,用户会看到"登录环境异常"之类的提示。但这次用户反馈里没有任何风控报错,就是单纯的"支付成功订单没变”。
  • 不是数据库宕机:如果核心数据库挂了,支付本身也会失败,不会出现"扣款成功"。
  • 不是网络中断:网络问题会导致请求超时,而不是"部分成功部分失败"的状态。

最符合症状的解释还是消息队列或分布式事务协调出了问题

支付宝用的是TCC(Try-Confirm-Cancel)分布式事务模型。简单说:用户点击支付后,支付服务先完成扣款(Try),然后发一条Confirm消息通知订单服务更新状态。 如果这条消息因为某种原因没能正常投递——消息队列积压、消费端超时、或者事务回查机制失效——订单那边就收不到通知,状态不会更新。

tcc.jpg

结合2024年双十一的官方归因和这次的症状表现,老冯倾向于认为根因还是消息队列的问题。 可能是消息队列本身故障,也可能是上下游某个环节处理不过来导致消息积压超时。具体是哪个,具体原因需要等待官方进一步说明。

此外,有技术社区讨论指出,阿里云在故障当天有 RocketMQ 的滚动升级计划,但目前无法确认与本次故障是否有直接关联。

rocketmq.png


老冯评论
#

支付系统是金融基础设施,用户把钱放在你这里,对稳定性和透明度的要求天然就高。出问题不可怕,分布式系统本来就复杂,翻车是可以理解的。

但出了问题之后的态度很重要。2024年双十一那次,支付宝好歹发了官方声明承认是消息库问题。沉默只会让人猜测,猜测往往比真相更伤害信任。

阿里系的稳定性问题这两年确实不少,似乎每年双十一前后都会有些幺蛾子出来:

2025-06-06 大故障:阿里云核心域名被拖走了

2024-11-11 支付宝崩了?

2024-09-10 阿里云新加坡可用区C故障,机房着火

2024-07-02 阿里云又挂了,这次是光缆被挖断了?

2024-04-20 taobao.com 证书过期

2023-11-27 阿里云数据库管控挂了

2023-11-14 我们能从阿里云史诗级故障中学到什么

2023-11-12 阿里云计算史诗级大翻车来了

AWS、GCP、Cloudflare 出了故障,通常会立刻发布详细的事后分析报告(Post-Mortem),讲清楚根因、时间线、后续改进措施。 这次涉及支付链路、涉及真金白银的问题,还是期待官方能及时站出来,有一个清楚的解释。


彩蛋
#

在 Google Gemini 3 Pro 的研究过程中,它提出了一种非常有想象力的解释 —— 认为豆包AI和努比亚手机是本次故障的幕后黑手。 并且在多次提示这可能就是一普通故障的情况下,连续几轮都坚持这个观点,洋洋洒洒写了一篇阴谋论长文。 老冯觉得实在是天马行空,角度清奇,但非常有趣,也贴出来给大家乐一乐。但话又说回来了,有时候现实可能比小说更离奇。

gemini.jpg

https://gemini.google.com/share/ff8074e1a444


参考
#

“支付宝崩了”登上热搜

阿里系APP出现支付宝付款异常,目前故障已修复

刚刚 | 支付宝崩了!淘宝崩了!闲鱼崩了!

相关文章

罗永浩救不了牙膏云?

·1538 字·4 分钟
老罗直播间先铺垫卖了半个小时的扫地机器人,接着姗姗来迟的老罗照本宣科念台词卖了四十分钟”云计算“ —— 然后继续卖起了高露洁无水酵素牙膏—— 留下观众在牙膏与云计算之间迷惑凌乱。