2026年3月1日,伊朗无人机击中AWS阿联酋与巴林数据中心。这可能是公开报道中第一次有大型云厂商的数据中心遭到军事打击并瘫痪。以前可能有人觉得战争离软件工程很远,现在看,只隔着一层机柜门。
北京时间 3 月 2 日晚 19:49,Claude 崩了。不是数据中心被炸了,而是被用户挤爆了。
用户钱扣了订单却显示未支付,症状与2024年双十一支付宝故障类似,推测可能是消息队列或分布式事务协调问题。
ClickHouse权限配置失当,导致了Cloudflare最近六年以来的最严重故障——核心流量分发停摆六个小时。
AWS DynamoDB 故障的官方复盘来了,老冯带您一起看看,到底是什么故障带崩了半个互联网。
AWS US-EAST-1 区域DNS解析故障带崩半个互联网,老冯带您复盘 AWS 史诗故障。
即使是万亿级独角兽,在非专业领域上,也照样是个草台班子。
新加坡C可用区故障头七,可用性还剩几个9,就连8都没有了,但与丢数据相比,可用性也只是小问题了。
今天下午网易云音乐出现了两个半小时的不可用,根据网络上流传的线索拼图碎片,我们不难推断出这次故障背后的真正原因是……
甲乙双方都没有做好爆炸半径的控制,导致了这次史诗级的全球安全事件,这次事件将极大利好本地优先的软件理念。
由于"前所未有的配置错误",Google云误删了万亿人民币基金大户UniSuper的整个云账户、云环境和所有异地备份,创下云计算历史上的全新记录!
腾讯云史诗级全球故障创下行业记录,我们该如何评价看待这场故障,又可以从中学到什么经验与教训呢?
阿里云和滴滴前后脚出了大故障,本文来聊一聊如何从降本增笑到真的降本增效——到底应该降什么本,增什么效?
阿里云双十一后的史诗级全球故障创下行业记录,我们该如何评价看待这场故障,又可以从中学到什么经验与教训呢?