跳过正文
Background Image
  1. 云计算泥石流/

我们能从网易云音乐故障中学到什么?

·1534 字·4 分钟· ·
冯若航
作者
冯若航
Pigsty 创始人, @Vonng
目录

今天下午 14:44 左右,网易云音乐出现 不可用故障,至 17:11 分恢复。网传原因为基础设施/云盘存储相关问题。


故障经过
#

故障期间,网易云音乐客户端可以正常播放离线下载的音乐,但访问在线资源会直接提示报错,网页版则直接出现 502 服务器报错无法访问。

bad-gateway.png

在此期间,网易 163门户也出现 502 服务器报错,并在一段时间后 302 重定向到移动版主站。期间也有用户反馈网易新闻与其他服务也受到影响。

许多用户都反馈连不上网易云音乐后,以为是自己网断了,卸了APP重装,还有以为公司 IT 禁了听音乐站点的,各种评论很快将此次故障推上微博热搜:

weibo.png

期间截止到 17:11 分,网易云音乐已经恢复,163 主站门户也从移动版本切换回浏览器版本,整个故障时长约两个半小时,P0 事故。

17:16 分,网易云音乐知乎账号发布通知致歉,并表示明天搜“畅听音乐”可以领取 7 天黑胶 VIP 的朋友费

heijiao.png


原因推断
#

在此期间,出现各种流言与小道消息。总部着火🔥 (老图),TiDB 翻车(网友瞎编),下载《黑神话悟空》打爆网络,以及程序员删库跑路等就属于一眼假的消息。

但也有先前网易云音乐公众号发布的一篇文章《云音乐贵州机房迁移总体方案回顾》,以及两份有板有眼的网传聊天记录,可以作为一个参考。

网传此次故障与云存储有关,网传聊天记录就不贴了,可以参考《网易云音乐宕机,原因曝光!7月份刚迁移完机房,传和降本增效有关。》一文截图,或者权威媒体的引用报道《独家|网易云音乐故障真相:技术降本增效,人手不足排查了半天》。

我们可以找到一些关于网易云存储团队的公开信息,例如,网易自研的云存储方案 Curve 项目被枪毙了。

author.png

查阅 Github Curve 项目主页,发现项目在 2024 年初后就陷入停滞状态:

pulse.png

最后一个 Release 一直停留在RC没有发布正式版,项目已经基本无人维护,进入静默状态。

Curve 团队负责人还发表过一篇《curve:遗憾告别 未竟之旅》的公众号文章,并随即遭到删除。我对这件事有些印象,因为 Curve 是 PolarDB 推荐的两个开源共享存储方案之一,所以特意调研过这个项目,现在看来……


经验教训
#

关于裁员与降本增效的老生长谈已经说过很多了,我们又还能从这场事故中学习到什么教训呢?以下是我的观点:

第一个教训是,不要用云盘跑严肃数据库!在这件事上,我确实可以说一句 “ Told you so” 。底层块存储基本都是提供给数据库用的。如果这里出现了故障,爆炸半径与 Debug 难度是远超出一般工程师的智力带宽的。如此显著的故障时长(两个半小时),显然不是在无状态服务上的问题。

第二个教训是 —— 自研造轮子没有问题,但要留着人来兜底。降本增效把存储团队一锅端了,遇到问题找不到人就只能干着急。

第三个教训是,警惕大厂开源。作为一个底层存储项目,一旦启用那就不是简单说换就能换掉的。而网易毙掉 Curve 这个项目,所有这些用 Curve 的基建就成了没人维护的危楼。Stonebraker 老爷子在他的名著论文《What Goes Around Comes Around》中就提到过这一点:

stonebraker.png


参考阅读
#

网易云音乐崩了

GitHub全站故障,又是数据库上翻的车?

阿里云又挂了,这次是光缆被挖断了?

全球Windows蓝屏:甲乙双方都是草台班子

删库:Google云爆破了大基金的整个云账户

云上黑暗森林:打爆AWS云账单,只需要S3桶名

互联网技术大师速成班

门内的国企如何看门外的云厂商

卡在政企客户门口的阿里云

互联网故障背后的草台班子们

云厂商眼中的客户:又穷又闲又缺爱

taobao.com证书过期

云SLA是安慰剂还是厕纸合同?

罗永浩救不了牙膏云

故障不是腾讯云草台的原因,傲慢才是

【腾讯】云计算史诗级二翻车来了

Redis不开源是“开源”之耻,更是公有云之耻

剖析云算力成本,阿里云真的降价了吗?

我们能从腾讯云故障复盘中学到什么?

腾讯云:颜面尽失的草台班子

从降本增笑到真的降本增效

阿里云周爆:云数据库管控又挂了

我们能从阿里云史诗级故障中学到什么

【阿里】云计算史诗级大翻车来了

相关文章

瑞士强制政府软件开源
·1401 字·3 分钟
瑞士政府通过开源立法走在时代前沿,给 IT 后发国家如何保证软件自主可控打了个样:真正的自主可控根源在于“开源社区”,而不是某些民族主义式的国产软件。
MySQL安魂九霄,PostgreSQL驶向云外
·7541 字·16 分钟
MySQL 9 新发布,这个所谓“创新版”成为一个酸楚的笑话 —— 曾经“最流行”的数据库 MySQL 正在死去。MySQL is dead,Long live PostgreSQL!
Oracle 还能挽救 MySQL 吗?
·2283 字·5 分钟
Percona 创始人 Peter Zaitsev 在官方博客上公开表达了对 MySQL,及其知识产权属主 Oracle 的失望,以及对版本越高性能越差的不满,这确实是一个值得关注的信号。
Oracle最终还是杀死了MySQL
·1699 字·4 分钟
Peter Zaitsev是MySQL生态重要公司Percona的创始人,他撰文痛批 Oracle 的作为/与不作为杀死了 MySQL。
MySQL性能越来越差,Sakila将何去何从?
·2933 字·6 分钟
MySQL版本越高性能反而越差?在PostgreSQL高歌猛进,吞噬数据库世界的同时,MySQL的性能和功能被甩开的越来越远。为啥MySQL在Oracle手中止步不前?我看主要还是云厂商白嫖的锅,PG应当引以为戒。
PostgreSQL 正在吞噬数据库世界
·7058 字·15 分钟
PostgreSQL 并不是一个简单的关系型数据库,而是一个数据管理的抽象框架,具有吞噬整个数据库世界的力量。而这也是正在发生的事情 —— “一切皆用 Postgres” 已经不再是少数精英团队的前沿探索,而是成为了一种进入主流视野的最佳实践。