随着人工智能技术的突破,AI正在改变着千行百业,首当其冲的就是软件。当自然语言变成最热门的编程语言,整个软件的开发流程都被颠覆。
过去7个月,GitHub上新增的源代码已经有超过46%是AI生成的。PingCAP 创始人兼 CEO 刘奇在PingCAP 用户峰会 2023上分享了这个惊人数据,AI意味着巨大的生产力提升。
过去需要写SQL才能查询的数据,现在依靠自然语言十分钟就能做到。这样巨大的生产力提升意味着数据消费的门槛变得极低,换而言之,数据库的巨大挑战来了。
(资料图片仅供参考)
如果数据增加10倍、100倍会怎么样?它还能做到人人可用,人人轻松使用吗?这其实是PingCAP在四五年前就思考的一个问题:如果为全世界所有开发者提供一个免费的数据库,它的架构应该是什么样的?
在生成式AI迅猛爆发的今天,PingCAP给出了自己的回答。
AI 时代数据库PingCAP的答案名叫TiDB Serverless,这是PingCAP 数据库品牌TiDB的最新版本,刘奇宣称,它具有超低的成本和门槛。
TiDB Serverless采用了完全分离式的架构,不只是存算分离,还包括算算分离、存存分离,这让整个数据库不仅使用起来异常简单,而且还具有非常强的弹性——也就是说,用户只需要为正在使用的部分付费,而不需要按照自己最高峰值的需求去配置一个在大多数时用不到的数据库。
举个例子,当有10个TD跑在TiDB Serverless上面,没有任何访问的时候,所有的计算节点全部会被自动下档,而当有需要的时候,你可以在百毫秒内让它启动。
由此,PingCAP 这个AI 云时代的数据库可以做到比云上部署的社区版还便宜。PingCAP 联合创始人兼 CTO 黄东旭把TiDB Serverless代表的理念称之为数据库的服务化,而不是服务化的数据库。
“八年前一开始设计TiDB的时候,我看到的东西就是一台台具体的服务器,我看到的是CPU,我看到的是内存,我看到的是磁盘,基于这些东西我们构造了TiDB,”黄东旭说道,“我重新再开始去设计这个系统的时候,我看到的是云上给我的服务。”
基于这一理念,四年前PingCAP开始了基于云上的Serverless 架构的开发,最终让TiDB Serverless 不仅实现了对成本的精确控制,还支持弹性扩容,以及多租户多应用模式,让数据库不仅支持大规模海量用户的使用,还能实现安全隔离以及高效利用、共享底层系统资源。
“我们把TiDB Serverless当做一个完整的服务,而不是只当作一个数据库设计的。”黄东旭宣称。
从技术角度看,TiDB Serverless 靠着三个部分的创新做到了这一点。
首先是全新的云原声引擎CSE,它是一个为了实现极致成本控制的储存引擎,在数据库的每一层上都能实现存算分离,比如大部分用户很少用到的冷数据,可以直接放到更便宜的云储存上去,而数据库所有的组件,包括所有的计算节点、储存节点都变成了池化的设计,只有在用户真正需要的时候才开启。
因此实际上,这种架构保证了TiDB Serverless用户越多,数据量越大的时候,它的成本就会更便宜。
除此外,还有 TiDB 第一次引入逻辑上的 Key Space 以及 Resource Control 模型,让用户非常方便的将多个MySQL业务汇聚到一个TiDB集群里。
一方面它能极大降低多套集群的运维成本和运维复杂度,同时通过多合一的业务汇聚实现成本节省。
PingCAP宣称,在实际的用户场景中节省的成本高达40%,而过去几个月,TiDB Serverless已经拥有了超过1万个活跃集群。
无需资源规划、秒级启动、0 元起步、按使用付费、极致弹性,在黄东旭看来,无论技术世界如何变化,稳定性、性能、高可用、易用性与工具生态永远都是数据库需要着意关注的重点,而在未来,TiDB Serverless 甚至还会支持私有化环境部署,这会为企业在安全合规环境下调用数据库提供极大的方便。
PingCAP认为这实际上是一场数据库架构的现代化革命。
“小大模型”“让用户专注于创新”一直是 PingCAP 的主张,这意味着将用户从复杂的数据处理工作中解放出来。从解决MySQL 分库分表问题,到 HTAP 架构、云原生,再到 TiDB Serverless 数据库,都是该理念的延伸。
这种理念下的数据库,恰好符合生成式AI爆发的需要。“以极简架构、极致体验和超低门槛为云上开发者、创业公司提供低至零成本的选择。”刘奇评价刚刚正式商用的 TiDB Cloud Serverless时说道,而关于AI和数据库如何结合,刘奇想的还有更多,可以大致分为三层。
第一层当然是最简单和容易想到的,那就是用自然语言与数据库进行日常交互,这样就自动完成了数据分析的工作。第二层则是中间环节,“很多时候已经与大模型无关了。”刘奇说,比如可以训练一个AI小模型,来预测用户工作负载的变化,及时准确调用各种数据,让用户觉得好像数据一直就在这里。
第三层则是最重要的,系统架构的变革实际上可以和AI深度结合。刘奇举了个例子,数据库降低成本很重要的方法是压缩数据,但这是非常消耗CPU算力的事,这时AI就派上了用场,“根据数据的特点很容易用一个小模型来选出用什么样的压缩算法达到最高的效率。”刘奇说道,而如果把AI植入系统架构的各个环节,很多地方都将是专用小模型的用武之地——一方面它能实现很快的速度,同时还能兼顾数据的安全合规。
数据库将被AI赋能( AI-Powered ),而用户看到的不是一个AI功能,而是整个数据库能力的提升。在PingCAP看来,这将是极大的创新与机会。
而生成式AI领域的技术突破甚至有点让人应接不暇,过去被认为需要花很多年才能相对接近OpenAI能力的小模型,实际的进步速度飞快,在PingCAP看来,小模型在接下来几个月就可以满足Query这样的应用场景。借助小模型的能力,今天需要等待十几秒生成的SQL未来可能只需要几秒钟。
“小模型的意思不是它是个小朋友,而是它也到了基础的线,它具备基础的综合素质。”刘奇说。起步训练量在1TB token左右的小模型,它的知识丰富程度已经很高,实际上可通用性和可用性已经非常强,就算达不到博士毕业生的水平,至少也是“高中大学生水平”,而成本则比通用大模型低得多,这让它天然适合介入数据库运行的许多环节。
“我们现在已经做到了全世界最具性价比的数据库,而它的能力还会借助AI,逐步做的更好。”刘奇说道。一个激动人心的AI时代数据库愿景,正在PingCAP手中变成现实。
关键词: