2019 年 7 月,我见到了正准备创业的 TJ(唐建法)。TJ 那时是 MongoDB 大中华区的首席架构师,也是 MongoDB 中文社区的创建者,在业内拥有非常高的知名度和口碑,行业内有人称它为 MongoDB 的「*玩家」。更早之前,他在美国联邦快递担任首席架构师。
不久后,TJ 离开 MongoDB,创建实时数据平台 Tapdata,完成了从大平台高管到创业领域的「小人物」的转变。
TJ 曾经认为自己是一个擅长表达,善于引发大家共鸣,能把复杂的产品技术说清楚的一个人。然而,据我观察,创业之后,他反而在这方面遭遇了巨大的「心理挫折」。
很长一段时间,寻求融资的过程中,投资人不理解 TJ 做的事情。一方面,Tapdata 做的是技术领域非常「专精」、触及底层的产品,专业门槛高、理解起来不容易;另一方面,Tapdata 找不到国外的对标产品。TJ 和我说:「有一次,一名投资人不断问我这个产品的国外对标产品是什么,我说没有。因为真的没有。他不理解。」
但相比投资人的理解「滞后」,行业、市场对 TJ 做的事情的反应是敏捷的。Tapdata 成立一年,团队大概 20 多人,*年的营收却有将近千万,产品获得了诸多行业标杆客户的认可,包括中国移动、中国一汽、周生生、TCL、南方电网、富邦银行等。
有了应用场景之后,投资人们终于理解 TJ 正在做的事情的合理性和价值。很快,2021 年中旬,他们先后拿到了五源资本、XVC、德联资本等机构数千万美元的 PreA 及 PreA+ 两轮融资。而国外相似业务的公司,则在 Tapdata 诞生一年后才出现。
时代变了。中国新一代的技术创业者,往往在事业开端就具备国际视野,很多创新可以源自中国本土,而不是再模仿硅谷。
更深层次的,TJ 所做的事情从不被理解到被理解,Tapdata 这种新事物势如破竹的成长,也标志着对于数据这件事,「重新理解、更好运用」时代的开始。
01
所谓的「数据运用」新时代是什么?
根据 IBM 调研,全世界 90% 的数据是在过去 2 年内产生的。整个人类商业世界在这两年里,经历了一次数据大爆发,且这个进程是不可逆转的。未来,任何一家公司理论上都是一家软件公司,需要定制化的应用来支撑业务。
过去,只有一些特定行业的大公司会提「数字化转型」,而现在,各行各业的数字化转型都在快速且主动地完成。比如,当各家公司开始上线新型 ERP、SCRM、IOT 以及低代码等系统的时候,会建设越来越多配套的数据库。而不同数据库之间的数据往往是不相通的,处于一种数据孤岛的状态。
疫情这两年,尤其加快了这个进程——我们通过在线文档来协作,通过视频会议来取代线下的会议,以及将促销活动搬到线上等等。
线上经营活动变多了之后,事务型系统(Online transaction processing,简称 OLTP 型业务)变得越来多和越来越重要。
什么是事务型系统?TJ 曾举过一个例子,比如说你开个奶茶店,开始的时候你只需要用个 Excel 来管理一下每天的销售情况和成本支出等。后来你越做越大,一家门店一天卖出几千杯,Excel 已经无法处理这么多的订单记录,于是你可能会委托一家 IT 服务商帮你定制一个简单的销售系统,用来记录每天的销售情况。为了方便顾客手机下单,你又雇人开发一套小程序系统用来下单和送外卖。这些,都是事务型系统。
当你开始有了几十家门店的时候,你可能会关心哪家门店*钱?什么时间段生意*?什么品类*卖?要回答这些问题,就需要对上面应用系统内已经产生的业务数据进行一些聚合分析。因为做这些分析需要的数据往往储存在不同时间构建的不同业务系统之内,所以我们需要将数据汇总到一个中央化的数据平台,比如说数据仓库或者大数据平台。这就是一个典型的分析型业务(Online analytical processing,简称 OLAP 型业务)。
对于事务性系统的要求,正在变得越来越复杂,比如一家珠宝零售公司想要用数字化系统推动一个促销方案,这看起来是一件很简单的事情。但实际上,它的实现是非常困难的——要理解这件事,我们得先简单聚焦一下「数据孤岛」。
过去几十年里,诞生了各种各样的数据库,针对不同的业务系统,一家公司使用的配套数据库可能也并不相同,数据库结构各不相同,使得不同系统产生的数据无法被快捷地以特定目标来集成和调用,便形成了「数据孤岛」。
数据孤岛问题早已存在,Tapdata 也不是*家试图解决数据孤岛的公司。大多数解决方案是将数据中央化,定期批量抽取业务系统数据,放到中央化的,以 HDFS (HDFS,指 Hadoop 分布式文件系统)为代表的大数据平台,完成数据的汇总,然后对抽过来的数据进行分析。
但这种做法存在的问题是数据处理不及时,只能进行后台离线分析,不能支撑实时的业务场景。比如上面提到的珠宝公司搞促销活动这个场景,会涉及到支付、库存、产品价格等信息,如果没有一套统一的系统可以实时、准确地获取和处理这些数据,那就无法为业务提供支持。
再比如,客户在一个已有的业务系统下了个订单,第二天这条订单和库存才能更新到其他对该客户数据感兴趣的下游。如果想开发一个小程序来管理客户在多个业务系统内的交易订单,就没法做到。这是很多传统企业数字化转型所面临的问题。
而想要解决这种问题,就需要一种更为及时的数据采集和获取方式,以及新型的数据库来存放、融合不同类型的数据,且能够做到高并发,毫秒级响应。而中台存储数据库,只有以 MongoDB、TiDB为首的分布式数据库才可以做到。这也是为何最近几年,数据领域发生了巨大变化——分布式数据库开始迅速崛起。
这不难理解:一方面,过去几十年的企业数字化造成了许多的孤岛系统和数据,而只有「融合」后的数据才能真正用起来,企业越来越需要打破「数据孤岛」;另一方面,随着 IT 架构的迭代升级和业务端的全渠道营销,企业对于数据的实时性要求越来越高。
自 2017 年上市,面向事务型业务(OLTP)的 MongoDB 的市值从 12 亿美元增长到如今的 284 亿美元。4 年多的时间,市值涨了 24 倍。市场已经为未来指明了方向:OLTP 型业务的价值正强势崛起。
然而,很多大企业经过 20 多年的信息化建设,已经存在大量的不同的数据库,他们很难立刻抛弃掉这些稳定的,每天正在支撑着业务紧密运行的数据库,并投入极高的成本迁移到新的分布式数据库上。
但问题还是需要解决。面对已有的众多数据库,如何在一个平台上,解决不同数据源的数据实时提取和融合——这个摆在当下的、几乎所有企业都面对的巨大的历史性的需求,便给了 Tapdata 这样的「新物种」机会。
02
在数据世界里,
修建「高速公路」
TJ 之前在北美留学、工作十余年,2014 年,加入了 MongoDB,并打造了 MongoDB 中文社区,通过大会、博客、文档翻译、免费社区技术支持等方式,搭建起一个非盈利的技术交流社区。
在 MongoDB 工作期间,TJ 的工作更加接近客户。他也因此很强烈地从客户侧感受到了,企业在数字化转型过程中遇到的前文所提到的数据问题。
一次,在 MongoDB 内部的黑客马拉松比赛里,TJ 设计了一款 demo 来解决这个问题,虽然在决赛中 demo 因为技术原因没能运行成功,但没想到受到公司销售和市场同事们的热捧获得了*名。这也从侧面验证了市场的实际需求。
2019 年 9 月,TJ 从 MongoDB 辞职,创办了 Tapdata。Tapdata 打造了一款名为 Tapdata Cloud 的免费开放版工具,能将不同系统中的不同类型数据实时同步到类似于 MongoDB 或 TiDB 等新一代分布式数据库上,来帮助企业随时展开各种注重时效性的新业务,成为了国内实时 DaaS(Data as a service,数据即服务)赛道的开创者。
可以这样理解,企业原有的数据库继续使用,但 Tapdata 相当于给它们加了一层「插件」,相当于在两者之间搭建了跨系统的「高速公路」,且具有双向车道。以一种很轻巧的方式,解决了复杂的问题。
以某市教育局为例,在教育应用系统中,教研人员通常需要在 OA 办公,教科研,学生成绩、行为分析、音视频资源等等一大堆应用中频繁切换。将 Tapdata 作为主数据平台后,可以让使用者一次登录即可访问所有教育系统内的应用,并且在一个应用中修改的数据会在全部的应用中得到更新。
另一个案例,以某头部奢侈品零售品牌为例,该客户在两岸四地有几百家门店,一年要举办大大小小上万场市场活动,其中数百个活动需要 IT 部门支持,而 ERP 后台有数十人的香港团队负责。通常情况下,香港的技术团队平均要花四到八个星期来支撑数据调用的诉求,因此经常处于交付高压状态下,无法及时响应前端团队的需求。
Taptada 改变了事情的整个流程,事先将企业多套 Oracle 业务系统的不同类型数据进行实时采集,同步到中台数据库。当一个新的业务需求进来时,操作人员在 Tapdata 里直接拖拉拽,就能搭建好需要的数据表模型。这个过程大概 1-2 个小时就能完成并进入测试环节,且做到了数据的实时更新。业务人员也不再需要等几个小时,甚至隔日才能看到活动日的各项订单等数据。
03
重新思考数据的意义
和 Tapdata 部分场景存在重合的 Fivetran 在 2020 下半年完成了 1 亿美元的 C 轮融资,估值 12 亿美元,晋升为「独角兽」。
这个消息传到国内,有投资人问 Tapdata 和 Fivetran 的差别,TJ 意识到,两者追求的大方向是一致的,Tapdata 更像是 Fivetran 的「超集」。所谓超集,即 Fivetran 能做的,Tapdata 也能做,而 Fivetran 不能做的,Tapdata 也能做。
2021 年 9 月,Fivetran 完成 5.65 亿美元 D 轮融资,估值 56 亿美元。一年间估值翻了 5 倍。在融资后,Fivetran 收购了数据复制公司 HVR,开始发力实时数据服务能力,最终还是驶向了 Taptada 开辟的这条赛道。如今,国内外陆续地也有一些企业开始在这个领域「萌芽」,比如 2020 年,硅谷出现了一家叫 Meroxa 的公司做跟 Tapdata 接近的事情。
海外终于有了满足投资人「对标」的企业和产品,也有了可以对标的创新价值,虽然 TJ 受了一年多不被认同的苦,但我觉得最终也是「福报」。因为这证明了 TJ 比别人先看到了趋势。而这个趋势不仅仅是数据运用到业务的「实时性」,更重要的是,今天这个时代,数据的接入权其实就代表着创新的力量,数字化就是要基于数据去做创新、做决策。
打个比方:伴随着数据这个「油田」越来越大,早年间,每个家庭自己拎一桶,也就够家里的取暖了。而现在,人们不仅想用石油来取暖,还想用它进行工业化生产,甚至还要出口。这个时候油田的管道等基础设施,就需要更新升级。从本质上讲,实时 DaaS 平台,就是为层出不穷的新需求打造的基础设施。
这一点上,我发现 Taptada 做的事情,在精神上其实是和飞书高度一致的。我们公司使用飞书,我也受邀到飞书内部做过很多次交流,
飞书主张的思想就是在一个组织内,信息要充分透明和有效流动,这有助于每个个体发挥更大的智慧、能量。所以飞书对于先进公司,是有非常强的吸引力的。
同样,Tapdata 让更多人可以更便携地接触更充分的业务数据,来实现商业创新。它不仅仅一个局部功能,它背后所代表的更是一种通向创新的文化。
TJ 有一个一直被人津津乐道的身份,前摇滚乐队键盘手。你可能想象不到,如今这位计算机领域的高手,大学从数学专业毕业后,在一个摇滚乐队当了四年全职键盘手。后来,他才自学的编程。
键盘手在一只乐队里,往往能够拉高整体音色、氛围,又能够和成员顺滑地融合在一起。这种气质和他现在做的 Tapdata 还挺契合的,既兼容过去又通向更高的未来。
摇滚乐在诞生之初,也代表着那个时代思考的前沿。我印象里,搞摇滚的人多少都带有一些反叛和前卫。这么看,摇滚乐键盘手,和如今数据领域创业者身份的转变,内核还挺一致的。