开源不等于免费。
大概每个人刚开始了解开源时,都会听到这句话。
但是,有这样一家开源创企,花了近 2 年的时间,为开源软件 Apache Pulsar、Apache BookKeeper 做贡献,甚至还免费帮社区用户开发定制化的需求,分文不取……
这家公司便是 StreamNative,其两位创始人郭斯杰和翟佳也是他们所维护的开源项目的创始成员和 PMC 成员。最近,我们和 StreamNative 的创始人翟佳聊了聊他们的故事。
在 StreamNative 的故事中,我们能看到开源掌舵者对开源社区的坚持和思考,能看到投资人在背后给予开源事业的认可与帮助。当然,我们更能看到开源创企独特的发展路径——两年的免费支持并不意味着慈善,而是蓄力之后静待爆发,让开源社区成长为企业最坚固的护城河。
一条鲶鱼至少能让水面泛起波澜
回想 2019 年初下决心投入 Pulsar 研发的时候,翟佳提到朋友给他的一句话:大数据市场已经成型,你们进来就相当于一条鲶鱼,不一定能游很远,但市场肯定会有波动。
做为技术人员,在彼时风起云涌的大数据市场留下自己的身影,听起来就心潮澎湃。
数据库领域产品的爆发可追溯至 2003 年至 2006 年间,Google 公司陆续发布的 3 篇产品设计论文。这些论文从计算方式到存储方式,开创性地提出了分布式计算架构,奠定了大数据计算技术的基础。在这三篇论文的指导下,开源社区大牛 Doug Cutting 使用 Java 对 Google 的云计算核心技术,主要是 GFS 和 MapReduce 做了开源的实现。后来,Apache 基金会整合 Doug Cutting 以及其他 IT 公司的贡献成果,推出了 Hadoop 生态系统。
Hadoop 的出现在大数据领域掀起了一股新的开源浪潮。在此之前,开源软件的发展主要以 Red Hat 开创的订阅模式为代表,其用户更多的是使用者,而非偏重二次开发。Hadoop 出现之后,开发者可以从底层去修改其代码,从而真正比较深入地参与到开源开发中去。国内包括百度、腾讯在内的许多科技公司的开源发展也都是从大规模定制 Hadoop 开始的。
在接下来的十多年里,各路创业者、各种属性的数据库喷涌而出,逐渐形成当下数据库领域百舸争流的局面。Pulsar 在其中,已经属于一个“后来者”,但也恰恰因为出现较晚,Pulsar 天生适配云原生环境的特性,这便成为日后区别其“前辈”们的特性所在。
2012 年左右,雅虎内部需要做一个 Cloud Message Service 云消息平台,彼时郭斯杰在雅虎任职,其团队想要走存储计算分离的架构路线。但当时的硬件带宽很难支持这种架构,因此并不被业内认可。为了说服雅虎的技术委员会,郭斯杰在雅虎北京研发中心做出了 Pulsar 的原型系统 Hadwig,针对 MQ 场景,区别于 Kafka 针对大并发、高宽带的场景。
Hadwig 的测试效果说服了雅虎技术委员会。2013 至 2014 年在雅虎内部完成基本开发后,Hadwig 又在雅虎内部稳定运行了几年,2016 年开源出来成为 Pulsar。
彼时,同样是大数据消息处理的基础软件 Kafka 已经成为消息领域的“行业标准”。Pulsar 也常常需要借助 Kafka 来帮助用户对 Pulsar 建立更直观的认识。
消息领域实际上分成了两个方向,一个是针对关键业务场景的 MQ,这是 Pulsar 所擅长的。另一个便是针对大并发场景,为大数据引擎所提供的数据管道产品,如 Kafka。由于使用场景不同,消息系统在许多公司天然地被分成了两个技术栈,而 Pulsar 则可以兼顾两种场景,在存储层也有很好的优势,不但可以保证数据的服务质量,满足一般情况下对 MQ 产品的需求,也可以满足 Kafka 这种高带宽大并发的场景需求。逐渐,许多有云场景下分布式消息系统需求的公司,转向使用 Pulsar。
Apache Pulsar 大数据生态
关于 Pulsar、BookKeeper 的技术细节以及 Pulsar 和 Kafka 的对比详情,可查看 OSCHINA 之前的文章《专访 PMC,开源项目 Apache Pulsar 如何挑战 Kafka?》
国内有很好的社区土壤
感知到 Pulsar 的世界不应该被局限,是在 Pulsar 毕业前后。
2017 年 6 月 Pulsar 被雅虎捐赠给 Apache 软件基金会,2018 年 9 月毕业成为 ASF *项目。Pulsar 毕业前夕,翟佳在国内的一场技术峰会上遇到智联招聘的一位技术总监。当时智联招聘想做一个消息总线,刚好是 Pulsar 诞生所满足的场景,他们需要保证消息不丢失,也能够灵活扩容,满足死信队列的需求,对一致性要求特别高。
智联招聘技术团队先是发现了底层存储的 BookKeeper 项目,正准备自行研发一个 MQ 系统时,发现了翟佳关于 Pulsar 的分享,于是便和翟佳聊起了自己需求。之后,智联招聘便顺势成为 Pulsar 国内*个接触的用户。翟佳和社区小伙伴帮助智联招聘在其场景中,替换了他们内部的 MQ 产品和 Kafka。
2018 年 9 月 25 日,Pulsar 从 Apache 软件基金会孵化器毕业。
借着这个时机,翟佳和郭斯杰回国做了两场 Pulsar 的线下 Meetup。*场在北京,十月初的一个周末,报名有 200 人,实际到场的有一百六七十人。除了有来自互联网的开发者,也有许多来自银行等传统行业公司的开发人员,“我记得当时国有四大行之一的一个研发团队来了五六个人,当时对我们的触动还挺大的,活动的反馈让我们感觉大家对 Pulsar 还比较关注。”
上海的第二场 Meetup 同样也迎来很多关注。就这样,翟佳意识到,即便在国内的宣传刚起步的情况下,*场活动就能吸引到这么多开发者,那就说明,属于 Pulsar 的故事将有很大可能。
两场活动之后,翟佳和郭斯杰开始与一些国内的用户、开源团队逐渐建立联系,回访国内用户。慢慢地,翟佳和国内团队达成一个共识——国内的公司实际上比国外的公司拥有更大的数据量,比如四大行中的任意一个都比美国银行的交易量更大,国内的头部互联网公司内部需要处理的数据量也远超国外许多同类公司,这些公司可能会更愿意接受能解决难题的新技术。此外还有许多初创公司对新技术接纳程度普遍较高。
很快,二人决定回国创业,“我们觉得国内是做社区的一个很好的土壤,所以毅然辞职,前后就只经过一两个月的时间。”
2019 年初,以 Pulsar 和 BookKeeper 为基座的 StreamNative 公司成立。
国内最早的一批用户还有腾讯计费平台、涂鸦智能等公司,“大家很早就能从社区合作中解决自己的问题,能够有收益。”
主攻社区的两年
如果说,国内用户的出现,给了翟佳和郭斯杰回国创业的勇气。反之在二人在创业的初期,也给予了社区用户*并且不计回报的支持。
“我们前两年主攻社区,希望社区的发展能够打下好基础。”翟佳介绍,“对 Pulsar 社区的构建主要是集中在产品及与用户的互动,贡献和改进 Pulsar 的功能、丰富 Pulsar 的周边生态、帮助 Pulsar 的版本发布和维护、沟通社区用户并帮忙解决上线 Pulsar 中遇到的障碍、组织参加相关 Pulsar 的 meetup 等推广宣传活动等。这些工作主要是完善 Pulsar 的文档、降低 Pulsar 的入门门槛、丰富 Pulsar 和其他系统的集成和交互,做好用户起步的基础工作。”
用户在起步之后提出需求时,StreamNative 便会给出实现方案。如果双方觉得方案可行,便一起在社区将所需功能开发出来。无论是提供解决方案还是具体的开发工作,在很长一段时间内,都是完全免费的。
每一家选择投入社区的开源创企背后,必定是有着拥趸开源的掌舵者,以及信任他们的投资人。
郭斯杰将社区当做 StreamNative 最核心的护城河,“技术一直在迭代,可能 5 年后现在的技术就被淘汰了,但社区有众多的贡献者,他们一方面可以给你带来丰富的应用场景,另一方面可以带来很好地口碑,吸引更多人使用你的产品,进而不断迭代你的产品。”
翟佳认为,开源是让大家达成共识、提高效率的*方式。假设没有消息场景下的开源项目,那么可能每家公司都会基于现有的程序和自己的背景去开发一套系统。那么有了 Pulsar 之后,先是小部分人认为 Pulsar 好,一起来用、一起贡献,那么 Pulsar 便会越做越好,吸引更多的人。从总体上看,便能促进社会效率的提升,“这是更大的意义,从开源的角度,推动社会分工进步,提升开发使用效率,对大家都有帮助。”
翟佳介绍,在他们接触的投资人中,实际上也已经达成了共识,认为开源是一个很好的获客渠道,同时也是公司发展的重要基础。
而关于商业化,需要考察行业的空间和可能性。那么,Pulsar 的可能性有多大?
回看 Pulsar,它是一个消息中间件基础设施,比如我们手机上的一条消息,或是任意一个传感器,都可以看成是一条消息,消息做为信息的载体,把现实世界中发生的事件记录下来,然后在服务器中去记录。
以 Pulsar 的客户——腾讯计费平台为例。计费平台是一个典型的 MQ 使用环境,其上会支持腾讯内部所有的计费业务,如发红包便是场景之一。那么此时 Pulsar 便可以将红包的收发信息、使用金额记录下来,做事件性保存,然后数据库或是之后的系统便可以根据数据库带宽做具体消费。Pulsar 要做的便是削峰填谷一层的缓冲。假设没有 MQ 层,在除夕夜红包量巨大的情况下,可能任何一个数据库都难以支撑。
当联合创始人开始做销售
就这样,随着用户的增加,StreamNative 终于开启商业化的历程。联合创始人翟佳开始往返在不同城市的不同客户之间,兼职做起了销售。
今年 6 月份,StreamNative 发布支持企业私有化部署的产品 StreamNative Platform。7 月,开始组建销售团队,尝试和公有云厂商合作。而在销售团队完全成型之前,翟佳便承担了一些销售和走访客户的工作。
他发现,当下国内客户整体上对开源软件的信任度在提高。客户选择开源软件,更多的是看中软件本身可实现的功能,而非“免费”、“低价”。同时,现阶段的许多客户来自于社区用户,这让翟佳可以在接触客户时,便已大致了解其业务场景中可以怎么更好地适用 Pulsar。
StreamNative 在国内早期的商业化尝试中,案例集中在金融行业,包括银行、证券公司等等。
相对于国内市场,StreamNative 的国际化发展更快,客群基本在海外。其中 40% 左右来自欧洲,50% 左右来自北美,还有一部分在印度。客户集中在金融、电商和 IoT 三大行业。典型的有波士顿和芝加哥的对冲基金和股票交易商,印度的 Flipkart,自动驾驶行业的 Toyota 欧洲,芯片领域的 Applied Materials 等。
与 StreamNative 发展区域相对应的是,StreamNative 的员工也来自于全球各地,这自然地为 StreamNative 造就了一个异步、自由的工作氛围。
刚刚创办之时,StreamNative 在北京租了间办公室。疫情期间,办公室闲置,StreamNative 索性退租,全员远程办公。据翟佳介绍,全面远程办公之后,StreamNative 的员工或是回到家乡、或是到理想城市定居,生活也随之发生翻天覆地的变化
事实上,不仅仅是 StreamNative,因为开源社区的合作天然带有跨国、异步、多人协同等特质,国内许多开源创企都已经实行远程办公机制,这也成为开源创企的一大特色。借此,OSCHINA 特发起【Anytime Anywhere】项目,面向开源创企,了解其员工的工作状态。
嘉宾介绍
翟佳,StreamNative 联合创始人。在创办 StreamNative 之前,在 EMC 从事分布式、文件系统、流存储相关的设计和开发,目前是 Apache BookKeeper 和 Apache Pulsar 两个项目的 PMC 成员。
Anytime Anywhere
Feel free to build software.
项目介绍
你觉得开源是什么?
一种共识、协作模式、亦或是组织形式……
答案如果还不清晰,不妨先看看开源为我们带来的切身改变。开源社区日渐壮大,开源不仅仅是通过软硬件来改变科技世界,更是将更多自由赋予其参与者,改变着他们的工作生活方式。
我们发现,许多开源原生商业公司以及开源社区的个人开发者,正完全到投入异步、异地的工作中。不用每天定点打卡、集中到办公楼工作,不用随时待命,可以根据目标灵活安排自己的工作……最终,这样的改变究竟会为团队和个人生活带来何种程度的重塑,我们希望,通过【Anytime Anywhere】项目呈现答案。
【Anytime Anywhere】项目以公开问卷形式,收集各个远程办公的开源原生商业公司内员工工作、生活作息时间表,以及他们的状态和感受。最终结果以公开图表形式呈现。