在3月22日的2015年中国(深圳)IT领袖峰会上,华大基因首席执行官王俊作了题目为“IT和BT融合产业的爆发点”的演讲,分享了关于基因科技应用于人类健康的观点,认为疾病就是你生命程序中的bug,收集大量的基因数据,当所有基因组形成网络的时候,将是人类莫大的福祉。
以下为演讲实录,经投资界编辑整理:
生命的基础是碳,生命是数字化的。它能存储吗?能。一个巴掌大的DNA可以储存多少年呢?事实上可以达到上亿年的储存时间,最起码可以上百万年。他能够计算吗?当然能。因为计算和编程最核心基本单位是基因,基因是生命体最基本的构成单位。我们每个人身上蕴藏的所有信息组合就是一套生命信息基本程序,这套基本程序就是生命的语言。
我们人身上有2-3万个基因,水稻有5万多基因,不同物种有不同基因,所有不同基因组合形成不同的生命程序,不同生命程序就形成你这个个体与周围环境适应。你的每一套程序代表着不同的生存策略,这套不同的生存策略事实上针对于不同环境体系而来。他检查你的程序到底好用不好用的唯一标准就是你这套程序能不能活下去,传播更多后代。
每个人的生命程序也是不一样的。为什么西藏人可以适应高原,为什么我们上了高原有非常强的高原反应,是因为身体一套程序没有写进高山适应的基因,藏族人有一套基因,有这个基因的人群可以在高原体系上没有反应,像我们在上面就不行。这是个体水平的变化。它的变化来源是什么?当我们考虑一个精子、卵子结合的时候,他发生了重组,每一代当中,你孩子和父母之间有100个基因突变,这些基础就形成不同的生存策略,环境在时时刻刻变化、基因在时时刻刻变化,基因组是预测程序。你身上的基因是你祖先上千年、上万年不断学习、进化,对你后来有可能遇到的环境的预测。
基因里面的毛病有点像写程序的时候出了一个bug,出了bug,基因程序运营不了,在有时候就出现很严重的问题。比如各种各样罕见疾病。生命程序不断试代码,试代码过程中不断试错,当然每一个错误并不是代表新的往前演化的可能。对此我们该怎么办?当孩子出身之前,我能不能做一些检测,早点发现有什么问题,早点控制,当然可以。这是第一个。我能不能先查一下你的父亲、母亲有没有基因突变,如果有,你们生孩子概率有多少,如果这样的话,以后就不要配八字了,谈恋爱结婚之前先配一下基因,看生命基因程序是不是匹配。我们可以人工受精,做一个移植前检测,移植前检测在中国很多医院已经开展了。再往下一步,如果怀孕了怎么办?怀孕两到三个月之内可以对孩子进行完整基因检测,尤其是针对非常罕见的基因性疾病,通过这些筛查可以达到出生前防控。如果再往下走,新生儿出生了还需不需要检测?如果早一点知道他得各种各样的心脏病、耳聋,包括自闭症风险,我们是不是可以早一点干预?是可以的。我们能不能治呢?除了用一个非常可变的信息看这些东西之后,我们又有一个非常疯狂的想法,能不能通过大数据挖掘发现一些罕见病真正的解决方案呢?答案是可以的。
非常有意思,我们有一个计划,搜索了100万人的基因数据,寻找那些单纯从基因校对来讲他应该有基因疾病,但是非常健康,这些人我们叫超级英雄,这些人非常有意思,他们体内有非常明确的致病基因,但是非常健康,为什么?因为体内有另外一套基因保护他。就像程序我一段出现bug,但是有另外一段修复,就非常健康。如果找出那一段是什么,也许可以找出罕见性疾病的药物。我们以后不要再去浇冰桶,这是道义上的支持,更重要的支持就是基因测序。
再往下走是肿瘤,很多人面对肿瘤威胁,肿瘤是你生存过程中由于环境因素影响,你的基因程序在变异,所有细胞都来源于第一个细胞,受精卵细胞,从那个细胞开始每次都会引发程序变化。不同环境影响会导致程序非常大的不同,比如抽烟增加肺部细胞变异率。用简单IT方式来讲,是你生命程序那段代码被黑客给黑了。黑客黑的概率会随着环境因素不同而变化,如果经常抽烟,如果经常生活在不好的环境里,或者受到各种各样病毒感染,可能程序被黑。怎么办呢?因为所有细胞最终都要游离到血液里,我们通过非常深度的基因检测可以看到你体内有没有肿瘤细胞。
其实万物都是跟基因有关系。我的体内细胞如果以人为一个整体的话,作为人这个个体的细胞只占人体的细胞的1/10,还有9/10是各种各样的微生物、各种各样的病毒,你天天洗两次澡都没有用。你吸收一个半小时候所有细菌都回来了。这些微生物并不是都是坏的,比如微生物体内病源微生物会形成什么影响?所带来影响是非常大的,比如埃博拉病毒、SARS病毒,90%发烧腹泻你根本不知道怎么回事。小于1%的微生物可以被培养,你根本没有办法搞明白到底什么让你发烧、什么让你腹泻,你可以把所有DNA提取出来,一个小时内就知道到底怎么会感染。早一点这样做,就可以早一点摆脱疾病风险。
我们应该做的是一个鸡尾酒疗法,确保你体内是符合真正健康的菌群体系,最终我们要完成这个生命公式,自己的基因、环境因素的基因,各种各样的东西,右边是你表现的状况,身高、体重、各种各样的病理特征、健康与否,中间的公式怎么写呢?这个时候就体现了刚才吴恩达老师讲的题目,我们只知道一个城市的输入端、输出端,中间是怎么编程,毫无所知。该怎么办呢?大数据,健康大数据取决于把所有输入端、输出端全部计算清楚,如果研究清楚身高基因的关系,需要100万人。要研究清楚绝大部分复杂疾病和基因以及环境的关系,需要100万人。你需要把100万人各种各样信息全部搜集,才能得到刚才讲的生命公式。
用什么方法呢?这种方法到底贵不贵呢?这种方法非常昂贵。1999年中国华大基因参与了1%人类基因组计划。当时测序需要10亿美金,最近已经降成1万美金,仍然很贵,要搜集100万人的数据仍然很贵,现在可以做到1000美金,我估计明年会推出一个500美金可以测定一个人的完整基因。这就可以搜集基因数据。什么时候可以免费呢?这样一个趋势延续我们认为在2019年左右。除了这种基因数据之外,我们知道现在比较时髦的词,物联网,收集各种各样输入输出数据。如果把每个人数据都连起来,形成基因组网络,将是不可估量的。
我们讲互联网,IT互联网企业,超级计算机,个人电脑,真正成了不可估量的机会。每个人在上面产生数据和支持,基因组是一样的。当所有基因组形成网络,我们有一个网站叫同病相怜网站,当所有病人组合了一个网站,我们就可能有机会把这个基因和病之间的关系搞清楚。
最终要做的是需要人工智能来学习,因为这么大的量已经不可能用一个单一模型来解决。奥巴马提出一个精准医疗计划,就是要做100万人基因组库,当所有人完成后,我们会有一个水晶球,预测你未来健康走向,而这样的预知很有可能再做一些改变。我们听过3D打印、细胞存储、基因编辑、我们听过合成生物学,喝的啤酒的酵母将不是自然界酵母,而是计算机写出来的,酵母产生的啤酒味道也许比你现在喝的任何啤酒味道都要好。还有,生命信息的存储,我们都叫干细胞,干细胞什么意思?就是年轻时候的生命信息,你不是想年轻吗?在你年老的时候能不能把年轻时候的信息再找到,也许就年轻了。所有像科学幻想的东西都在生命科学界以飞速方式往前走。对健康追求不是感性愿望,对我们来说对在座IT大佬来说更重要是理性追求,如果真正基于一个所谓人工智能方式、大数据处理方式,能管理健康、掌握预测的程序和健康关系,也许是真正最有意义的,基因科技最能够带给人类的福祉,自然以山清水秀为美、人以健康长寿为福。
当我们定义一个生命的时候,其实我们讲不清楚,如果在未来计算机体系里面给他有很多很多生命逻辑,他会变成一个生命体吗?如果我们计算大脑已经可以跟人脑匹配的时候,它有生命性吗?当我们拥有改变人类基因的能力的时候,我们应该怎么控制我们的这种能力?所有这些东西都非常值得大家思考。作为另外一个纬度的IT人,在座各位是硅基因维度的,我是碳基因维度的,作为另外一个维度的,我希望给大家带来的不仅仅是对生命的认知,而且是对健康认知最佳的理性的选择。谢谢!
注:王俊毕业于北京大学,是华大基因研究院的创始者之一。王俊先生是当前世界生物技术领域著名的科学家,他在基因工程等生命科学领域取得了一系列原创性的科研成果,在最顶尖的杂志《自然》、《科学》(发表学术论文已经超过100篇,为我国基因组学的研究做出了突出贡献,也是深圳新型研究机构的典型代表。王俊先生入选了《自然》杂志2012年科学界十大人物,去年王俊先生还荣获了国内陈嘉庚青年科学奖。