“线上寻亲”的社交平台装不下扎克伯格的健康梦,但治病能。
近日,Facebook放出消息,决定用AI“开药”治癌症。Facebook的人工智能研究部门和德国慕尼黑赫尔姆霍兹中心(Helmholtz Zentrum München,一家专注于环境健康的研究中心)联合推出人工智能模型,从海量的药物中筛选不同的组合,让治疗效果*化。
Facebook的同好不少,互联网大厂首当其冲。
谷歌在AlphaGo机器人通过“自主学习”击败了人类职业围棋选手后正式进军医疗行业,收购DeepMind。2020年因成功破解蛋白质结构这颗生物上的“明珠”,第二波大范围刷屏紧随其后。
同样在去年,百度成立百图生科,开始下起AI制药这盘棋。
今年,拼多多的缔造者黄峥卸任,内部辞职信引发遐想无限。一纸陈情述尽衷肠,他说自己要去搞生物。
大厂“下海”,算法江湖下医疗投石问路。让我们不禁想问一句,不同于社交、带货、搜索,开始借助 AI 算法治病救人的互联网大厂,能行吗?
写药方的Facebook
先看Facebook的AI想做什么。
Facebook宣称,与现有的方法相比,其开发的新型人工智能平台可以更快地预测药物在细胞内的相互作用方式,从而更快地发现治疗癌症等疾病的新药组合。
相关研究已经在预印本上发表
重点是不仅可以预测药物之间的相互作用,还能预测药物将如何攻击特定的细胞类型并中断疾病。
简单来说,就是一个高效的“开药”神器,机器药剂师。
看起来很神奇,但这背后的原理并不难。
药物一旦作用于人体内的细胞,就会在细胞内部引发不同的反应,那么,如果能让单个细胞对一组特定药物的治疗作出反应,并让机器将反应记录下来,当累计的数据样本足够多,就可以利用数据训练相应的机器学习模型。
这些模型就可以顺利预测在不同药物作用下细胞的反应,以测试我们选择的药是否有用。反之,也可以得出对细胞最有效的那一组药物究竟是什么。
Facebook使用的是一种开源模型,也叫成分扰动自动编码器(CPA)。他们发现CPA可以在短短几个小时内自动评估数十种不同组合的药物效果,并给出*的用药剂量。
如果没有机器学习的干预,这一过程可能长达数年不等。
这一消息一经传出,海外的很多科学家开启了表达的话匣子。德国马克斯-普朗克发育生物学研究所的Andrei Lupas称这些结果 “非常有前途”,但也强调还有更多的工作需要去完成,“现在该方法的有用性将取决于双盲条件下的严格测试结果”。
质疑同样伴随肯定而来。美国国家癌症研究所的Eytan Ruppin声称“结果可能与炒作不符”。
他认为,这种人工智能并不能预测细胞是存活还是死亡的状态,而是预测细胞在接受药物治疗时表达RNA的变化。“这只能显示出细胞内部的反应,但不一定能显示出细胞是存活还是已经被治疗药物杀死了。”
即便如此,人工智能技术仍像被置于薛定谔试验中的“小猫”,不确定背后可能存在危险,但也同样迷人。
互联网公司和生物,凭什么能破壁?
我们通常默认AI可以改变世界,对它的尝试也从未停止。
自动驾驶、互联网、智慧学习、增强人类智能等应用不胜枚举。但在恐怖谷效应之下,它下游的衍生业态,如机器人的探索等又带着些许科幻小说的意味。
人工智能总带着一种启示录式神性和浪漫主义色彩,即便控制它的是那些最理性的算法。
作为普通人,我们该如何理解那些带“AI+”头衔概念背后的真实情况?我想,要从回答何为人工智能开始。
维基百科给出的解释是,人工智能指计算机用来模仿人类智能的相关软件。例如,一个根据你买的书推荐你应该读什么书的程序,或者一个对周围世界有基本认识的机器人。
这些常规操作是十分普遍,但是一记特殊“成分”的加入,让人工智能变了模样——“机器学习”(Machine Learning)。
过去10年,机器学习人工智能具备了更加强大的能力。
从DeepMind的与世界冠军围棋,到谷歌翻译,从人脸识别算法到亚马逊Alexa等数据处理系统,背后都有这项技术的身影。
与其说是由程序员给机器学习AI提供了一份明确的指令清单,告诉它们如何完成一项任务,不如说AI必须自己学习如何完成任务。我们对机器展开了训练,神经网络是最热门的方式之一。
神经网络是一个大型的连接网络,其灵感来自于大脑中神经元的连接方式。神经网络从上世纪四五十年代就已经出现了,但直到最近才开始取得极大的进展。命运的改变数据量和计算机算力提升的后的必然结果。
数据量的大小影响着神经网络的训练效果。而现在,每分钟都有数以百万计的视频和音频片段、文章、照片等被上传到互联网上,这使得掌握合适的数据集变得更加容易。
尤其当你自己就是持有这些数据的大型科技公司的时候,你就掌握着先天优势。
是*的吗?
AI作用在生物技术和药物研发上,也有自己的烦恼。
首先,大数据是AI的基石,“数据大于算法”这一说法被广泛流传。可以说,只要我们能收集到足够多的数据,很多问题就迎刃而解了。
然而,在医药行业中,整个新药发现领域的数据量,总体上不足以支撑人工智能模型的运作。
为什么这么说?
从工业革命至今可能有两三百年的时间内,人类开发出的创新药也不过是几百到千这样一个数量级,而这些药物又具体分布到数十类疾病或者数百个靶点上面,具体到某一个靶点的新药可能也就是个位数了。
这让每个靶点可供使用的数据量非常有限。数据量的严重不足,大大的制约了整个AI制药行业的发展。
在这一背景下,部分主打算法的AI研发公司希望借助和相关组织、药企合作,以获取更多有效数据。
但除此之外,我们也该意识到人工智能的决策并不不透明。
我们难以分析神经网络如何得出结论,这意味着如果他们犯了一个关键的错误,比如在图像中漏掉了癌症信息,我们就很难找出他们为什么会犯这个错误。
如果错误的源头没有找到,人工智能同样无法“自省”,这可能会减缓人工智能在个别重要应用中的进展。
整体来看,AI药物研发还处在非常早期的阶段,如果用百米赛跑作比喻,我们现在大约跑了五米。剩下的九十五米,在等待着科学的答案。