在这波全球大模型的浪潮中,中国与美国无疑成为了领军者。但两国在大模型的发展策略上却出现了显著的分歧。美国,以OpenAI为代表,持续致力于通用型大模型的研发。与此相反,中国则将目光投向了行业大模型。众所周知,国内科技巨头如百度、阿里、华为等,在已有的通用大模型基础上,纷纷推出了为各个行业量身定做的大模型。同时,众多的创新公司和各行各业的头部企业也开始涌入这个领域,积极地发布各类行业大模型。
然而,当我们沉浸在这种欣欣向荣的景象中时,一系列的迹象引起了笔者的关注,我们不得不思考一个问题:中国在大模型的探索之路上是否已经偏离了正确的轨道?难道我们又要重蹈当年SaaS市场的老路,走入一个看似繁荣却可能是误区的局面吗?
01 行业大模型并不是空中楼阁
大模型的出现和快速发展为AI领域带来了革命性的变革。其中,大模型的核心流程可以简化为两大环节:预训练和微调。通过预训练,我们得到了所谓的“通用大模型”。进而,基于这种通用模型,我们可以使用特定行业的数据进行微调,从而产生“行业大模型”。
在过去的几个月里,我们目睹了中国涌现出大量的行业大模型。这种现象背后隐含的一个事实是:打造行业大模型的技术门槛相对较低。为什么会这样呢?首先,随着开源技术的普及,技术上的壁垒逐渐被打破。许多优质的预训练技术、框架和工具已经被广大研发者和机构所采纳和使用。其次,相对于开发一个全新的大模型,微调现有的通用大模型更为简单快捷,只需要大量、高质量的行业数据即可。
打造一个强大的通用大模型却是一项长期且复杂的任务,这需要巨大的计算资源、多样化的数据和深厚的技术积累。因此,相比之下,行业大模型的产生,就显得更为便捷了。
但这种便捷性带来的是双刃剑效应。大量涌现的所谓行业大模型,并不具备真正的竞争壁垒。这其中的原因多种多样。技术上,因为它们大多基于相似的开源技术和通用大模型进行微调,很少有真正的技术创新。数据上,尽管行业数据是关键,但许多企业并没有真正挖掘、整合和利用这些数据的能力,使得其微调的效果并不理想。
02 底层通用大模型的每次迭代,都将“淹没”一大批所谓的行业大模型
当我们谈论现代技术时,我们必须理解其动态性和快速发展的特性。大模型技术的快速迭代就是一个典型的例子,每次通用大模型的升级都使其前一代的技术变得陈旧。
以OpenAI的GPT系列为例,从GPT到GPT-4,其发展历程几乎可以形容为“飞速”。而在技术世界中,速度就是竞争力。每当OpenAI发布一个新版本,它都会因为更多的参数、更先进的算法和更高的性能,使前一版本相形见绌。而这种进化不仅仅局限于通用模型,实际上,它更多地影响到了基于前一代模型微调出的行业大模型。
试想,一个企业可能已经投入大量资源在GPT-3上,开发出一套专门为医疗领域设计的AI系统。但当GPT-4问世时,这家企业突然发现,他们的专业系统在新的通用模型面前相对落后,甚至可能不如直接使用GPT-4的效果。这就是因为,每次通用大模型的迭代都意味着一个巨大的技术飞跃,其对特定任务的处理能力会显著增强。
这种现象与硬件行业的情况相似,我们可以把它比喻为计算机硬件的迅速更新。当Intel推出新的处理器时,前一代处理器即使还能正常运行,但在性能和能效方面都会相对落后。而在AI领域,这种更新周期更短、变革更剧烈。
回到大模型,当我们基于某一代模型投入大量资源进行微调时,我们必须认识到这种投资的风险性。举例来说,当一个初创公司决定基于GPT-3开发一个针对金融行业的AI助手时,他们可能面临的风险是,仅仅过了几个月,GPT-4或GPT-5的发布会使他们的产品立即过时。
03 行业大模型是商用的重要方式,但不要忘了前提条件
诚然,行业大模型的出现似乎为各个垂直领域带来了巨大的机会。它们可以更好地满足特定行业的需求,提供更加定制化的服务,帮助企业提升业务效率,提供更高品质的客户体验。
然而,一切的基石依然是一个强大的通用大模型。只有当通用模型具备强大的能力时,行业大模型的微调才能真正发挥价值。
值得深思的是,中国在AI领域已取得了许多值得骄傲的成果,但与国际*的通用大模型,如GPT-4相比,国内仍存在一定的差距。这对于中国的技术界来说是一个挑战,也是一个机会。挑战在于如何在短时间内弥补这一差距,机会则在于一旦做到,国内的行业大模型将能够站在一个更高的起点。
而现在的现象是,部分企业在通用模型的基础还不够稳固的前提下,急于推出一系列的行业大模型。这种策略显然有其商业逻辑——尽早进入市场,尝试尽快实现商业变现。但这种策略忽视了一个核心问题,那就是技术的根本价值。
企业应用AI技术的根本目的是为了解决实际业务问题,提高运营效率和客户满意度。而如果一个行业大模型在语言理解、逻辑推理、数理计算或内容生成等核心能力上都表现不佳,那么它所带来的实际商业价值就会大打折扣。客户不会因为一个产品声称自己是某个行业的大模型就选择购买,他们更关心的是这个模型能为他们的业务带来什么实际效益。
因此,对于企业和技术研发者来说,关键不在于急于推出各种行业大模型,而是要认识到,强大的通用大模型是所有行业应用的基石。只有在这个基石稳固的基础上,行业大模型才能真正发挥出其应有的价值。
换言之,现在的首要任务是加强通用大模型的研发,尽快追赶国际水平,然后再以此为基础,推出真正有价值的行业大模型。这样的战略布局,既能保障技术的长远发展,也更能真正满足市场和客户的需求。
真正的创新,应该始终以实际需求为导向,而不是盲目追求短期的商业利益。
04 应该怎么做呢?
对于企业和机构来说,仅仅拥有一个行业大模型并不足以确保其在市场中的竞争优势。
那么,应该怎么做呢?笔者认为,应该在通用大模型和行业大模型上同时发力。
首先,通用大模型还需要尽快进化。无论是文心一格、通义千问还是盘古、混元大模型,都需要进化。
一方面参数规模还需要持续扩大,得有万亿级参数规模的大模型。从技术原理上,扩大参数规模,是提升模型智能涌现的重要方式,这是大模型智能提升的“物理基础”。就像人类为什么比其他动物聪明,人类大脑的神经元数量要显著多于其他动物,就是一个关键的基础。
另一方面,在大模型构建、优化的工程能力方面,还需要进一步提升。大家都是基于Transformer架构,技术原理并不是什么秘密,但为什么ChatGPT就是比其他大模型表现得更好?关键就是其AI工程化能力更优。就像造原子弹的技术原理并不是什么秘密,但要造出原子弹,却有大量的技术秘诀和经验,是一个浩大的工程。
只有底层通用大模型足够好,在此基础上构建行业大模型才有意义。
接下来,在构建行业大模型阶段,要在两方面发力:
一方面,要汇集足够规模的高质量行业数据。现在的情况是,各行各业的数据资源都非常有限,并且散落在不同的公司和机构中。这种分散性不仅导致了数据的量不足,更关键的是,没有统一的数据标准和质量控制,使得模型训练效果大打折扣。为了解决这一问题,我们需要促进企业和机构之间的合作,推动行业数据的开放和共享。
比如医疗大模型,关键就是要有足够的医疗数据。这需要通过医疗数据的开放共享来构建行业数据集实现,某个企业、机构的数据量始终是有限的。现在限制行业大模型的一个关键瓶颈,就是没有足够的高质量行业数据,行业数据太分散了,而且质量不够高。要着力解决这个问题。
另一方面,要将行业知识固化到行业大模型当中,这需要一些专业人士与AI人才配合,进行大量的模型调优工作。无论是通用大模型还是行业大模型,其背后的初衷都应该是为用户和客户提供真正的价值。客户需要的不仅仅是技术上的新鲜感,更重要的是在真实的业务场景中,模型能够为他们带来实际的帮助和效益。
无论我们在技术上如何进步,始终不能忘记为什么我们要做这一切。