导语:如果说数据资产是当下互联网世界最重要的生产资料,那么,与之相对应,对数据资产的价值挖掘能力则是互联网世界最重要的核心竞争力。
2023,堪称大模型元年。
年初ChatGPT有如平地惊雷,炸开了大模型的应用赛道。但有意思的是,一直热衷于科技赋能的金融行业在大模型的开发上却迟迟未有突破。
直到今年8月,马上消费拔得头筹,其自主研发的“天镜”大模型上线,全国*上线的零售金融大模型方才问世。这一开发和上线速度不仅超过了A股上市大行,也超过了阿里云、腾讯云这样的科技巨头。这为整个行业的发展提供了很强的标杆意义。
在过去8年的时间里,马上消费作为一家没有强势股东的数据供给、流量加持和外部技术助力的消费金融机构,不仅做到了穿越周期、风雨不倒,云销雨霁之后,还能保持优异的增长速度和创新能力。这与其长期深耕消金这一垂直赛道不无关系,当然,更重要的是,在科技这样的资产密集、技术密集领域,马上消费从不因为“重”就假手于人,而是坚定地、矢志不移地进行长期投入。究其根本,马上消金所仰赖的生存密码离不开三个字:自主性。
探路:坚定自研
金融赛道的大模型开发进程较想象中缓慢不少,原因有二:首先,金融行业最重要的两大特征:资金密集度高、风险敏感度高。在经济大环境承压的背景下,金融监管对于合规经营反复强调,这让金融行业的创新探索,步调格外谨慎。其次,金融行业大模型探索面对的是复杂场景,科技巨头们在一些垂直领域掌握的数据并不具备*优势,相较而言,在垂直行业的头部机构反而更有可能掌握着更加专精的数据和开发经验。
“天镜”大模型在上线之前,已经在营销获客、风险审批、安全合规等零售金融典型场景落地。
马上消费人工智能研究院高级研究员李宽告诉十字财经,马上消费对大模型的价值定义主要聚焦在三个点:汇聚群体智能、唤醒沉睡知识和众创数据价值。
“智能坐席服务目标明确、场景清晰、工作量数据量也很大,是目前大模型运用最成熟、落地最深的应用场景,也是最能体现‘汇聚群体智能’的服务领域。”李宽补充,“传统的AI需要人工参与配流程、配话术,大模型大在参数量和数据量,通过学习优秀人工的对话数据,在黑盒中完成训练,能够用拟人化的自然语言随机应变地与客户进行交流,话术不长,适配场景,客户体验很好。”
迄今为止,大模型实际投入运营已6个月,从目前累计的运行数据来看,“天镜”大模型的意图理解准确率达91%,相较于传统AI的68%有大幅提升;客户参与度61%,也远高于传统模型43%的参与率,和人工坐席平均57%的水平。
从马上消费的业务规模来看,基数已经很大。最新数据显示,马上消费合作金融机构超200个,合作商户超100万,其自主运营的APP“安逸花”,目前日活跃用户超160万人次。这意味着,在效能方面哪怕是提升个位数的百分比,也能带来相当大的社会效益。而效率的大幅提升为研发带来了正向反馈,进一步推动大模型产品的后续打磨。
而李宽提及的“唤醒沉睡知识”和“众创数据价值”则是马上消费要进一步探索的方向所在。
根据李宽的介绍,所谓“唤醒沉睡知识”,主要是针对非结构化的文档,表现形式众多,比如规章制度,技术方案,会议纪要,验收报告,汇报材料等企业过往经营形成的知识沉淀。“虽然现在企业基本上都做到了文档的数字化,但仍然面临着检索不便、无法对有效知识充分利用的问题,‘天镜’大模型就能够很好地解决这些问题,把文档给到大模型之后可以直接提问,获得答案。”李宽表示。
众创数据价值则是针对结构化的数据库表的利用和分析,当下,企业的大量经营行为都涉及数据分析工作,而结构化的数据库表需要数据分析人员手动生成SQL,‘天镜’大模型上线后,数据分析人员只需用自然语言描述数据需求,大模型就能直接生成SQL和图表,大大节省了数据分析人员的工作量,降低了数据使用门槛。
在马上消费的“天境”大模型发布之后不久,蚂蚁、腾讯云面向中小金融机构陆续发布了开源金融大模型应用。
事实上,对大多数中小金融机构而言,要快速实现大模型应用的落地,选择开源大模型无疑是更具效率和性价比的方式。对这一点,马上消费也十分清楚。
“相较而言,自研大模型无疑是一条更为艰难的道路。需要投入数倍于前者的时间、人力、财力,其中甚至有很多资源注定会被虚掷。”李宽表示,“开源大模型在使用阶段也会面临许多挑战,比如领域适配性、训练效率、推理速度等,而我们自研的大模型是在零售金融这个垂直领域做了专门的适配,用自有数据进行训练,拥有更专精的领域匹配能力,长期来看,也能为将来赢得更强的技术自主性,为公司的长远发展构筑更高的竞争壁垒。”
“自主性”不仅是过往8年发展历程的总结,也是未来征程的注脚。
没有伞的孩子更要努力奔跑。因为明白这个道理,自2015年成立以来,马上消费每年都在持续大手笔地进行技术研发投入,迄今为止,已累计投入33亿元,申请发明专利超1500件,自主研发出1000多套系统,研发团队超2000人。这样的投入规模和研发阵容在行业并不多见。如今,大模型已经是一个高端玩家的赛道,资金实力、数据沉淀、技术储备缺一不可,高筑墙、广积粮的好处已然呈现。
往何处去:安全合规、数据治理
金融大模型的构建是一个系统化工程,需要以实际需求为驱动,逐层从基础设施、模型算法,向场景化应用、软件开发修筑起一座大厦,而这座大厦的地基是安全合规。
对金融行业而言,安全合规是一切创新与探索的前提。马上消费首席信息官蒋宁在大模型发布之际表示:“希望在任何情况下,它给客户的回答都是合规的,并且在任何不可预期的情况下它的结果是稳定的。”
这既是一个期望,也是一个任务。
马上消费人工智能研究院创新研究部负责人冯月介绍称,通常大模型安全是两方面的,一方面是其生产内容本身的安全性,另一方面是在金融行业安全合规上,大模型有什么进一步的赋能。
关于大模型本身的安全,由于大模型本身是生成式模型,其生成内容天然带有不确定性,因此它本身就涉及合法合规问题,也即行业里常说的“内容安全”问题,在技术领域里也称为“价值观对齐”问题。
对于这类问题,目前是双管齐下,一是基层大模型本身在训练过程中就应该使用价值观正确的、内容安全的训练语料,提供正直、善良而非邪恶的基座,这依赖于训练数据的筛选;二是应用方应在使用时级联一套内容安全算法,对结果进行涉黄、涉暴、涉政等常见违法内容管控,在触发时进行拦截,这依赖于管控算法本身的训练。
关于大模型的安全应用,金融安全通常指的是合法、合规和经营风险规避三个部分。合法针对的普世的国家法律问题,这类问题在企业的表现可以是合同审核问题;合规针对的是专业的监管机构的规定、建议等问题,这类问题可能是信息化建设、隐私保护建设等问题;经营风险规避针对的是企业经营本身所产生的结构性风险,这类问题在企业的表现可以是欺诈的发现、员工的行为管控、客户的投诉咨询等。
如果说上述方向是企业未来的发展命题,数据治理的未来则是值得整个行业探讨的话题。
“中文数据的通用大模型的效果要差一些,写高质量的中文语料和相应数据建设需要行业的共同努力,也需要时间。”马上消费技术部专家表示,“此外,《个人信息保护法》出台以后,对于数据的运营和流通,外部监管和法律约束变得非常严格,大模型需要大量数据喂养,更大发挥价值的话,一定要想办法打通同行业甚至跨行业的数据壁垒。在数据治理方面,每个企业都有自己制度设计和管理方式。对于数据流通的探讨从来没有停止过。联邦学习、隐私计算、数据的可用不可见都是很好的探索。这些是需要全行业共同努力的事情。”
科技的本质是赋能,无论多么先进的技术手段,最终都必须落地到业务端形成正反馈,否则就毫无意义。
前途光明,道路崎岖。但往往,人迹罕至的道路才能抵达最美的风景。