近日,社交平台Soul App宣布,其自主研发的端到端全双工语音通话大模型正式上线。此次升级,标志着Soul在技术创新及人机互动优化方面迈出了坚实的一步。
自2016年成立以来,Soul始终坚持以技术创新为核心驱动力,不断探索社交体验的多种可能性。随着人工智能技术的快速发展,Soul早在2020年便开启了人工智能生成内容(AIGC)的研究与开发工作,并涉足包括智能对话和语音技术在内的多个领域。Soul的语音技术团队也积极参与国际技术交流。在今年7月举行的国际人工智能联合会议(IJCAI)中,该团队参加了多模态情感识别挑战赛,并在SEMI赛道上取得了第 一名,充分展示了Soul在语音技术领域的优秀实力。
作为人际交往中不可或缺的一部分,声音是传达信息和情感的最有效的方式之一。基于声音在社交中的重要作用,Soul致力于通过技术创新来增强声音在社交中的表现力。此前,Soul就已经自研推出了语音生成、语音识别、语音对话、音乐生成等多个语音大模型,实现了真实音色生成、多语言切换、语音DIY、多情感拟真人实时对话等功能,并将其应用于“AI苟蛋”和“狼人魅影”中。这些功能不仅丰富了用户的社交体验,也为Soul的技术进步提供了实践基础。
此次升级的端到端全双工语音通话大模型,是对传统级联方案语音交互体系的一次重要改进。因为在传统的语音处理流程中,语音交互通常需要经过语音识别、自然语言理解、语音生成等多个环节,容易产生信息损耗和交互延迟。而Soul的端到端语音大模型则直接从语音输入到语音输出,减少了中间步骤,最 大限度地保留了信息的完整性,并有效降低了延迟。
在实际人机语音交互场景中,端对端语音通话大模型的延迟低于行业普遍水平,为用户带来了更加顺畅的互动体验。此外,该模型还能识别并表达复杂的情感,使得AI能够在语音通话中准确捕捉用户的情绪变化,并给予适当的反馈。不论是模拟物理世界的背景音效,还是支持多种风格的语言切换,端对端语音通话大模型都能够灵活应对,为用户创造出更接近现实的交流体验。
此次Soul App创始人张璐团队推出端到端全双工语音通话大模型,进一步提升了人机互动的流畅性与自然性。通过简化语音交互流程,优化情感表达能力,Soul为用户带来了更加真实、生动的社交体验。这一技术进步不仅扩展了语音技术的应用场景,也为AI在社交产品中的应用提供了更多实践机会。