近日,诺谛智能发布首 个中文制造业大模型评测数据集Manu-Eval,该数据集通过全面、权威以及公平的方式为制造业大模型提供评测依据,也为垂直领域模型创新发展和行业场景赋能提供了重要参考。目前该评测数据集论文已被全国知识图谱与语义计算大会CCKS-IJCKG 2024收录。
作为联想集团战略孵化的、*的新一代认知与决策人工智能企业,诺谛智能拥有丰富的制造业全链条业务场景实践经验。基于此,本次发布的Manu-Eval大模型评测数据集打破了制造业大模型无评测依据的局面,可针对制造业中机械、汽车、电子、化工、轻工业、制药、运输和食品制造8个主要领域的22个子类别进行全面评测,以评估大模型应对制造业复杂技术术语、复杂流程和专业知识等方面的理解、生成和逻辑推理能力。该评测数据集发布将有助于AI企业分析通用领域模型和特定领域模型的优势和不足,助力大模型更加有效的赋能企业业务场景,加速实现人工智能驱动的智能制造,推动行业生态的开放共赢。
打造全面、权威、公平的制造业大模型评测体系
如今,AI大模型已从百花齐放步入到场景落地阶段。对制造业而言,AI大模型逐渐渗透至各环节,成为制造业通往智能化、柔性化和自动化的核心技术之一。然而制造业极其丰富的应用场景也带来了更高的复杂性,这对大模型能力和其制造特定知识的有效性提出了考验。
为了更好的评估制造业行业大模型能力,提升大模型落地应用价值,诺谛智能利用专业资格考试、职业技能评估以及与制造工艺和运营相关的国家标准/指南等权威知识构建评测数据集,同时采用人工审核和大语言模型筛选的多裁判判别方式优化评测数据集,以确保提供高质量和可靠的评估问题。该评测数据集还设置了零样本测试环节,可以公正、有效地衡量大模型在处理行业特定任务方面的开箱即用能力。
诺谛“支点”行业大模型精准解决制造业场景痛点
在此基础上,诺谛智能也依托Manu-Eval评测数据集对国内外主流通用大模型进行评测。测试中,诺谛自研的“支点”行业模型参数量仅为1.5B,在参数量小于7B的模型评测榜单中排名第 一,同时超过部分7B以上大模型效果,体现出更强的制造业知识理解能力和生成能力。此外,诺谛“支点”行业模型还可以进行微调和定制,精准解决制造业场景痛点,为制造企业提供更有针对性的AI场景化解决方案。
以“支点”行业大模型为核心,诺谛智能打造了覆盖制造业研、产、供、销、服全链条的AI场景化解决方案,为合作伙伴在知识应用、客户服务、供应链管理、质量检测等制造业真实业务场景下提供赋能,助力企业指数级提升运营决策效率,实现50%以上成本节省和质量提升。目前,诺谛智能已在3C制造、新能源、航空航天、乳业等近百个制造业客户取得成功实践,为客户节省数亿元成本,并创造了更高的经济与社会价值。
AI大模型的快速发展为制造业等传统行业数字化转型和高质量发展带来新动能,而更为垂直的行业大模型则可以更加有效地捕捉和利用制造业细分领域特性,从而为制造业巨量的应用场景提供精准有效的智能化赋能。
未来,诺谛智能将持续迭代Manu-Eval中文制造业大模型评测数据集,扩充制造业细分场景评估类别,针对机械设计、故障排除、流程优化等制造业核心能力和领域知识设计综合评估,以标准化、系统化、自动化的评测体系为制造业智能化升级提供助力,让更多制造领域知识为企业创造价值。