清华姚班校友、斯坦福助理教授马腾宇,正式宣布大模型创业!
马腾宇透露,他带领团队打造了目前*的嵌入模型,比OpenAI的还要好。
此外,还会提供专注于某个领域或企业的定制化模型。
马腾宇将这个项目命名为Voyage,是针对RAG(检索增强生成)专门优化的嵌入模型。
根据Voyage官网显示,斯坦福人工智能实验室主任Christopher Manning、AI领域著名华人学者李飞飞等三名教授都担任了Voyage的学术顾问。
Voyage最重要的特点就是高检索精度,在HuggingFace提出的MTEB数据集上的评分超过了OpenAI,成为SOTA。
Voyage还与知名开源框架LangChain合作,同事提高了其聊天机器人的检索和回复质量。
对于嵌入模型,有人评价到与大语言模型相比“需要的算力、数据和行业经验都少的多”,似乎是个创业的好方向。
Voyage具体是什么样的产品,下面就来了解一下。
嵌入模型SOTA
在ChatPDF等RAG应用中,嵌入模型(Embedding Model)负责将文本向量化的环节。
嵌入模型与生成式模型有一定相似之处,但更加侧重于语义理解,通过神经网络(通常是Transformer)架构来对语义上下文进行捕获和压缩。
难度上,训练嵌入模型和生成式模型一样困难——训练高质量的嵌入模型需要在架构、数据、损失函数等许多方面进行反复实验。
Voyage团队介绍,他们选择创业的一个重要原因是认为业界对嵌入模型的重视程度远远不够。
他们用了5年时间,收集了海量训练数据和预/后处理方法,最终打造出了这款SOTA的嵌入模型。
测试成绩方面,Voyage在常用于测试嵌入模型的MTEB数据集中取得了SOTA的成绩,比OpenAI高了0.5个百分点。
在工业领域数据集上,Voyage相对OpenAI的优势就更加明显了。
不过Voyage的通告中也说,MTEB这个数据集因为应用过于广泛,有时会被拿来专门训练。
在承诺没有在MTEB上“作弊”的同时,Voyage还提出了9个“真实世界”数据集,内容涵盖了技术文档、新闻,甚至是餐馆评价等多个方面。
结果在这9个数据集上,Voyage全部取得了*成绩,其中还有几项取得了碾压式的结果。
技术上,Voyage使用了全新的自监督损失函数,以及涉及多个领域、针对RAG和搜索量身定做的训练数据。
同时,Voyage还采用了新的微调技术,无需人类标注就能完成。
使用方式上,可以通过API或者安装Python库来调用,窗口长度为4096token。
目前,Voyage推出了标准版和轻量版两个版本,未来还将推出XL规模以及代码和金融领域版本。
价格方面,标准版和轻量版都是每100万token0.4美元,新用户可以免费体验5000次输入(查询或文档)。
那么,Voyage的创始人兼CEO马腾宇是谁呢?
保送清华姚班,和陈丹琦同学
马腾宇现任斯坦福大学助理教授,研究方向包括机器学习、算法等多项内容。
2008年,马腾宇被保送进入清华姚班,和陈丹琦是同班同学。
马腾宇博士就读于普林斯顿大学,导师是理论计算机科学家、两届哥德尔奖得主Sanjeev Arora教授。
读博期间,马腾宇获得了理论计算机方向的西蒙斯奖等诸多奖项,被导师夸赞“比自己还聪明”。
博士毕业后,MIT、哈佛、斯坦福等*高校都给了他助理教授的Offer,马腾宇最终选择了斯坦福。
2021年,马腾宇获得了具有“诺奖风向标”之称的斯隆奖,成为继鬲融之后清华姚班又一名获此奖项的校友。
参考链接:https://blog.voyageai.com/2023/10/29/voyage-embeddings/