刚刚,xAI再失一名华人大将。
就在今天,预训练负责人庄钧堂官宣了自己已经离职的消息。

此前,庄钧堂已经在xAI工作了两年。
这期间,他主导了从Grok多个版本模型的预训练,同时负责预训练Grok在X和Tesla上的语音模型及xAI企业API模型。
虽然他在官宣前两个月就已离开,但这波刚好赶上xAI不再独立运营后的新一轮离职潮。
仅今天一天,就有多名员工相继宣布离职。
如此高密度的人员离职,让人不禁感叹,xAI到底是怎么了?

谁是庄钧堂?
2024年,庄钧堂加入xAI。
此后两年,Grok多代模型的预训练都由他主导。
Grok在X和Tesla上的语音模型,xAI对外的企业API模型,也都由他牵头预训练。
在此之前,他在OpenAI工作了两年。
这期间,他是GPT-4技术报告的联合作者,还参与了GPT-4o和DALL-E 3的核心开发,提出了GPT4-Turbo 128k算法,并作为第 一贡献者搭建了OpenAI的Embedding模型。
这几件事,分别对应着OpenAI在语言模型、多模态、图像生成和向量检索等方向上的关键节点产品。

他的学术背景,和这份工作履历放在一起,有一定的反差。
庄钧堂本科就读于清华大学,但读的专业并非计算机,而是工程物理,还辅修了法律。
他的硕博生涯是在耶鲁度过的,硕士读的是统计学,博士则是生物医学工程。
读博期间,庄郡堂的研究课题是判断自闭症患者的脑连接组中哪些连接异常与自闭症的诊断相关。
在这个课题中,他使用的工具是神经网络。

在博士期间,他提出了AdaBelief优化器,其核心思路是根据模型对当前梯度的置信程度来自适应地调整步长。
如果当前观测到的梯度方向与模型的预期偏差很大,说明此刻的观测不可信,应该迈小步;如果梯度方向与预期接近,说明信号可靠,可以迈大步。
这个设计触及了深度学习训练中一个长期存在的痛点——现有优化器对噪声梯度的处理过于粗糙。
这篇论文在NeurIPS 2020拿到了Spotlight,随后被PyTorch、TensorFlow、Google Flax、DeepMind Optax等主流框架相继收录,成为研究者工具箱里的常备选项。
马斯克留不住人
就在庄钧堂宣布离职的同一天,xAI还有多名员工相继发出了同样的消息。
三天前,马斯克刚刚宣布xAI不再作为独立公司运营,并入SpaceX,统一更名为“SpaceXAI”。这个消息发出后没多久,离职的消息就接连来了。

与此同时,另一批人正在进场——Cursor的员工开始出现在xAI的办公室里,由xAI现任研究负责人Aman Madaan主持联合会议。
Cursor的到来,目的之一就是解决马斯克一直以来“留不住人”的困境。
从2024年中开始,xAI的联创就在陆续离开,SpaceX完成收购后密集爆发,到今年3月底,11位联创全部清零。
Fast Company统计,过去一年内xAI可查证的离职员工已超过80人。
马斯克也在试图解决人事危机,但专门挖来的人也是说走就走。
今年3月,马斯克把Mistral AI和Thinking Machines Lab联创Devendra Chaplot请来,直接向他汇报,但Debendra入职才一个月,便离职了。
马斯克承认,xAI“没有建立在正确的基础上,正在从头重建”。今年4月,他转向外部,与Cursor达成合作,于是便有了Cursor员工进驻xAI办公室的一幕。
Grok正常更新
尽管马斯克在人事问题上屡遭滑铁卢,但xAI的主要产品Grok,也刚刚宣布了一波更新。
新版增加了连接器功能,支持接入邮件、日历、Notion等工具,帮助用户提取邮件、整理日程。

同时马斯克还下场驳斥了“Grok将死”的传闻。
毕竟一边是团队不再独立运行,另一边又刚刚把Colossus集群租给了Anthropic,让人很难不遐想。
但马斯克表示,新的Grok模型正在Colossus 2集群上正常训练中,也算是解开了Colossus出租的疑云。

那就等着看看,马斯克还能交出怎样的模型吧。
















