在过去两周的时间里,AI领域的焦点并非某个具体产品,而是人物。每天早晨醒来,社交媒体上充斥着不断更新的消息:又有一位AI领域的顶尖专家被其他公司挖角。
顶尖人工智能领域的专业人才,正逐渐成为该领域内最为紧缺的资源,同时,他们也拥有着显著的品牌影响力。
在这场人才流动的浪潮核心地带,我们注意到一个特别引人注目的现象:在主导GPT、Gemini、Claude等大型模型研发的关键团队中,华裔科学家的占比格外突出。
这种转变并非一蹴而就,而是在近年来兴起的AI热潮中逐渐显现。在这股浪潮中,美国顶尖AI人才队伍中,华人的比例持续攀升。据MacroPolo发布的《全球人工智能人才追踪调查报告2.0》显示,2019年至2022年期间,中国籍顶尖AI研究人员的比例从29%增加至47%。
在智谱研究之前发布的《GPT团队背景研究报告》中,进一步揭示了一个令人瞩目的数据:在GPT项目的核心团队,由87位成员组成,其中竟然有9位是华人,这一比例超过了10%。
于是,我们对该段时间内在硅谷知名企业中备受瞩目的华裔人工智能研究者的形象进行了重新整理,并努力归纳出若干特点:
1. 顶尖名校出身,学术能力极强
他们多数人在清华大学、北京大学、中国科学技术大学、浙江大学等一流学府完成了本科学业,专业背景多集中在计算机科学或数学领域;在研究生阶段,他们普遍选择了麻省理工学院、斯坦福大学、加州大学伯克利分校、普林斯顿大学、伊利诺伊大学香槟分校等世界知名学府继续深造,并且几乎每个人都拥有在NeurIPS、ICLR、SIGGRAPH等顶级会议发表的高引用率论文。
2. 年轻高产,爆发周期集中于2020年之后
年龄普遍介于三十至三十五岁之间;在硕士和博士学习阶段,恰逢全球深度学习的迅猛发展时期,学术功底深厚,对工程架构和团队协作有着深入了解。许多人职业生涯的起点便是接触大型企业或面向广大用户群体的AI产品与平台,起点更高,发展节奏也更为迅速。
3. 强多模态背景,攻坚模型后训练
他们的研究重点普遍放在了构建一个能够统一处理多种模态(如文本、语音、图像、视频、动作)的推理系统上,涉及到了强化学习与人类反馈、模型压缩、参数对齐、人类偏好模拟以及语音语调的评估等多个方面的具体技术细节。
4. 即便频繁流动,但基本不会脱离生态
谷歌、脸书、微软、英伟达,Anthropic、OpenAI等公司,它们的业务领域涵盖了从AI初创企业到大型科技巨头,尽管如此,它们的研究方向和技术储备通常保持着一致性,很少出现转行的情况。
OpenAI→Meta
Shuchao Bi
舒朝毕在浙江大学数学系完成了本科学业,随后他前往加州大学伯克利分校继续深造,在那里他不仅获得了统计学硕士学位,而且还在攻读数学博士学位。
2013年至2019年间,他在谷歌公司担任技术主管一职,期间的主要成就有:成功搭建了多阶段深度学习推荐系统,这一创新举措极大地增加了谷歌的广告收入,其收益已达到数十亿美元的规模。
2019至2024年间,他肩负起YouTube Shorts探索部门负责人的重任,在这段时间里,他共同创立并引领了Shorts视频的推荐与发现机制,同时,他还建立了并扩大了覆盖推荐系统、评分模型、互动发现、信任与安全等多个领域的机器学习团队。
自2024年加盟OpenAI以来,他主要负责指导多模态后训练团队,并且作为GPT-4o语音功能与o4-mini模型的共同开发者,贡献显著。
在此期间,他着重推动了RLHF技术的应用,以及图像、语音、视频和文本的推理研究,并涉猎了多模态智能体的开发、多模态语音转换至语音(VS2S)技术、VLA技术以及跨模态评估系统的构建。此外,他还关注了多模态链式推理、语音语调与自然度评分、多模态蒸馏和自监督优化等领域。他的核心目标是,通过后训练技术打造出更加通用的多模态AI Agent。
Huiwen Chang
2013年,张慧文在清华大学计算机系(姚班)完成了本科学业,随后前往美国普林斯顿大学深造,攻读计算机科学博士学位。他的研究兴趣主要集中在图像风格转换、生成模型以及图像处理领域,并且有幸获得了微软研究院的奖学金支持。
在加盟OpenAI之前,她曾在Google供职,担任高级研究科学家一职,其职业生涯已逾六年。她专注于生成模型和计算机视觉领域的研究,并在Google Research部门成功研发了MaskGIT以及Muse文本生成图像架构。
在早期,文本到图像的转换主要借助扩散模型,例如DALL·E 2和Imagen,尽管这些模型在生成图像的质量上表现优异,但它们在推理速度上较为缓慢,且训练成本较高。相比之下,MaskGIT和Muse采用了“离散化”与“并行生成”的策略,显著提高了处理效率。
MaskGIT标志着非自回归图像生成领域的崭新开端,而Muse则成为将此方法应用于文本图像生成的典范之作。尽管它们不如Stable Diffusion那样广为人知,但在学术界和工程界,它们却构成了至关重要的技术基础。
她不仅参与了这项研究,而且还作为主要作者之一,共同撰写了关于图像到图像扩散模型的顶尖学术论文《Palette:Image-to-image diffusion models》。
该论文在SIGGRAPH 2022会议上发表,提出了一种新的图像到图像的转换模型。这一框架在图像修复、上色以及补缺等任务上的表现,均超越了基于生成对抗网络(GAN)和回归模型的方法。截至目前,该研究已被引用超过1700次,成为该领域内的重要成果之一。
自2023年6月份开始,她正式成为OpenAI多模态团队的一员,与团队共同研发了GPT-4o图像生成技术,并持续在这一领域推动图像生成技术以及多模态建模的研究与应用。
Ji Lin
吉林专注于多模态学习、推理系统及合成数据领域的研究工作。他作为多个关键模型的共同开发者,参与了GPT-4o、GPT-4.1、GPT-4.5、o3/o4-mini、Operator等项目的研发,以及4o图像生成模型的构建。
他在2014至2018年间,于清华大学电子工程专业完成了本科学业,随后在麻省理工学院取得了电子工程与计算机科学领域的博士学位,其导师为享有盛誉的学者Song Han教授。
在博士期间,他的研究重点集中在模型压缩、量化处理、视觉语言模型的构建以及稀疏推理等关键技术领域。
在踏入OpenAI的大家庭之前于2023年,他曾在英伟达、Adobe以及Google等知名企业担任实习研究员的职务,同时,他在麻省理工学院(MIT)也进行了长达数年的神经网络压缩与推理加速领域的研究工作,这些经历为他积累了丰富的理论知识以及工程实践技能。
在学术领域,他发表了多篇具有高影响力的论文,涉及模型压缩、量化以及多模态预训练等多个方向;Google学术上的总引用次数已突破17800次;其标志性成果涵盖了视频理解模型TSM、硬件感知量化方法AWQ、SmoothQuant以及视觉语言模型VILA等。
他不仅是GPT-4o系统技术文档的主要编写者之一,例如在GPT-4o系统卡方面有所贡献,而且还因发表了AWQ论文而荣获了MLSys 2024年度最佳论文奖。
Hongyu Ren
任红宇在北京大学完成了计算机科学与技术的本科学业,取得了学士学位,时间跨度为2014年至2018年;此后,他又赴斯坦福大学深造,成功获得了计算机科学领域的博士学位,这一过程持续了2018年至2023年。
他成功赢得了苹果公司、百度以及软银Masason基金会的PhD Fellowship等多个奖学金,其研究兴趣主要集中在大型语言模型、知识图谱的推理技术、多模态智能系统以及基础模型的性能评估等方面。
在OpenAI加盟之前,他曾在Google、微软和英伟达等多家公司实习,积累了丰富的实践经验。例如,在2021年,他在苹果公司担任实习研究员,期间参与了Siri问答系统的构建工作。
自2023年7月加入OpenAI以来,Hongyu Ren深度参与了GPT-4o、4o-mini、o1-mini、o3-mini、o3以及o4-mini等多个关键模型的构建工作,同时他还担任了后训练团队的领导职务。
他这样表达:“我指导模型进行更迅速、更刻苦、更锐利的思考。”
在学术领域,他的Google学术总引用次数已突破17742次,其中高引用论文有:《关于基础模型机遇与风险的研究》(被引用6127次);《开放图基准》(OGB)数据集(被引用3524次)等。
Jiahui Yu
余佳慧本科阶段在中国科学技术大学少年班完成学业,取得了计算机科学专业的学士学位,此后又赴伊利诺伊大学香槟分校深造,成功获得了计算机科学领域的博士学位。
他的研究主要聚焦于深度学习领域,同时涉及图像生成技术,探讨大模型架构的设计,进行多模态推理的研究,并致力于高性能计算的研究工作。
在OpenAI工作期间,余佳辉担任了感知团队的主管一职,他领导团队成功开发了GPT-4o图像生成组件、GPT-4.1以及o3/o4-mini等关键项目,同时他还提出了“以图像思考”的感知体系,并将其成功实施。
在此之前的岁月里,他于Google DeepMind供职将近四年,其间身为PaLM-2架构与建模领域的关键贡献者之一,同时亦携手主导了Gemini多模态模型的研发工作,成为谷歌多模态战略中不可或缺的技术支柱之一。
他在英伟达、Adobe、百度、Snap、旷视以及微软亚洲研究院等知名机构均有实习经验,涉猎的研究领域包括生成对抗网络(GAN)、目标检测技术、自动驾驶技术、模型压缩技术、图像修复技术以及大规模深度学习训练系统等多个前沿方向。
贾辉在谷歌学术平台上的总引用量已突破三万四千五百次,其h指数高达49。其具有代表性的研究成果涵盖了图文对齐的基础模型CoCa、文本生成图像的模型Parti、神经网络的灵活设计BigNAS,以及广泛应用于Adobe Photoshop的图像修复技术DeepFill v1和v2等多个领域。
Shengjia Zhao
赵胜家,毕业于清华大学计算机科学与技术专业,曾在莱斯大学进行交流学习,随后在斯坦福大学攻读并获得计算机科学博士学位,其研究方向主要集中在大型模型架构、多模态推理以及模型对齐技术。
2022年,他加入了OpenAI的大家庭,成为了一名核心研发成员。在此期间,他深度参与了GPT-4和GPT-4o的系统设计工作。他不仅主导了GPT、GPT-4、所有mini模型、4.1和o3的研发任务,而且还领导了OpenAI的合成数据团队。
他作为《GPT-4技术报告》(引用次数超过1.5万次)以及《GPT-4o系统卡片》(引用次数超过1300次)的共同作者,还参与了包括OpenAI o1在内的多个系统卡的编写工作,并在推动OpenAI基础模型的标准化和公开化方面做出了重要贡献。
在学术领域,他的研究成果备受瞩目,Google学术显示其总引用量已突破21,000次,h指数高达25。此外,他还荣获了ICLR 2022年度杰出论文奖、JP Morgan博士奖学金、Qualcomm创新奖学金(QinF)以及Google卓越奖学金等多项荣誉。
Google→Meta
Pei Sun
2009年,Pei Sun在清华大学取得了本科学位,之后他赴卡内基梅隆大学深造,继续攻读硕士及博士学位。他在硕士课程中表现优异,成功完成了学业。然而,在博士阶段,他做出了退学的决定。
他曾在Google DeepMind任职为首席研究员,在那段时间里,他专注于Gemini模型的后训练、编程以及推理等方面的工作。他是Gemini系列模型(涵盖Gemini 1、1.5、2和2.5等版本)在后续训练、思维机制构建及代码实现方面的重要贡献者之一。
在DeepMind公司任职之前,Pei曾在Waymo工作长达六年多,期间担任高级研究科学家一职,成功领导了Waymo两代核心感知模型的研发工作,成为自动驾驶感知系统发展进程中的关键支撑力量。
在较早的时期,他曾在谷歌公司担任软件工程师一职长达五年以上,随后转至分布式存储企业Alluxio,继续以工程师的身份工作了一年有余,并参与了该系统的架构设计与研发工作。
Nexusflow→英伟达
Banghua Zhu
北京航空航天大学电子工程系毕业的曾华珠,随后前往美国加州大学伯克利分校深造,专攻电气工程与计算机科学博士学位,期间有幸成为知名学者迈克尔·I·乔丹和焦剑韬的弟子。
他的研究主要集中在对基础模型进行效率与安全性的提升,通过整合统计学方法和机器学习的基本理论,他致力于创建开放的数据集以及便于公众使用的工具。此外,他的研究兴趣还涉及博弈论、强化学习、人机交互技术以及机器学习系统的设计。
他的论文《Chatbot Arena》阐述了以人类偏好为驱动的巨型模型评估平台,这一成果在LLM领域内构成了关键性的参考标准之一。
除此之外,他在RLHF(人类反馈强化学习)、人类反馈对齐技术以及开源对齐模型等领域做出了重要贡献。据Google学术显示,他的引用次数已超过3100次,h指数达到了23,同时,他还是大模型竞赛平台“Chatbot Arena”、“Benchbuilder”以及“Starling”等多个知名开源项目的核心开发者之一。
他过往在微软公司担任研究实习生的职位,后来又在谷歌公司担任学生研究员,并且共同创办了AI领域的初创企业Nexusflow。今年六月份,他宣布自己将加入英伟达的Star Nemotron团队,担任首席研究科学家的职务。与此同时,他还将在今年秋季接受华盛顿大学的邀请,担任助理教授。
依据其发布的信息,他将加入英伟达,从事模型训练、评估、AI基础设施建设以及智能代理的构建等工作,并着重提出与开发者和学术界进行紧密合作,同时打算将研究成果公开分享。
Jiantao Jiao
焦剑涛担任加州大学伯克利分校电气工程与计算机科学系以及统计学系的助理教职。
2018年,他成功取得了斯坦福大学电气工程领域的博士学位。现今,他担任多个研究中心的联合负责人或成员,这些中心包括伯克利理论学习中心(CLIMB)、人工智能研究中心(BAIR Lab)、信息与系统科学实验室(BLISS)以及去中心化智能研究中心(RDI)。
他的研究聚焦于生成式人工智能以及基础模型领域,同时,他对统计机器学习、强化学习系统的隐私保护与安全性、经济机制的设计、自然语言处理、代码自动生成、计算机视觉技术、自动驾驶技术以及机器人技术等多个方向都表现出了浓厚的兴趣。
与Banghua Zhu同属一列,他亦身为Nexusflow的联合创办人之一,现正式加盟英伟达,并身兼研究总监与杰出科学家双重职务。
Jiao的论文总引用量高达7259次,其h指数为34。他的代表性作品包括发表于NeurIPS等顶级会议的《Theoretically principled trade-off between robustness and accuracy》以及与Banghua Zhu等人共同撰写的《Bridging Offline Reinforcement Learning and Imitation Learning:A Tale of Pessimism》。
Claude→Cursor
Catherine Wu
Catherine Wu曾服务于Anthropic,担任Claude Code的产品经理,其工作重点在于打造稳定、易于理解且可控的人工智能系统。据The Information消息,Catherine Wu已被AI编程领域的初创企业Cursor吸引,并受聘担任该公司的产品负责人。
在加盟Anthropic之前,她担任了Index Ventures这家知名风险投资公司的合伙人,这一职位她坚守了将近三年的时间。在这段时间里,她不仅深度参与了多家顶尖创业公司的早期投资,还为它们提供了战略性的支持。
她于Dagster Labs任职工程经理,负责公司首个商业化产品的研发工作;此外,她还在Scale AI早期担任产品工程师,参与了多个核心产品的构建及运营拓展。
在此之前,她曾在摩根大通公司实习,并在普林斯顿大学取得了计算机科学专业的学士学位,此外,她还曾在苏黎世联邦理工学院完成了交换生项目。
特斯拉|Phil Duan
段鹏飞,即Phil Duan,担任特斯拉AI部门的首席软件工程师一职,目前主要负责Autopilot项目下的Fleet Learning团队,该团队专注于加强特斯拉自动驾驶系统(FSD)中的“数据+感知”这一核心模块的建设工作。
他领导下的特斯拉团队致力于打造一款高效、快速迭代的数据引擎,该引擎能够从数百万辆汽车中搜集、加工并自动标记驾驶信息,他特别注重数据质量、规模以及种类的综合优化。
在感知领域,他负责打造了众多至关重要的神经网络模型,涵盖了视觉基础架构、目标识别、行为分析、空间感知网络、交通管理系统以及高精度停车辅助系统等多个方面,成为Autopilot感知系统核心构建团队的重要成员之一。
他在武汉理工大学完成了本科学业,专业是光信息科学与技术。之后,他继续在俄亥俄大学深造,获得了电气工程博士和硕士学位。他的研究聚焦于航空电子领域。凭借出色的博士论文,他在2019年荣获了RTCA William E.Jackson Award,这是美国航空电子与电信领域授予研究生的最高奖项之一。