从竞赛到应用:美国AI创新转化的公私合作实践
美国依托政府、高校、企业等三者之间的合作伙伴关系,面向人工智能成果应用,以政府办(DARPA挑战赛)、高校办(ILSVRC)、社会办(MLPerf AI 性能竞赛)等应用型赛事为特色工具,促进三类组织间的信息互换,加速打通创新成果转化链条。
推动商业前沿技术与军事技术融合是DARPA实现技术创新的重要发展思路,而挑战赛已成为落实该思路的重要举措。
美国国防高级研究计划局(DARPA)是美国国防部属下行政机构,负责开展基础性、先导性、颠覆性国防科研项目的管理,用于军事用途的高新科技。
此前,DARPA开展的“战略计算计划”(Strategic computing program)从1983年到1993年资助了先进计算机硬件和人工智能AI的研究,并设想了该计划的三个军事落地应用——自动驾驶陆地车辆、自动飞控系统和航空母舰作战管理系统。
但直至2001年,无人驾驶技术仍无较大进展。受阿富汗战争的需求影响,美国国会法案要求在2015年,军方三分之一车辆必须进行无人驾驶。为此,DARPA另辟蹊径,举办了自动驾驶汽车公开竞赛,吸引社会各界团队投入智能车研究。目前,DARPA已先后在网络、通信、智能、设计制造、生物医药等技术领域举办多项挑战赛,并不断继承和创新挑战赛模式,激发社会创新潜力,为美军快速选拔和获取优质创新资源及创意方案奠定基础。
DARPA挑战赛面向应用,加速了人工智能与各领域融合创新发展。
自动驾驶领域,前三届自动驾驶公路赛事由于其丰厚的奖金和未来科技感的比赛内容,吸引了来自计算机编程和工程公司、车辆制造商、大学等几十个社会团队参赛,极大地激发了各行各业的优秀创造力,直接催生了自动驾驶产业的诞生,赛事奠定了卡内基梅隆大学和斯坦福大学在自动驾驶领域的地位,打下了当代自动驾驶汽车的技术基础。参赛的科学家创立或加入的自动驾驶公司,现如今都已成长为行业内耳熟能详的自动驾驶头部企业。如Waymo、通用Cruise、Aurora、Argo AI、Nuro、Zoox等。
机器人领域,赛事旨在开发能够“在危险的、退化的人类工程环境中完成复杂任务”的半自动地面机器人。
网络安全领域,赛事旨在推进自动化网络防御技术发展,即实时识别系统缺陷、漏洞,并自动完成打补丁和系统防御,最终实现全自动的网络安全攻防系统,其中卡内基梅隆大学团队研制的Mayhem系统成功战胜两支人类黑客战队,开创了自动化网络攻防的新局面。
表 1 历届DARPA挑战赛主题及主要成果
以图像标记数据集带动计算机视觉算法优化。ImageNet项目,最初是斯坦福大学教授李飞飞于2009年,主持建立的用于机器视觉识别的图像标记数据集。ImageNet大规模视觉识别挑战赛(ILSVRC)旨在提升该图像标记数据集的知名度,要求参赛者在经过精简的1000个ImageNet类别列表、140万张图片中训练自己的算法,最终用该算法对从未见过的图像进行识别测试,最终以图像标注的准确率排名。赛事自2010年举办,至2017年最后一届,算法的图像识别率已从71.8%提升到97.3%,证明了庞大的数据集可以带来更好的决策。
赛事期间典型算法网络、专业人才频出。2010年首届竞赛优胜者出任了百度、谷歌和华为的高管。马修·泽勒(Matthew Zeiler)利用2013年赢得ImageNet挑战赛时的程序创办了Clarifai公司,获得4000万美元风投。2012年,多伦多大学的Geoffrey Hinton、Ilya Sutskever和Alex Krizhevsky提出了深度卷积神经网络结构——AlexNet,夺得冠军,成绩比当时的第二名高出41%,到2014年,所有的高分参赛队伍都沿用并开发了更多更深的深度神经网络,如vgg,GoogLeNet等,引发了视觉识别领域跨越式进展,也是如今AI井喷式发展的重要原因。
直接促进市场对数据集的建立与发展。尽管ImageNet赛事已经不再举办,但其证明了深度学习需要像它这样的数据集。自2010年后,谷歌、微软、加拿大高级研究所等相继推出了高质量数据集。创业公司也开始收集自己的数据集,如视频理解领域的AI初创公司TwentyBN就使用Amazon Mechanical Turk收集Turk在视频表演上简单的手势动作视频,目前已发布了两个免费使用的学术用数据集,每个都包含10万多条视频。
表 2 ILSVRC重要节点成果
MLPerf由图灵奖得主大卫•帕特森(David Patterson)联合顶尖学术机构发起成立,是国际最权威的AI性能基准评测,被誉为“AI界奥运会”。
自2018年起,每年组织AI推理和AI训练测试各两次,以对迅速增长的AI计算需求与性能进行及时的跟踪测评,是业内首套衡量机器学习软硬件性能的通用基准,即训练过的神经网络在不同量级的设备(物联网、智能手机、PC、服务器)、各种应用(自动驾驶、NLP、计算机视觉)上处理新数据的速度。现已成为全球权威性最大、影响力最广的国际AI性能基准测试。
MLPerf分为训练和推理两类测试评价标准,测试内容及结果对于 AI的算力发展趋势、应用趋势都具有一定的指引性。
训练测试,即使用特定数据集训练一个模型达到指定精度所花费的时间,包括模型构建、数据预处理、训练和质量测试等时间。MLPerf通常运行5次取平均值。推理测试,即是用特定数据集测量模型的推理性能,包括时延和吞吐量。
MLPerf测试结果一定程度上影响了行业发展方向,反映了市场现状和竞争格局。
MLPerf促使各公司在机器学习技术上进行持续投入和研发,以提升产品的性能和竞争力。以2023年11月为例,MLPerf首度引入GPT大模型基准测试,结果显示,英伟达 H100 GPU持续领跑,英特尔表现亮眼,继续在其产品组合中改进AI产品,为客户提供满足其多样化AI需求的多种解决方案。
表 3 MLPerf AI 性能竞赛主要内容(以2023年11月为例)
(因篇幅有限,更多详细内容欢迎联系我们)
*深圳市南山科技事务所原创出品,未经授权,不得复制和转载,否则将追究法律责任。