南山科技事务所

精彩回顾 | 2019年南山博士论坛426期：喻之斌《自主学习，让云计算系统更优化》

2020-04-30

云计算、大数据、人工智能已经走入寻常百姓家，给人们的生活带来了便利。然而，当前的云计算系统中存在着一对巨大的矛盾，云服务质量和资源利用率的矛盾。如何在云计算系统中既提高资源利用率，又提高性能、保证服务质量是一个世界性的难题。10月13日下午，南山博士论坛在南山图书馆报告厅如期举行。论坛邀请中国科学院深圳先进技术研究院研究员、数字所副所长喻之斌博士，讲解“如何利用机器学习的方法来优化云计算系统的性能”，即让云计算系统自主学习自己在性能方面和影响性能的因素的特征，然后自己优化自己，达到高性能的目的，不仅大大改善了用户体验，还能提高云计算系统的资源利用率。喻博士通过科普的方式将他的团队在大数据和云计算系统方面的研究深入浅出地介绍给在场听众，让大家对大数据方面的研究有了更直观深入的了解。

“大颗粒数据”背后仍面临多重挑战

据介绍，随着计算机技术和物联网的发展，绝大部分行业都出现了大数据的现象。比如像城市交通、医疗健康、药物设计、金融电信、海洋天空、政府商业等领域。喻之斌在论坛中举例介绍在医疗健康领域现在有很多数字化设备，数字化设备产生的数据都可以存下来，存下来之后就可以帮助我们做很多的事情。大数据在医学里叫“大颗粒数据”，所谓大颗粒就是说一个文件就有好几十兆甚至几百兆这么大的数据。

喻之斌表示，虽然大数据已经正在给我们带来好处，而且将来会带来越来越多的好处，但这其中也存在着很多问题。这些问题包括如何低成本地达到企业的 P 级存储需求？如何使存储容量和计算能力跟上数据增长的速度？还有大数据的能耗高得惊人，处理平台规模庞大，难以管理等。这就是大数据目前所面临的挑战，全世界做计算机系统的人都在想办法怎么解决它，特别是美国计算机排名在前面的学校，美国的谷歌、 FACE BOOK，中国的华为、阿里巴巴，也包括中科院的科研机构。

机器学习+大数据实现优化建模

喻之斌认为解决这些问题还是要用一些数学的方法，从杂乱无章的东西中找出规律，并利用这个规律做一些优化或者设计。他表示做科学研究首先要做的就是观察，观察完了之后做理论分析，就是假说。实际上假说在科学研究中非常重要，如果你的假说是能解释，能说得通的，那么这个假说对于科学研究就是非常有帮助的。

据介绍，喻博士的团队主要研究的解决方法是把机器学习和大数据这些东西用在计算机系统里面来实现优化，用机器学习的办法来建模型。他解释道： “这个模型就是配置参数做了模型的输入。模型要有输入和输出，这些按钮你给个值给这个模型，它就会给你输出。” 经过多次试验，为了减少精度误差，喻之斌的团队提出了自己的办法“层次化模型”。喻之斌表示他们的努力就在于挖掘大数据更多的价值，开拓更多的技术。

本次论坛还增加了有奖问答的环节，共准备了五本《为创新而生》给现场的听众，新书是由著名财经作家吴晓波作序并推荐，这本书详细介绍了深圳先进院的创新人物故事和创新成果，是国内的第一本反映创新型科研机构和海归创业的中国创新样本。现场的听众踊跃参与，现场氛围十分热烈。

互动问答

听众：请问现在有没有计划，或者全世界范围内有没有机构专门做特定的应用软件算法加速器？特别是一些大数据运用的软件，比如说图形图像还有音频识别、语音识别。
喻之斌：国内做得比较少，但是在美国、欧洲特别多的人做，尤其是在研究领域。有专门的人在专门的领域做图形加速，还有专门做大数据，像我们就做大数据加速。比如现在像人工智能的加速器这就是专用硬件。现在华为也在跟我们一起探讨能不能从培养人才上做一些努力，我们也在推动这个事情。但这个要做“冷板凳”，因为入门都不容易。
听众：对于人工智能还有大数据，您认为它现在面临的阻碍或者说一个瓶颈是在哪儿？
喻之斌：第一是使用的方便性，是否好用，应用性非常关键。我们要去观察用户会采取什么样的使用方式。第二是部署，人工智能的管理难易程度，资源的消耗是不是很多等方面。