智库报告
位置: 首页  >  智库报告  >  【报告】美国安全和新兴技术研究中心:人工智能三要素及其对国家安全战略的意义
【报告】美国安全和新兴技术研究中心:人工智能三要素及其对国家安全战略的意义
2020-08-31 15:36:00 作者:赛博研究院 
关键词:人工智能 


【编者按】2020年8月,美国安全和新兴技术研究中心(CSET)发布报告《人工智能三要素及其对国家安全战略的意义》(The AI Triad and What It Means for National Security Strategy)。报告认为,制定好的人工智能政策,首先要揭开技术背后的神秘面纱。报告将数据、算法和算力称为AI三要素,并认为对国家政策制定者而言,以该视角来研究人工智能将对理解人工智能技术,以及制定对应的国家安全政策提供一个有价值的框架。报告认为,AI三要素的每一要素都对应各自不同的政策杠杆、挑战和机遇。各要素的政策重要性和优先级对国家安全战略的制定具有重要意义;当其中某一要素的优先级高于其他要素时,就会出现不同的政策选择。当前世界各国已在这三个领域展开激烈竞争,政策制定者必须设计一个跨领域的人工智能战略,解决数据、算法和算力问题,同时评估这三者中的哪一要素——以及哪一种政策杠杆——是最重要的。


0 引言



可以用一句话来概括现代人工智能的复杂性,即:机器学习系统使用计算能力来执行从数据中学习的算法。对于一项看起来既时尚又强大又神秘的技术,决策者需要知道的一切都囊括在这24个字里了。


AI技术的广度是为什么AI的单句表达如此重要,以及它所暗示的概念如此重要的原因。如果政策制定者不理解AI,他们将成为技术先锋的被动听众,缓慢地认识到AI对其所关心的问题所能发挥的作用。或许更糟的是,不了解AI的政策制定者将无法认识到这项技术还不能做什么,他们将忽视AI目前的结构性缺陷,如缺乏透明度和存在的潜在偏见——这些挑战必须通过技术和政策方面的解决方案共同加以缓解。


AI的简明定义首先为现代AI指定了一个范例——机器学习。这篇报告主要关注机器学习中的主流范式——深度学习。实现深度学习的三个要素是:数据、算法和算力。我将三者称为AI三要素。长期以来,计算机科学家们一直在用这种三要素视角来研究机器学习。这为理解机器学习的价值以及它对政策的意义提供了一个框架。


1 AI三要素


算法


机器学习算法从数据集中获得自己的见解,并将这些见解作为运行的基础。为了做到这一点,机器学习系统通常部署深度学习或神经网络。机器学习算法主要包括三种类别:监督学习、无监督学习和强化学习。

监督学习算法从通常由人类提供的组织良好的数据中获取模式。一旦被开发出来,该系统就可以在新的情况下部署这些模式识别能力。例如,在商业应用中,机器学习算法可以基于大量汽车历史销售数据进行训练,建立模式识别能力,进而对市场上汽车的未来销售价格做出预测。


尽管监督学习算法很强大,但其仍具有局限性。监督学习依赖于提供给算法的数据的“正确答案”,如果没有这些可供学习的正确答案,监督学习系统就无法获得预测新数据所需的模式。但无监督学习能在没有整齐有序的数据集为每个数据点提供正确答案时,派上用场。无监督学习算法可以帮助解开复杂的数据网,并提供一些结构。


强化学习在具有明确定义环境的领域非常强大,例如在棋盘游戏或视频游戏中。通过尝试和错误,他们做出决定并从环境中得到反馈。例如,一个强化学习算法,在游戏中找到通向胜利的步法可以获得分数,但在失败的步法中被扣分。当他们寻求最大限度的奖励时,算法会随着时间的推移在环境导航和执行任务方面不断改进,有时甚至超过人类的能力。另一个强化学习算法应用的领域是机器人:算法做出一个决定,机器人执行这个决定,机器人的传感器会检测环境的反应,以及这个反应是好是坏。因此,强化学习出现在一些自动驾驶汽车技术中。


数据


“数据是新的石油”——这句话已经成了陈词滥调,从企业营销到总统竞选辩论,人们无处不在地提及这句话。如前面对算法的概述所示,数据是至关重要的,特别是对于监督学习。没有数据,就不会有模式可识别,而且许多算法即使有效,也会大大降低效率。

然而,数据收集本身也是一个挑战。由于这个原因,那些能够直接访问大量消费者数据的公司,如Facebook、Google和Amazon,成为了市场的领导者。数据一旦被收集,就必须进行组织、存储和访问,所有这些在技术和组织上都具有挑战性。法律和监管方面的障碍,特别是在隐私方面,也限制了组织对大型数据集的收集和使用。


训练数据中正确答案的准确性也至关重要,特别是对于监督学习系统。训练数据表现出某种偏见是很常见的。当这种情况发生时,机器学习系统可以吸收这种偏见。有偏见的数据可能会放大算法的可解释性问题:当机器学习系统确实从训练数据中继承了偏见时,它们可能会做出有偏见的决定而不解释原因。因此,机器学习系统可以将有偏见的数据以公正的形式呈现出来。


算力

在AI的背景下,忽视算力是一个巨大的错误。当前算力在很大程度上被大家所忽视,但实际是,算力支撑了大量现代AI的进步。被认为是现代AI创始人之一的Rich Sutton认为,AI的很大一部分进步不是通过让系统变得更像人类,也不是通过向计算机传授更多人类知识,而是通过赋予机器学习系统更强大的处理能力,使其能够自主学习。从这个角度来看,算法和数据根本不如支持机器学习的计算机硬件重要。如果Sutton是对的,那么算力很可能是AI三要素中最重要的部分。


的确,大量的证据表明,算力与AI的发展密切相关。OpenAI研究了2012-2018年期间算力如何推动AI的发展。他们的发现令人瞩目:在充满了巨大AI成就的那段时间里,用于顶级AI项目训练的计算量增加了30万倍。这种日益强大的计算能力带来了其他方面无法实现的突破。例如,微软人工智能专家XD Huang认为,过渡到图形处理单元以更好地执行机器学习计算是使微软取得了大量进步的“真正武器”,如果没有算力的增加,一些项目可能要多花五年时间才能完成。


有三个因素共同推动了算力的巨大增长。首先是摩尔定律(众所周知,英特尔首席执行官戈登•摩尔曾提出,由于处理器工程的改进,每24个月算力就会翻一番)。但是,即使是摩尔定律对算力增长的预测,也要比近年来的实际增长小得多。


第二个因素是并行计算在机器学习芯片上的应用越来越多。并行化使许多计算机芯片能够在完全相同的时间训练一个机器学习系统。


微信截图_20200908153158.png

图1 并行计算图解


第三个因素是机器学习计算机芯片效率的提高。运行机器学习算法不同于运行Excel电子表格或网络浏览器;如前所述,前者使用神经网络从数据中学习,而后者直接执行人类指令。因此,典型的计算机芯片和操作系统中出现的各种优化不能在机器学习计算中产生同样的效率收益。然而,专门的芯片可以被制造和定制,以更有效地运行机器学习算法。从2012年到今天,机器学习计算领域发生了几次范式转变,从常规计算处理器到图形处理单元,再到为提高机器学习效率而制造的专用芯片。


微信截图_20200908153251.png


这三个因素都并不廉价。尽管摩尔定律似乎还会持续几年,但随着半导体工程问题变得越来越棘手,新芯片工厂的生产成本和复杂性都在增加。日益增长的机器并行化是一种福利,但购买更多机器会增加成本。专门用于机器学习的定制芯片提高了效率,带来了重大进步,但需要大量投资来设计和制造新硬件。随着算力的成本和复杂性持续增长,它日益成为机器学习研究人员的瓶颈,并与国家安全政策制定者密切相关。


2 AI三要素对决策者意味着什么


AI三要素有助于揭开和理解AI的神秘面纱,尤其是考虑到尖端系统的快速发展和复杂性。它可以帮助分类机器学习方面的进步,区分算法和算力领域的巨大技术进展。


或许更有用的方式是,AI三要素可以为国家安全政策的框架制定提供信息。AI三要素的每一要素都对应各自不同的政策杠杆、挑战和机遇。各要素的政策重要性对国家安全战略具有重要意义;当其中某一要素的优先级高于其他要素时,就会出现不同的政策选择。


在一个算法主宰的世界里,开发这些算法的研究人才和资源变得非常重要。目前这类人才的供应无法满足全球需求。因此,国家层面的政策制定者必须想办法吸引外国人才到自己的国家来,留住已有的人才,并培育新的人才。由此产生的政策杠杆包括签证控制、产业战略、职业再培训和AI技能认证框架,以及解决AI教师短缺的教育投资。鉴于AI人才在算法进步方面的核心地位,这些政府职能可能对国家安全和经济产生重大影响。虽然这些政策看似平凡,但这片土地却是AI时代地缘政治竞争的第一战场。


如果数据具有最高优先级,则将对应不同的政策杠杆。在由数据驱动的机器学习模式下,由有偏见数据集产生的有偏见系统大幅增长。随着数据处于AI的中心地位,跟踪和测量偏见产生的风险变得更加重要;应咨询专家,以了解偏见的潜在来源。即使算法仍然不透明,无法解释其决策,但使用的训练数据和数据集中的信息的透明度,也可以增强系统的信心。


对AI来说,数据的优先级越高,隐私问题就越重要。在训练机器学习系统的过程中,用户的隐私权及其数据的价值之间存在冲突,政府必须处理好这一平衡。他们必须制定隐私法律和法规,以保护公民自由和个人权利,同时又不过度限制利用他们的数据进行训练可能带来的创新。这不是一个零和方程,因为对保护隐私的机器学习系统的技术研究可以帮助算法从数据中学习,而不泄露个人信息。尽管这类技术的前景被看好,但这类算法在目前的机器学习研究中只占相对较小的比例,值得政府额外资助。


如果数据成为机器学习进程的核心,还会出现其他政策问题。随着数据重要性的增加,可能会促使更大规模数据集的获取和存储,从而产生网络安全和数据泄露责任政策的二级考虑。在这个以数据为中心的世界中,政府作为数据收集者和提供者的角色也最为充分地显现出来。例如,政府应该如何收集数据集来解决它的问题,以及需要改变哪些政府程序来收集和组织这些数据?更一般地说,政府的大量数据存储中,哪些应该可用、如何可用以及对谁可用?所有这些问题都需要谨慎的政策制定来解决。


最后一种情况是,算力具有最高优先级。如果是这样,管理为机器学习计算而优化的强大计算机芯片的流程就至关重要。因此,出口控制成为重要的政策杠杆,尤其是对目前在先进计算机芯片制造方面享有优势的美国及其盟友而言。更普遍的是,计算的成本越来越大。如果对学术研究人员来说,计算变得过于昂贵,那么研究就会转向私营部门,这可能会对长期创新产生负面影响。政府可以在让学术研究人员使用计算资源方面发挥作用,这样他们就可以继续培训新的专家,为人工智能的进步做出贡献。


那么,政策制定者应该优先考虑AI三要素中的哪一要素呢?这在很大程度上取决于实验室封闭的门后发生了什么。不过,总的来说,数据的价值似乎有些被高估和夸大了,尤其是随着特定技术创新的出现,例如通过人工合成有代表性的数据,或者开发不依赖于人工整理的训练数据的算法。虽然对隐私和数据聚合的担忧是真实存在的,但这些担忧可能独立于真正尖端的机器学习研究。然而十年前,数据似乎是AI的核心——谷歌首席科学家Peter Norvig有句名言:“我们没有比别人更好的算法;我们只是拥有了更多的数据”——当前数据的相对重要性已经有所下降,而算法和算力的重要性已经变得更加凸显。


算法的重要性似乎得到了更客观的评价,即使只是在理论上。决策者逐渐认识到该领域创新的重要性,但是在美国,吸引开发算法所需的人才还没有成为国家的优先事项。相比之下,英国、加拿大和法国等盟国则试图培育本国的人工智能产业,并从海外吸引新的研究人员。美国的大学培养了世界上大量的人工智能人才,在这种主场优势消失之前,美国可以做更多的事情来建立这种优势。


在美国,数据的重要性似乎被过分夸大,算法只是嘴上功夫,并没有采取重大政策行动,而算力的重要性似乎在几乎所有地方都被低估了。计算技术的进步很难解释,更难以想象,也许这些原因导致了对算力的疏忽。致力于AI先进算力的硅谷初创企业的大量涌现表明,这一领域还将取得更大进展,可能对机器学习的未来、依赖于人工智能的国家安全系统以及决策者的选择产生重大影响。


3 结论


在实践中,确定AI三要素中最重要的组成部分是一个学术问题,而不是一个政策问题。各国将在所有这三个领域展开竞争,尽管相对的优先级将随着三要素不同部分以不同的速度进步而改变。因此,政策制定者必须设计一个跨领域的人工智能策略,解决数据、算法和算力问题,同时评估这三者中的哪一要素——以及哪一种政策杠杆——是最重要的。


政策制定者必须以前瞻性的方式做出判断,并认识到他们的选择将带来短期和长期的影响。例如,对计算机芯片实施出口管制的决定可能在数年内带来好处,但中国发展自己的芯片制造业而不受西方竞争限制的风险——对美国决策者来说可能是长期的净负面影响。相反,试图吸引和培育算法人才的决定,可能需要立即付出政策上的巨大努力,但在十几年后可能才会产生成效。


理清这些不同的政策影响并不容易。它将依赖于将地缘政治需求与算法、数据和算力三要素的现在和未来结合起来。和其他许多事情一样,制定好的人工智能政策,首先要揭开技术背后的神秘面纱。


编译 | 李宁/赛博研究院高级研究员


本文由赛博研究院出品,转载请注明:本文来源于赛博研究院公众号。

更多精彩内容请关注“赛博研究院”公众号。


微信图片_20200908114614.jpg