导读:在DTC 2021兵棋推演比赛中,来自郑州信大先进技术研究院的MetaWar参赛团队利用兵棋推演方法,尝试分析其在无人系统技术规划中的应用,具有一定的参考价值和特色,刊登全文,供读者品鉴,欢迎留言探讨。
2017年5月27日,作为世界排名第一的中国围棋大师柯洁九段以0:3败给了人工智能AlphaGo,自此人们开始思考,人类对人工智能究竟是高估了还是低估了。人工智能在现代科学的加持下,已经对那些科学可控的规则进行了打破,他们甚至可能根本无意推动智能生物的独立进化。未来相当长一段时间,必然是人类与人工智能协同进化的阶段,但人类以人为王的这种心里始终不愿相信人工智能能够在某些领域已经超过了人类,那些唱“衰”者认为,机器始终是人来制造的,不可能独立在人的思维之外所存在。
无论以什么样的态度看待这件事,人工智能的时代即将来临,就像AlphaGo的主要缔造者得米斯·哈萨比斯所讲,人机合作可以达到1+1>2的效果,人类的智慧将被人工智能放大。人工智能和AlphaGo都是工具,就像哈勃望远镜一样,同样可以推进人类文明的进步。
兵棋推演是作战模拟的有效手段,它使用代表战场及其军事力量的棋盘和棋子,依据从战争经验中总结的规则,并结合概率原理,通过推演各方人员的系列决策对抗,对作战过程进行逻辑研究和科学评估,能够为研究军事、研究战争、研究作战发挥积极辅助作用。推演能力的建设,提高对指挥人员训练的承训能力。而伴随人工智能和计算机运算能力的发展,实现军事作战智能化已然成为发展的趋势,兵棋推演由手工兵棋推演发展到现代计算机兵棋推演,进而发展到智能兵棋推演阶段。智能兵棋推演提供训练、对抗、评估一体化平台,为未来智能指挥控制系统提供技术支撑。
虽然人工智能在很多领域已经取得了很大的成功,但是对于复杂的兵棋推演,还是无可复制的,对于人工智能完全替代人类进行兵棋推演还有很长的一段路要走,不过当前人工智能和兵棋推演的结合已经初见成效,在面向AI智能兵棋计划生成系统等方面都发挥着巨大的作用。
目前来讲人工智能在未来兵棋推演任务中的作用有以下趋势或者发展过程中要解决的问题:
第一,人工智能在未来战场环境下是不可替代的,它能够完成更加复杂的态势分析,为决策者提供更加精准的策略建议。同时人工智能也可以根据不同级别的战略、战役和战术兵棋规则,随着武器装备的发展、技术条件的进步和部队编制结构等的变化同步更新。
第二,兵棋推演变数巨大,对于复杂的围棋来讲,由于走法可能性的庞大,不可能对针对所有的情况进行推演,每一步棋子的移动,都需要人工智能系统通过策略网络和价值网络进行配合计算。但对于兵棋来讲,兵棋推演过程中的灵活性和多样性是围棋所不能比拟的,为了能够生成策略网络,兵棋需要成千上万场的对弈才能够初步形成;为了形成价值网络,需要人的独立思考教给机器来计算每一步取胜的概率,进而人工智能通过策略网的配合计算出最终胜利的最佳策略。
第三,兵棋推演具有信息不完备性的特点,它不能够判断敌方策略信息,因此在对弈的过程中所要使用的策略和算法将更加复杂。
基于以上几点,将人工智能运用到兵棋推演的中潜力巨大,同时要面临的困难和挑战也是不言而喻的,在人工智能的不断发展中,兵棋推演会与其相互加持,为人工智能的发展和兵棋推演的进步提供更大的发展空间。不过对于当前来讲,发展和探索兵棋推演在无人系统技术规划中的流程,是我们为人工智能和兵棋推演的一个奇迹,也成为兵棋推演过程中人工智能发展的需求所在。
兵棋推演向智能兵棋推演发展主要的特征包括智能化、多维对抗、实战化、可视化和全生命周期以及无人化等特征。利用人工智能技术实现兵棋推演的智能化,具有快速高效、远程联网、大规模推演的优势,支持多层级、多角色、多战术的复杂对抗,从而在服务作战应用上使兵棋推演更加灵活多样、更加高效便捷,实现人机协同和智能增强。
智能兵棋推演系统可以面向多兵种(陆、海、空、联合作战)、多级别(战役级、战术级)、多域(时、空、频、资源),用于军委、战区各级战役、兵种、编队、作战平台指挥员和参谋人员,以及作战理论研究人员进行指挥谋略训练、方案拟制验证、作战效能评估和军事理论研究,辅助编队以上层次指挥员和参谋人员进行指挥谋略训练,辅助一般军事人员开展装备效能评估和军事理论研究等,辅助演习保障人员拟制作战/演习方案,提升实战演习、指挥谋略训练等的综合保障能力。
智能兵棋推演系统面向多兵种兵棋推演前、推演中、推演后的全生命周期,涵盖联合战役至兵种战术层级的综合性、多功能需求,以底层战术兵棋规则和行动流程为基础,通过提升关注点颗粒度和触发转换的方式模拟战役或战役嵌套战术推演,构建面向战场环境的人机智能对抗系统,成为作战训练的新手段,能够在战略和战役层次上对战争的整体和局部进行对抗模拟。
进而通过大数据分析应用,还可以依据导入的战场数据评估战法是否合理以及寻求更优战法。兵棋推演在作战模拟和指挥训练中作用明显,但由于技术手段和规则的限制,推演想定地图、决策环境与现代战场难免存在一定差距。
组织计算机兵棋推演可以更加接近实战,按照实际指挥所编成与作战编组来设置推演机构,注重提供实战化的想定设计和兵力部署,以实战化指挥流程主导系统全过程运用,将侦察情报、作战筹划、指挥控制、作战评估、信息保障、后装保障等指挥要素全流程贯穿于推演之中。将现行部队作战指挥全过程更完整地予以呈现,通过地理信息系统(GIS)、虚拟现实(VR)、2D/3D数字映射,建立逼真的“虚拟战场”实现战场环境全过程模拟和态势综合展示功能,支持可解释的推演过程,以及多模态人机交互接口(多媒体、音频、视频、脑电、神经反射等),为指挥员提供“沉浸式”的作战决策环境。
智能化兵棋推演的最终目的是要实现以组少的人员去实现最大的实战效益,因此无人化将是智能兵棋推演系统里的最高追求,无人化并不代表无人管理和无人操控,而是将更多复杂繁琐的数据收集、态势感知、策略建议等交给人工智能去完成,在人的总体指挥下,人机配合完成高难度、复杂多样的推演任务。
总之智能兵棋推演就是通过对战争进程的推演,研究战争的动态演化过程以及不确定性和偶然性对战争结果的影响,强化指挥员生成作战计划决策的思维方式。
智能化兵棋系统中的认知模型,可以看成是人在认知活动中的数字李生体。通过数字李生的方法构建认知模型,可以让认知模型能够更“像”真实的人。引入数字李生的技术构建认知模型的成长环境,目的是让智能化兵棋系统更好的反映人类战争,让认知决策模型更好的遵循条令条例、战争法、军事理论等人类世界的规则,而不是毫无约束信马由缰。构建数字李生的教学环境,要构建基于特征谱的人机教学接口,并以此为基础构建出“人类教”和“机器学”的生态环境。
人机融合是让人和机器互相理解、互相启发、互相协同,形成人机共生体完成特定任务。人机融合技术在军事领域吸引了大量的关注,如美军在其第三次抵消战略中提出“半人马”模式,该技术不是让机器取代人,而是进入一种人机融合的最佳的“共生”模式。
人机共生环境是一种互补、互学的环境。人可以弥补机器的不足,能够使认知模型快速进入应用,为智能化兵棋系统的OLTA循环提供初始驱动力。人与机器在协作完成各项任务过程中,机器也可以将人作为学习对象,加快机器成长的速度。
作战数据蕴含着战争规律,是认知模型学习训练的“原材料”和选代演化的“养料”。认知模型所需的战争数据有其特殊性。一方面,战争类训练数据难以获取,数据样本增长扩充难;另方面,战争的策略空间规模远超棋类游戏,认知模型学习训练需要的数据量更大。因此,数据样本的获取和生成是一项庞大的系统工程。
未来智能化的兵棋可能会针对不同的战争样式、不同的作战方向形成多样化的应用“群落”,可能会出现即使相同类型的认知模型,在不同群落里的行为截然不同,这是因为智能成长的“微环境”有差异。构建下一代智能化兵棋推演生态环境,需要重点关注数字李生与平行仿真、人机融合共生、数据样本生成、认知智能的测试与评估以及云原生等。
目前对于复杂的作战体系和规则流程主要包括以下六个步骤:
(1)策划试验与评估策略。依据军队联合作战需求,对准备推演的系统或体系进行试验方案研究,制定试验策略和指标评价体系,针对整体策略和具体策略进行研究;
(2)对每一步策略描述特征。确定试验目的和试验方法,对前一步的策略进行分析,并对试验的指标体系进行可行性研究,在此基础上给出AI策略构建方案;
(3)制定推演计划。详细分析之前制定的策略、AI仿真参数配置、试验运行、数据采集策略及分析等对试验结果的影响,制定详细的推演计划。
(4)构建AI智能推演系统。对AI进行逻辑设计与编程,再进行仿真平台的校验与调试。AI既有实际装备,也有半实物仿真模型和数字仿真模型。AI的搭建由项目计划实现。
(5)人为管理执行试验。根据试验计划有效地控制和管理AI中的计划编成。在试验中,计划编成是指在局部或全局的
(6)评估推演能力。根据制定的评估指标对试验数据进行分析和总结,并提交关于兵棋推演的人工智能能力评估报告。
图 1 复杂的作战体系和规则流程
从整体的流程可以看出,作为作战流程的核心和关键之处在于引用人工智能帮助推演和策略分析,不仅提高了推演效率,更加能够对最终的结果进行裁决,因此智能化的兵棋推演是目前兵棋推演的主要发展方向。人工智能为大脑的作战体系需要与兵棋、指挥控制系统、无人系统共同支撑,兵棋用于训练人工智能并与人工智能相融,形成决策优势。指挥控制系统形成态势感知和指挥优势,无人系统形成平台优势。
兵棋模型既包含传统的兵棋系统实体、行为和交互模型体系,又包含了面向智能化战争的无人装备、自主系统、智能认知决策和指挥控制等新的模型体系。强调兵棋推演的智能化和无人化,是生成人人对抗、人机对抗、机机对抗和人机协同对抗兵棋推演平台的关键。
智能兵棋推演是一个涉及多个学科领域的复杂智能认知活动,需要通过模拟人类深思熟虑行为,通过自主学习发掘规律,并完成推理、规划和决策,其推演结果作用于实际战争环境上。
兵棋推演在无人系统实施框架如图2所示。智能兵棋推演系统采用可扩展体系结构,以组件化、参数化、组合方式开发指挥所、作战单元、武器装备等资源,以集中式体化资源管理和应用服务为系统集成机制,适用于AI智能体实现跨系统、跨平台的泛化应用。实现陆/海/空/联合作战多维对抗空间的环境感知、态势分析、指挥决策、战法研究,对不同层次的作战要素进行特征提取、聚类和融合,对多源传感信息进行融合,实现态势感知与认知,对动态变化的态势做出快速响应并形成作战行动方案。
推演方式包括单机研讨式推演、红蓝背靠背对抗推演、红方与人工智能蓝方对抗推演等三种推演方式,可以完成AI与AI间的比赛对战、AI训练时的快速对战、AI与人的对战。根据实际训练需求,智能兵棋推演系统可以灵活配置使用,支持本地研讨式推演、本地对抗式推演、异地对抗式推演。
系统面向四类用户,一是人类对抗者(参赛,参训),二是计算机AI(基于数据的机器学习算法,基于模型的智能决策专家),三是设计、组织、调度、管理对抗的各类人员,四是平台的运行维护人员。用户可进行对战模式(人机模式、机机模式、机器自主学习模式)的选择,并可指定地图、想定、比赛次数的设定。
人工智能在兵棋推演中无人系统技术规划中参与方式为以下流程:
图 2 兵棋推演在无人系统实施框架
具体的兵棋推演在无人系统实施框架主要四大部分内容,主要由基础数据层、核心引擎层、前端应用以及推演可视化层。
基础层主要包含数据、模型、知识库以及网络环境等,为核心引擎层提供基础数据。
核心引擎层包含日志管理、通信管理、兵棋推演引擎和调度及管理,这一层负责人机对抗部分的引擎驱动。
前端应用系统主要包含蓝方智能体和红方指挥员以及智能博弈系统组成,其中蓝方智能体具有作战推演功能以及AI自主学习,通过AI接口下达作战指令。
智能博弈系统包括智能感知、智能决策和智能控制,其中智能感知包含战场态势生成、战场态势预测以及战场态势评估;智能决策包含宏观对抗策略和微观对抗策略;智能控制包含作战决策分析和动作执行。智能博弈为红方指挥员提供指挥训练。
推演可视化层包含仿真对抗系统的可视化,为红蓝方生成态势报告以及为智能博弈系统提供数据积累。
兵棋推演经历了从手工兵棋推演→计算机兵棋推演→智能兵棋推演三个发展阶段,能够在优化作战方案、支撑指挥训练、辅助战法研究、辅助新型装备研发方面发挥作用。伴随着技术的发展,信息化和智能化条件下的战争中多专业、多指挥层级融合的需求逐渐凸显。
通过总结兵棋推演方式方法和系统研究进展发现,计算机兵棋系统在发展过程中吸收了军事运筹学和武器装备仿真的最新理论和方法,结合大数据和人工智能技术的最新发展成果,通过不断融合现代作战模拟仿真技术和通信手段,采用基于大数据的在线仿真、智能AI对阵员和云边端等技术或方法,促进了计算机兵棋系统与实战演练及训练的深度融合,并为作战决策、实战训练和军事教育提供有力支撑。
目前军用计算机兵棋推演技术的研究呈现在以下方面:
一是在兵棋地图生成上,如何更好地模拟不同兵种作战的陆战、海战、空战兵棋地图,模拟不同作战级别的战术、战役和战略兵棋地图,研究效率更高的地图生成算法;
二是研究兵棋算子的合理表达方式,使之满足接近真实情况的推演需求;不断完善兵棋规则,将经验层面的乃至情感层面的积累进一步提炼为可解读、可执行的推演规则;
三是研究规则的描述与制定方法,使规则更加科学合理,贴近实战推演过程;四是结合人工智能技术,通过强化学习提高推演效率和研判决策能力。
最后引用《桌面战争》书后记的一段话,进入新时代,军事变革从机械化向信息化发展,再从信息化向智能化发展,当AlphaGo不仅战胜的人类围棋高手,更战胜了人类飞行员时,未来人工智能在军事领域的应用必然引领军事变革的趋势,通过人工智能进行作战将变成现实。而细究人工智能之后的规则、算法均与兵棋规则、数据和底层算法相关,不通过兵棋建设发展促进军事规则、智能化算法的发展,将很难在未来战场获取智能优势。
未来通过兵棋推演在无人系统技术规划中的发展,很快就会看到兵棋推演上人机对战的局面。
参赛团队:MetaWar,成员包括张文亮、王贺彬、杨鑫、李志明
评论