美军将针对生成式AI推出“成熟度模型”

胡小花 ⋅ 2024-03-23发布 阅读：97次 ⋅ 人工智能 CDAO 生成式AI ⋅

2024年3月22日，美国众议院军事委员会网络、创新技术和信息系统小组委员会举行听证会，即将离任的CDAO负责人Craig Martell介绍了美国国防部正在开展的多项军事人工智能项目，值得《军事人工智能白皮书》读者关注。

Martell表示，为了对ChatGPT等备受大肆宣传的生成性AI的实际能力进行评估，CDAO将在6月发布一个“成熟度模型”。

他说，“我们一直在努力地工作，弄清楚生成性AI在何时何地有用，何时何地会是危险的……我们在科学和营销之间存在差距，我们组织正在做的一件事，通过LIMA工作组，试图使这种差距合理化。我们正在构建我们所谓的成熟度模型，与自动驾驶成熟度模型非常相似。”

对于生成式AI，Martell继续说：“这是一个非常有用的模型，因为人们声称是第五级，但客观地说，我们确实处于第三级，有几个人做一些四级的事情。”

迄今为止，大型语言模型的问题在于，它们产生了似是而非的，甚至听起来权威的文本，尽管如此，却充满了被称为“幻觉”的错误，只有该主题专家才能检测到。这使得LLM看起来很容易使用，但很难很好地使用。

“这非常困难。验证输出需要很高的认知负荷，”Martell说。“使用人工智能取代专家，并允许新手取代专家，这就是我认为危险的地方。我认为最有效的地方是帮助专家成为更好的专家，或者帮助那些了解自己工作的人更好地完成他们熟悉的工作。”

在Martell在Hill作证的前一天，他的首席技术官Bill Streilein告诉了波托马克官员俱乐部关于人工智能的年度会议，关于即将到来的成熟度模型的开发和时间表的细节。

Streilein说，自CDAO的利马特别工作组于去年8月启动以来，它一直在评估国防部各组织提交的200多个生成式AI的潜在“用例”。他说，他们发现的是“最有前途的用例是后台的用例，那里需要填写很多表格，需要总结很多文件。”

“另一个真正重要的用例是分析师，”他继续说，因为情报分析师已经是评估不完整和不可靠信息的专家，他们的标准程序中内置了双重检查和验证。

作为该过程的一部分，CDAO前往行业，请求他们帮助评估生成式AI。

Streilein在Potomac官员会议上表示：“我们在秋季发布了RFI（信息请求），并收到了超过35份来自行业的提案，关于如何实例化这种成熟度模型……作为我们2月份研讨会的一部分，我们举行了一整天的工作会议来讨论这种成熟度模型。

“我们将在6月底发布我们的第一个版本，成熟度模型的1.0版本......”他继续说道。但它不会到此结束：“我们确实预计会迭代......这是1.0版本，我们预计随着技术的进步，以及该部门对生成式AI的更熟悉，它将继续发展。”

Streilein说，1.0“将由五个级别的简单标题组成，阐明LLM在多大程度上自主地照顾准确性和完整性，”预览了Martell与立法者讨论的框架。“它将由可以比较模型的数据集组成，它将包括一个过程，通过这个过程，一个人可以利用一定成熟度水平的模型并将其带入他们的工作流程。”

为什么CDAO从所谓的自动驾驶汽车的成熟模型中汲取灵感？强调人类不能对这项技术采取放手、基于信仰的方法。

Streilein说：“作为一个知道如何驾驶汽车的人，如果你知道汽车会让你保持在车道上或避开障碍物，你仍然要对驾驶的其他方面负责，比如离开高速公路去另一条路……这就是我们在LLM成熟度模型中想要的灵感......向人们展示LLM不是一个神谕，它的答案总是必须得到验证。”

Streilein说，他对生成性AI及其潜力感到兴奋，但他希望用户谨慎行事，充分意识到LLM的局限性。

“我认为他们很棒。我也认为它们很危险，因为它们为人工智能提供了非常人性化的界面，”他说。“不是每个人都明白，他们实际上只是一个根据上下文预测单词的算法。”

建议《军事人工智能白皮书》的读者观看该视频和阅读该文字实录，如果需要帮助，可以联系您在数字孪生战场实验室的客户经理。