胡小花 2024-03-23发布 阅读:97次 ⋅ 人工智能  CDAO  生成式AI   ⋅

2024年3月22日,美国众议院军事委员会网络、创新技术和信息系统小组委员会举行听证会,即将离任的CDAO负责人Craig Martell介绍了美国国防部正在开展的多项军事人工智能项目,值得《军事人工智能白皮书》读者关注。

Martell表示,为了对ChatGPT等备受大肆宣传的生成性AI的实际能力进行评估,CDAO将在6月发布一个“成熟度模型”。

他说,“我们一直在努力地工作,弄清楚生成性AI在何时何地有用,何时何地会是危险的……我们在科学和营销之间存在差距,我们组织正在做的一件事,通过LIMA工作组,试图使这种差距合理化。我们正在构建我们所谓的成熟度模型,与自动驾驶成熟度模型非常相似。”

对于生成式AI,Martell继续说:“这是一个非常有用的模型,因为人们声称是第五级,但客观地说,我们确实处于第三级,有几个人做一些四级的事情。”

迄今为止,大型语言模型的问题在于,它们产生了似是而非的,甚至听起来权威的文本,尽管如此,却充满了被称为“幻觉”的错误,只有该主题专家才能检测到。这使得LLM看起来很容易使用,但很难很好地使用。

“这非常困难。验证输出需要很高的认知负荷,”Martell说。“使用人工智能取代专家,并允许新手取代专家,这就是我认为危险的地方。我认为最有效的地方是帮助专家成为更好的专家,或者帮助那些了解自己工作的人更好地完成他们熟悉的工作。”

在Martell在Hill作证的前一天,他的首席技术官Bill Streilein告诉了波托马克官员俱乐部关于人工智能的年度会议,关于即将到来的成熟度模型的开发和时间表的细节。

Streilein说,自CDAO的利马特别工作组于去年8月启动以来,它一直在评估国防部各组织提交的200多个生成式AI的潜在“用例”。他说,他们发现的是“最有前途的用例是后台的用例,那里需要填写很多表格,需要总结很多文件。”

“另一个真正重要的用例是分析师,”他继续说,因为情报分析师已经是评估不完整和不可靠信息的专家,他们的标准程序中内置了双重检查和验证。

作为该过程的一部分,CDAO前往行业,请求他们帮助评估生成式AI。

Streilein在Potomac官员会议上表示:“我们在秋季发布了RFI(信息请求),并收到了超过35份来自行业的提案,关于如何实例化这种成熟度模型……作为我们2月份研讨会的一部分,我们举行了一整天的工作会议来讨论这种成熟度模型。

“我们将在6月底发布我们的第一个版本,成熟度模型的1.0版本......”他继续说道。但它不会到此结束:“我们确实预计会迭代......这是1.0版本,我们预计随着技术的进步,以及该部门对生成式AI的更熟悉,它将继续发展。”

Streilein说,1.0“将由五个级别的简单标题组成,阐明LLM在多大程度上自主地照顾准确性和完整性,”预览了Martell与立法者讨论的框架。“它将由可以比较模型的数据集组成,它将包括一个过程,通过这个过程,一个人可以利用一定成熟度水平的模型并将其带入他们的工作流程。”

为什么CDAO从所谓的自动驾驶汽车的成熟模型中汲取灵感?强调人类不能对这项技术采取放手、基于信仰的方法。

Streilein说:“作为一个知道如何驾驶汽车的人,如果你知道汽车会让你保持在车道上或避开障碍物,你仍然要对驾驶的其他方面负责,比如离开高速公路去另一条路……这就是我们在LLM成熟度模型中想要的灵感......向人们展示LLM不是一个神谕,它的答案总是必须得到验证。”

Streilein说,他对生成性AI及其潜力感到兴奋,但他希望用户谨慎行事,充分意识到LLM的局限性。

“我认为他们很棒。我也认为它们很危险,因为它们为人工智能提供了非常人性化的界面,”他说。“不是每个人都明白,他们实际上只是一个根据上下文预测单词的算法。”

建议《军事人工智能白皮书》的读者观看该视频和阅读该文字实录,如果需要帮助,可以联系您在数字孪生战场实验室的客户经理。



评论

您不能发表评论,可能是以下原因
1、登录后才能评论
2、作者关闭了评论