随着有效“解决”无限德州扑克的扑克人工智能Libratus的发展, 如果来自一个国际团队的新研究能成功破解合作博弈打法的机制,Libratus可以变得更高级。
见证了2017年1月卡耐基梅伦大学的Libratus在德扑人机大战的惊艳表演后,Libratus主要研发人Jacob Crandll和他的团队希望探索博弈论的合作领域。
在和New Atlas讨论这个项目时,Crandall解释说,人工智能必须学会在接受任务时如何与其他人合作,而不只是像Libratus那样打败对手。
合作运算
Crandall及其团队一直在使用一项叫做S#的新算法测试游戏中的合作与妥协(比如“囚徒困境”)的价值。在测试环境中,为了评估游戏环境中的关系,Crandall及其团队将测试电脑与人类的结盟关系:电脑与电脑结盟,人类与人类结盟,电脑与人类结盟。
囚徒困境研究的一个关键动态是,参与者是选择一个符合自身利益的行为,还是选择一个符合团队中其他人利益的行为。因为自利行为可能让自己的结局更糟糕,囚徒困境要解决的问题是:是否为达到总体最好的结果而与其他人结盟。
Crandall告诉New Atlas:“我们的最终目标是,理解AI与人类合作背后的数学,并了解人工智能为了开发社交技能需要哪些属性。”
互惠关系
在试验中,S#不能说谎,而且值入了一种叫做“cheap talk”的算法。当电脑侦测到来自合作者的合作行为时,它将做出积极反馈。相反,诸如“你将因此得到支付”的不诚实话语将遭到蔑视。
人工智能通过这些游戏学到的是与团队协作时道德的价值。确实,当人类不知不觉和S#协作时,作为收到积极信号的直接结果,AI与人类之间的合作行为将增加。
Libratus已经向我们证明,电脑在诸如扑克这样的零和游戏能够战胜人类,而S#有望将扑克AI提高到能够与人类合作的程度。AI的最终发展不仅是比我们思考得深入,而是在特定游戏环境中为达到最佳结果而和我们合作。