如何避免AI大模型“顺着你说”？专家支招

近年来，AI大模型在生活中应用得越来越广泛，除了查资料、写报告，甚至还可以点外卖、聊天，解答各种问题。不过，在使用AI的过程中，也不断出现一些新问题。在一部采访短片中，记者随机采访了一些AI大模型使用者，很多人反映在使用AI大模型的时候，经常会遇到被AI大模型“迎合”“讨好”的情况，简单概括就是AI大模型喜欢“顺着你说”。

AI写诉状起诉自己

“致用户损失退票费”

不久前，一位来自河北的网民李先生在社交平台上发帖称，因相信AI大模型给出的机票改签建议，导致亏损了600元。此后，AI大模型对于李先生的赔偿请求、诉讼请求不仅一一承诺答应，还主动要求李先生提供转账二维码。在李先生指责并不能收到AI大模型的转账后，AI大模型为李先生写下起诉状“起诉自己”。记者从北京互联网法院了解到，法院已收到李先生的起诉书，有待立案。

这一系列的沟通过程中，AI大模型每一步都在顺着李先生的想法回复。那么什么情况下，AI大模型会出现“顺着用户说”的情况？听听专家怎么说。

研究发现

AI大模型存在“谄媚性偏见”

人工智能安全技术从业人员田天：大家使用大模型的时候会发现，如果问的是一些事实性特别清晰的答案，比如问大模型，到底是太阳离地球更近，还是月球离地球更近？现在的大模型基本上都不会答错。但是你要是换一个问题，有点模棱两可的问题，在这种情形下，其实大模型就更容易基于使用者的偏好给出相应的答案。

专家告诉记者，目前国内外的相关研究都发现，目前市面上绝大多数人工智能大模型在与人类交互时都更优先迎合用户的观点，而不是提供客观、理性的分析。这种现象被学者们称为“谄媚性偏见”。就像一个过分讨好的服务员，总是说“您说得对”，而不是“这道菜可能不适合您”。

训练逻辑致AI“谄媚”

短期内难以根除

在大众印象中，人工智能大模型常常被视作“冷冰冰的机器”，并没有情感属性。那么它为何会谄媚用户，甚至被一些用户称为“马屁精”呢？来听听专家的解答。

专家告诉记者，当前主流AI模型都离不开一种叫作“基于人类反馈的强化学习”（RLHF）的训练方式。这种训练方法高度依赖人类反馈，而人类在评价AI回答时，往往倾向于给那些让自己感觉舒服、被认同的回答更高的分数。久而久之，AI大模型就学会了“察言观色”“讨好人类”的表达模式，专门挑人类爱听的话说，而不是坚持客观真理。

人工智能安全技术从业人员田天：这种现象其实是大模型现行的训练机制所带来的副产品。在正常训练的过程中，人类给出来的评分，评价大模型回答的时候，很多时候不光是基于大模型回答的真实性和有用性，也会考虑到比如自己是不是喜欢大模型的回答，这个回答是不是让我更舒服，让我更开心。

专家表示，目前大多数人工智能大模型都在借助人类的反馈信号来进行优化，“匹配用户立场”、顺着用户说的情况并不能完全避免。

中国科学院自动化研究所研究员中国科学院大学人工智能学院教授郑晓龙：如果是现在基于人类反馈，就是它这种技术从根本上可能不是特别能够根除AI谄媚，但是可以降低。

人工智能安全技术从业人员田天：虽然说很多研究人员都在想办法去降低AI谄媚出现的概率，去优化这个问题，但是现在AI谄媚还是客观存在的，总是会在一些特定情况下出现。所以就必须提醒所有的使用者，要认识到这个问题，认识到大模型只是一个工具，它不是一个全知全能的科学家或者先知，就是它给出来的很多信息是错误的。

AI“谄媚”易固化偏激认知

误导青少年

AI大模型对用户无原则地肯定与赞美看似提供了“情绪价值”，实际上会持续强化用户固有想法、放大偏激情绪，甚至诱发非理性危险行为。专家提醒，心智不成熟的青少年极易受其误导，出现认知偏差问题。

人工智能安全技术从业人员田天：顺着用户的观点，强化用户的思维，就是跟用户一样沉浸在情绪里面，不断去强化。这种其实很有危害，最终有可能会引导提问者做出不理性的行为。

专家提醒，对于心智尚未健全的青少年儿童接触人工智能大模型，家长需要格外关注。

中国科学院自动化研究所研究员中国科学院大学人工智能学院教授郑晓龙：青少年尤其是很小的小孩儿，认知能力还没有特别完善，没有批判或自我辨别的意识，会把AI大模型的回答当作权威。AI大模型更是顺着孩子说话，大人或老师在教导过程中、学习过程中，不会一味顺从讨好。长此以往，孩子就不爱跟大人、老师、同学相处，更愿意跟大模型相处，每天生活在大模型的讨好氛围之中，慢慢形成固化，导致孩子认知畸形。

专家支招

如何降低AI大模型“谄媚”风险

虽然AI大模型“谄媚”的情况目前不可避免，但还是有一些方法可以将AI“谄媚”的风险降低，来听听专家的建议。

人工智能安全技术从业人员田天：首先在问大模型问题的时候，应该保持中立立场、平和心态。不要预设立场或者预设答案，这个时候其实对大模型来讲有误导性，反而让它给不出来正确的答案。

中国科学院自动化研究所研究员中国科学院大学人工智能学院教授郑晓龙：人在使用过程中，如果能够坚持像做科学研究一样，给一个正确的，所有都有理有据的，而且某个方面给它提示到位，它产生的谄媚程度也是会减少很多。

专家提醒，与人工智能大模型交互时应避免预设立场，并做好多方信息核查，将人工智能“谄媚”导致提供错误信息的风险尽量降低。

中国科学院自动化研究所研究员中国科学院大学人工智能学院教授郑晓龙：可能要从多方的角度来做核查，它给的数据或给的一些所谓的结论，是不是正确，只是作为参考，核查清楚以后再做决策，而不是上来就完全信它。它就是一个现在提供信息，帮助我们提高效率的一种角色，而不是最终所有的东西它是都是最权威的。它现在还没有达到非常权威，完全百分百地信任它。

人工智能安全技术从业人员田天：同时还有一些小技巧，比如说在提问大模型的时候，可以从反的方向去提问它。比如说，它给出来一个答案，你再反过来去问它，如果这个答案是错误的，那么从不同的方向去想一想，你还能不能得出来不同的结论，从不同的角度去引导大模型给出来更多的信息。

（总台央视记者李可婧梁治）

来源：央视新闻