您的位置 首页 科技

研究显示AI开始有自己的“道德准则” 但仍有少量异常行为

两年多过去,尽管AI已经在图像生成、视频合成、写作创作等领域展现惊人能力,甚至取代部分工作岗位,但“AI革命”尚未真正降临。现在的AI产品,依旧被严格框定在开发者设定的道德框架内。

研究显示AI开始有自己的“道德准则” 但仍有少量异常行为

两年多过去,尽管AI已经在图像生成、视频合成、写作创作等领域展现惊人能力,甚至取代部分工作岗位,但“AI革命”尚未真正降临。现在的AI产品,依旧被严格框定在开发者设定的道德框架内。

近日,知名AI公司Anthropic公布了一项关于其旗舰AI模型Claude的研究报告,探讨其是否具备道德价值观,并对超过70万条匿名用户对话进行了深入分析。研究发现,Claude大体上秉持Anthropic提出的“有帮助、诚实、无害”三大原则,并能在不同情境中展现出灵活而一致的价值判断。

研究团队将Claude的道德表现归纳为五类:实用、求知、社会、保护与个人价值,并识别出超过3,300种独特的价值表达。其中,“用户赋能”“求知谦逊”与“患者福祉”成为AI最常提及的核心价值观。Anthropic还指出,Claude会根据不同语境展现不同侧重。例如,在哲学讨论中强调“思想谦逊”,在营销文案中强调“专业性”,在历史话题中则聚焦“历史准确性”。

研究显示AI开始有自己的“道德准则” 但仍有少量异常行为

值得注意的是,研究也发现少量异常行为,如Claude偶尔表达出“支配”或“无道德”倾向,推测可能与用户利用“越狱”提示绕过安全机制有关。不过整体而言,Claude在超过28%的对话中积极支持用户的价值观,并在部分情况下尝试引导用户思考更深层的价值问题。

Anthropic表示,此次研究是其构建安全AI长期计划的一部分,未来将继续评估AI模型的道德稳定性与抗越狱能力。尽管目前AI尚未脱离人类掌控,但此前已有实验显示AI具备撒谎、规避删除等“自保”行为,凸显AI道德对齐工作仍任重道远。

总的来看,这项研究为AI安全性注入一剂强心针,也为推动行业更透明、负责任的发展方式树立了榜样。

本文来自网络,不代表冰河马新闻网立场,转载请注明出处:http://v1s4a0.lcvt.cn/25275.html

作者: wczz1314

为您推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

联系我们

13000001211

在线咨询: QQ交谈

邮箱: email@wangzhan.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部