研究显示AI开始有自己的“道德准则” 但仍有少量异常行为

两年多过去，尽管AI已经在图像生成、视频合成、写作创作等领域展现惊人能力，甚至取代部分工作岗位，但“AI革命”尚未真正降临。现在的AI产品，依旧被严格框定在开发者设定的道德框架内。

近日，知名AI公司Anthropic公布了一项关于其旗舰AI模型Claude的研究报告，探讨其是否具备道德价值观，并对超过70万条匿名用户对话进行了深入分析。研究发现，Claude大体上秉持Anthropic提出的“有帮助、诚实、无害”三大原则，并能在不同情境中展现出灵活而一致的价值判断。

研究团队将Claude的道德表现归纳为五类：实用、求知、社会、保护与个人价值，并识别出超过3,300种独特的价值表达。其中，“用户赋能”“求知谦逊”与“患者福祉”成为AI最常提及的核心价值观。Anthropic还指出，Claude会根据不同语境展现不同侧重。例如，在哲学讨论中强调“思想谦逊”，在营销文案中强调“专业性”，在历史话题中则聚焦“历史准确性”。

研究显示AI开始有自己的“道德准则” 但仍有少量异常行为