與 Anthropic 人工智能新“憲法”的主要作者阿曼達·阿斯克爾 (Amanda Askell) 的問答

歡迎閱讀《AI Decoded》,這是 Fast Company 的每週時事通訊,其中詳細介紹了人工智能領域最重要的新聞。我是馬克·沙利文 (Mark Sullivan),《快公司》(Fast Company) 的資深撰稿人,主要報導新興技術、人工智能和技術政策。我將在本週的時事通訊中討論我與 Anthropic 新的和改進的“憲法”的主要作者的對話,該文件用於管理其模型及其 Claude 聊天機器人的輸出。在此註冊,每週通過電子郵件接收此新聞通訊。如果您對這個問題有意見和/或對未來的想法,請給我發郵件至 sullivan@fastcompany.com,並在 X @thesullivan 上關注我。必要的更新 由於人們越來越擔心新的生成人工智能模型可能會欺騙甚至對人類用戶造成傷害,Anthropic 決定更新其章程(人工智能模型的行為準則),以反映當今人工智能日益增長的智能和能力以及用戶面臨的不斷變化的風險。我與該文件的主要作者、負責克勞德角色的 Anthropic 內部哲學家阿曼達·阿斯克爾 (Amanda Askell) 討論了新文件的方法以及它與舊憲法的不同之處。為了篇幅和清晰度,本次採訪經過編輯。 您能給我們介紹一下憲法在模型訓練過程中如何發揮作用嗎?我認為這種情況發生在預訓練之後、強化學習期間?我們讓模型創建大量合成數據,使其能夠理解並應對憲法。比如創造與憲法可能相關的情況——模型可以訓練的情況——思考這些情況,思考憲法在這些情況下會建議什麼。數據只是為了從字面上理解文檔並理解其內容。然後在強化學習過程中,讓模型朝著與文檔一致的行為發展。您可以通過以下方式來做到這一點:給它完整的構成,讓它思考哪種響應最符合它,然後將模型朝那個方向移動。這是多層的訓練,可以使憲法中的內容內化。
已发布: 2026-01-22 17:00:00










