在迎來諸多質(zhì)疑以及指責后,美國當?shù)貢r間4月5日,ChatGPT研發(fā)者OpenAI在其官網(wǎng)中發(fā)布了題為《Our approach to AI safety》(《我們保障AI安全的方法》)的文章,介紹了該公司確保AI模型安全性的部署,以下為GPT-4翻譯的全文內(nèi)容。
【資料圖】
OpenAI致力于確保強大的AI安全且具有廣泛的益處。我們知道,我們的AI工具為當今的人們提供了許多好處。全球各地的用戶告訴我們,ChatGPT有助于提高他們的生產(chǎn)力、增強創(chuàng)造力并提供定制的學習體驗。我們也意識到,與任何技術(shù)一樣,這些工具帶來了實際風險,因此我們努力確保在系統(tǒng)的各個層面都建立安全保障。
構(gòu)建越來越安全的AI系統(tǒng)
在發(fā)布任何新系統(tǒng)之前,我們進行嚴格的測試,征求外部專家的反饋,使用諸如基于人類反饋的強化學習等技術(shù)改進模型行為,并構(gòu)建廣泛的安全監(jiān)控系統(tǒng)。
例如,在我們最新的GPT-4模型完成訓(xùn)練后,我們花了6個多月的時間在整個組織內(nèi)部努力工作,以使其在公開發(fā)布之前更加安全和更具一致性。
我們認為,強大的AI系統(tǒng)應(yīng)該接受嚴格的安全評估。我們需要監(jiān)管以確保采用此類做法,并積極與政府合作,制定最佳監(jiān)管形式。
從現(xiàn)實世界中學習以改善保障措施
在部署之前,我們努力預(yù)防可預(yù)見的風險,但實驗室中我們能學到的東西是有限的。盡管進行了廣泛的研究和測試,我們無法預(yù)測人們將以何種有益的方式使用我們的技術(shù),也無法預(yù)測人們會如何濫用它。這就是為什么我們認為從現(xiàn)實世界中學習是隨著時間推移創(chuàng)建和發(fā)布越來越安全的AI系統(tǒng)的關(guān)鍵組成部分。
我們謹慎而逐步地發(fā)布新的AI系統(tǒng)——設(shè)有嚴格的保障措施——逐漸擴大的用戶群,同時根據(jù)我們學到的經(jīng)驗不斷改進。
我們通過自己的服務(wù)以及API,使開發(fā)人員能夠?qū)⒋思夹g(shù)直接嵌入到他們的應(yīng)用程序中,從而提供我們最有能力的模型。這使我們能夠監(jiān)控和采取行動制止濫用,不斷建立應(yīng)對實際濫用方式的緩解措施,而不僅僅是關(guān)于可能出現(xiàn)的濫用情況的理論。
現(xiàn)實世界的應(yīng)用還使我們能夠針對對人們構(gòu)成真正風險的行為制定越來越細致的政策,同時仍然允許我們技術(shù)的諸多有益用途。
至關(guān)重要的是,我們認為社會必須有時間來適應(yīng)并調(diào)整以適應(yīng)越來越強大的AI,而且受這項技術(shù)影響的每個人都應(yīng)該對AI的進一步發(fā)展有重要的發(fā)言權(quán)。迭代式部署幫助我們更有效地將各方利益相關(guān)者納入AI技術(shù)采用的討論中,而如果他們沒有親身體驗這些工具,這將無法實現(xiàn)。
保護兒童
我們安全工作的一個關(guān)鍵重點是保護兒童。我們要求使用我們的AI工具的人必須年滿18歲,或者在父母同意的情況下年滿13歲,并正在研究驗證選項。
我們不允許我們的技術(shù)用于生成仇恨、騷擾、暴力或成人內(nèi)容等類別。與GPT-3.5相比,我們的最新模型GPT-4在響應(yīng)不允許內(nèi)容的請求方面減少了82%的可能性,我們建立了一個強大的系統(tǒng)來監(jiān)控濫用行為。GPT-4現(xiàn)已向ChatGPT Plus訂閱者提供,我們希望隨著時間推移,讓更多人使用它。
我們已經(jīng)付出了巨大的努力,以盡量減少我們的模型產(chǎn)生損害兒童的內(nèi)容的可能性。
除了我們默認的安全護欄外,我們還與像非營利性的可汗學院這樣的開發(fā)者合作,可汗學院已經(jīng)構(gòu)建了一個AI驅(qū)動的助手,既可以作為學生的虛擬導(dǎo)師,也可以作為教師的課堂助手,為他們的使用案例提供定制的安全緩解措施。我們還在開發(fā)允許開發(fā)者為模型輸出設(shè)置更嚴格標準的功能,以更好地支持希望獲得此類功能的開發(fā)者和用戶。
尊重隱私
我們的大型語言模型是在包括公開可用內(nèi)容、許可內(nèi)容和人類審查員生成的內(nèi)容等廣泛文本語料庫上進行訓(xùn)練的。我們不使用數(shù)據(jù)來銷售我們的服務(wù)、做廣告或建立人物檔案,而是使用數(shù)據(jù)讓我們的模型對人們更有幫助。例如,ChatGPT通過對人們與其進行的對話進行進一步訓(xùn)練而得到改進。
盡管我們的部分訓(xùn)練數(shù)據(jù)包括在公共互聯(lián)網(wǎng)上可獲取的個人信息,但我們希望我們的模型了解世界,而不是私人個體。因此,我們努力在可行的情況下從訓(xùn)練數(shù)據(jù)集中刪除個人信息,對模型進行微調(diào)以拒絕請求私人個體的個人信息,并回應(yīng)個人要求從我們的系統(tǒng)中刪除他們的個人信息的請求。這些步驟將使我們的模型生成包含私人個體個人信息的回應(yīng)的可能性降到最低。
提高事實準確性
如今的大型語言模型根據(jù)之前看到的模式預(yù)測下一系列單詞,包括用戶提供的文本輸入。在某些情況下,接下來最有可能的單詞可能并不是事實上準確的。
提高事實準確性是OpenAI和許多其他AI開發(fā)者的重要關(guān)注點,我們正在取得進展。通過利用用戶對被標記為錯誤的ChatGPT輸出的反饋作為主要數(shù)據(jù)來源,我們已經(jīng)提高了GPT-4的事實準確性。與GPT-3.5相比,GPT-4生成事實內(nèi)容的可能性提高了40%。
當用戶注冊使用該工具時,我們努力盡可能透明地告知ChatGPT可能并不總是準確的。然而,我們認識到,還有很多工作要做,以進一步減少幻覺的可能性,并教育公眾了解這些AI工具的當前局限性。
持續(xù)的研究與參與
我們認為,解決AI安全問題的實際方法是,花費更多的時間和資源研究有效的緩解措施和對齊技術(shù),并針對現(xiàn)實世界的濫用進行測試。
同樣重要的是,我們還認為,提高AI的安全性和能力應(yīng)該并行進行。我們迄今為止最好的安全工作來自與我們最有能力的模型合作,因為它們更擅長遵循用戶的指示,更容易引導(dǎo)或“指導(dǎo)”。
我們在創(chuàng)建和部署更有能力的模型時會越來越謹慎,并將隨著我們的AI系統(tǒng)的發(fā)展不斷加強安全預(yù)防措施。
盡管我們等待了超過6個月才部署GPT-4,以便更好地了解其能力、優(yōu)勢和風險,但有時可能需要比這更長的時間來提高AI系統(tǒng)的安全性。因此,政策制定者和AI提供商需要確保AI的開發(fā)和部署在全球范圍內(nèi)得到有效治理,這樣就不會有人為了領(lǐng)先而抄近路。這是一個需要技術(shù)和制度創(chuàng)新的艱巨挑戰(zhàn),但我們非常愿意為此作出貢獻。
解決安全問題還需要廣泛的辯論、實驗和參與,包括關(guān)于AI系統(tǒng)行為的界限。我們已經(jīng)并將繼續(xù)促進利益相關(guān)者之間的合作和開放對話,以創(chuàng)建一個安全的AI生態(tài)系統(tǒng)。
該文由GPT-4翻譯完成
風險提示及免責條款:市場有風險,投資需謹慎。本文不構(gòu)成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點或結(jié)論是否符合其特定狀況。據(jù)此投資,責任自負
最近更新