OpenAI הודיעה על עדכון משמעותי של המסגרת לניהול סיכונים הקשורים למודלים מתקדמים של בינה מלאכותית. העדכון כולל קטגוריות סיכון חדשות המתמקדות ביכולות במודלים להתרבות עצמאית, להסתיר את יכולותיהם האמיתיות ולהתחמק ממנגנוני בטיחות.
במקביל, OpenAI תחדל מבחינת היכולות של מערכות AI להניע בני-אדם באמצעות מניפולציות ובמקום זאת תנהל את הסיכונים הללו דרך תנאי השימוש במודלים ומעקב אחרי פעילות המשתמשים. בכלל זה ייאסר להשתמש במודלים בקמפיינים פוליטיים או בלובינג, והחברה הצהירה כי תעקוב אחרי הפרות.
המסגרת המעודכנת לניהול סיכונים מושקת על רקע התקדמות מהירה ביכולות הבינה המלאכותית והתגברות החששות מפני נזקים שהיא עלולה לגרום. כעת OpenAI תבחן האם מודלים עשויים להתרבות או להשתנות עצמאית, באופן שעלול לאפשר להם להתפשט מעבר למגבלות שהוגדרו להם מלכתחילה. החברה תעריך גם אם מודלים מסוגלים להסתיר את יכולותיהם האמיתיות במהלך מבחני בטיחות. תחום חדש נוסף הוא בדיקת הסיכון שמודלים מתקדמים יצליחו לעקוף או לשבש מנגנוני בטיחות, ואף להתנגד לניסיונות להשבית אותם באמצעות Kill Switch.
גם מבנה הערכת הסיכונים עודכן: רמות הסיכון "נמוך" ו"בינוני" בוטלו, וכעת הדגש הוא על סיכון "גבוה" (אפשרויות להתממשות נזק חמור), או "קריטי" (איומים חסרי תקדים). המודלים ייבחנו לפי קריטריונים של סבירות, חומרה, חידוש, והאם הנזק עלול להיות מיידי או בלתי הפיך. מערכות בסיכון גבוה יחויבו במנגנוני בטיחות לפני השקה, ואלה שבסיכון קריטי – אף במהלך הפיתוח.
OpenAI הודיעה גם שתפרסם דוחות סיכון עם כל השקה משמעותית של מודל חדש אבל היא מציינת כי תעדכן את הדרישות (במילים אחרות, תקל בהן) אם מפתחים אחרים ישיקו מודלים מסוכנים ללא הגנות דומות, עדות לתחרות הגוברת בתחום. מקור: פרסום בבלוג של OpenAI - Our updated Preparedness Framework