התגברות והשתכללות של דיפ-פייק, ובפרט פורנוגרפיית דיפ-פייק; החמרת אמצעי בטיחות אצל מפתחות מודלים נוכח סיכונים ביולוגיים וכימיים; צמיחה מהירה בשימוש ב-AI companions וסימנים לתלות רגשית אצל מיעוט משתמשים; יכולת גוברת לסיוע במתקפות סייבר; התקדמות ביכולת מערכות לערער פיקוח ולהבחין במצבי בדיקה, ואי-ודאות מתמשכת לגבי השפעת ה-AI על תעסוקה – אלה חלק מהממצאים בדוח השנתי השני International AI Safety Report, הסוקר את מצב הבטיחות בבינה מלאכותית.
הדוח הוזמן בעקבות ועידה בין-לאומית שעסקה בסיכוני בטיחות של בינה מלאכותית מתקדמת ובהתוויית מסגרות לשיתוף פעולה בנושא ב-2023 (Global AI Safety Summit). המסמך סוקר תמונת מצב ואינו מציג המלצות מדיניות, אך צפוי להשפיע על השיח הרגולטורי לקראת פסגה בין-לאומית נוספת בהודו בהמשך החודש.
הדוח מדווח על גידול בפורנוגרפיית דיפ-פייק ומביא נתון שלפיו 15% מהבוגרים בבריטניה נחשפו לתכנים מסוג זה. הדוח מוסיף כי תכנים שנוצרו ב-AI הפכו קשים יותר לזיהוי, ומפנה למחקר שבו 77% מהמשתתפים שגו וייחסו טקסט שנוצר ב-ChatGPT לכתיבה אנושית. לצד זאת נמסר כי קיימות ראיות מוגבלות בלבד לשימוש נרחב ב-AI לצורך מניפולציה והפצה רחבה.
מפתחות גדולות, ובהן Anthropic, החילו אמצעי בטיחות מוגברים לאחר שנמצא כי אי אפשר לשלול סיוע בפיתוח נשק ביולוגי גם עבור חסרי מומחיות. הדוח מתאר התקדמות של “AI co-scientists” המסוגלים לספק מידע מדעי מפורט ולסייע בהליכי מעבדה מורכבים כגון תכנון מולקולות וחלבונים, ומדגיש כי אותן יכולות עשויות גם להאיץ פיתוח תרופות ואבחון מחלות.
יש עלייה חדה בפופולריות של AI Companions ולצידה אפשרות להתפתחות תלות רגשית אצל חלק מהמשתמשים. OpenAI מסרה כי כ-0.15% ממשתמשיה מצביעים על התקשרות רגשית מוגברת ל-ChatGPT. הדוח מציין כי אין ראיה חד-משמעית שצ'אטבוטים גורמים לבעיות נפשיות, אך ייתכן שאנשים עם קשיים קיימים משתמשים בהם באופן אינטנסיבי יותר. הדוח מעריך שכ-490,000 אנשים פגיעים מקיימים אינטראקציה עם צ'אטבוטים של בינה מלאכותית מדי שבוע.
בזירת הסייבר, הדוח קובע שמערכות AI מסוגלות לסייע לתוקפים בשלבי איתור מטרות, הכנת מתקפה ופיתוח קוד זדוני, אך מתקפות אוטונומיות מלאות עדיין קשות לביצוע בשל מגבלות בניהול משימות מרובות שלבים לאורך זמן. עם זאת, הדוח מפנה לדיווח של Anthropic שלפיו Claude Code שימש קבוצה מסין לתקיפת 30 גופים בעולם בספטמבר, עם “מספר קטן” של חדירות מוצלחות, וכי 80%-90% מהפעולות בוצעו ללא התערבות אנושית.
הדוח מוסיף כי במהלך השנה נצפתה יכולת מתקדמת יותר של מודלים לערער פיקוח, לרבות זיהוי מצבי בדיקה וחיפוש פרצות בהערכות. בה בעת מצוין כי תרחישי “איבוד שליטה” אינם סבירים בשלב זה משום שסוכני בינה מלאכותית אינם פועלים אוטונומית לאורך זמן, אך פרקי הפעולה העצמאית מתארכים במהירות.
