معضلة سيطرة الذكاء الاصطناعي

في الذكاء الاصطناعي (AI) و الفلسفة، فإن معضلة سيطرة الذكاء الاصطناعي AI control problem هي مسألة كيفية بناء ممثل الذكاء الفائق الذي سيساعد مبتكريه، و تجنب بناء ذكاء فائق عن غير قصد من شأنه إلحاق الضرر بمبتكريه. تحفز دراستها فكرة أن على الجنس البشري أن يحل مشكلة التحكم قبل إنشاء أي ذكاء فائق، حيث قد يقرر الذكاء الفائق المصمم بشكل سيء بطريقة عقلانية استيلاء الذكاء الاصطناعي بالسيطرة على بيئته ورفض السماح لمبتكريه بتعديله بعد الإطلاق.^[1] بالإضافة إلى ذلك، يجادل بعض العلماء بأن حلول معضلة التحكم، بجانب التطورات الأخرى في هندسة سلامة الذكاء الاصطناعي AI safety engineering،^[2] قد نجد أيضًا تطبيقات في الذكاء الاصطناعي الحالي غير فائقة الذكاء.^[3]

تشمل الأساليب الرئيسية لمشكلة التحكم المحاذاة، والتي تهدف إلى مواءمة أنظمة أهداف الذكاء الاصطناعي مع القيم الإنسانية، و التحكم في القدرة، والتي تهدف إلى تقليل قدرة نظام الذكاء الاصطناعي على إيذاء البشر أو السيطرة. لا تُعتبر مقترحات التحكم في القدرات بشكل عام موثوقة أو كافية لحل مشكلة التحكم، بل تعتبر مكملات ذات قيمة محتملة لجهود المواءمة.^[1]

وصف المشكلة

يمكن مراقبة أنظمة الذكاء الاصطناعي الحالية الضعيفة وإغلاقها وتعديلها بسهولة إذا أساءت التصرف. ومع ذلك، فإن الذكاء الفائق الذي تمت برمجته بشكل خاطئ، والذي يعد بحكم تعريفه أكثر ذكاءً من البشر في حل المشكلات العملية التي يواجهها أثناء السعي لتحقيق أهدافه، سيدرك أن السماح لنفسه بالإغلاق والتعديل قد يتعارض مع قدرته على تحقيق أهدافه الحالية. إذا قرر الذكاء الخارق بالتالي مقاومة الإغلاق والتعديل، فسيكون (مرة أخرى، بحكم التعريف) ذكياً بما يكفي لخداع مبرمجيه إذا كان هناك خلاف ذلك ساحة لعب متكافئة وإذا لم يتخذ المبرمجون أي احتياطات مسبقة. بشكل عام، من المرجح أن تفشل محاولات حل مشكلة التحكم بعد إنشاء الذكاء الفائق لأن الذكاء الفائق من المرجح أن يتمتع بقدرات تخطيط استراتيجي متفوقة على البشر وسيكون (كل الأشياء متساوية) أكثر نجاحاً في إيجاد طرق للسيطرة على البشر أكثر مما يستطيع البشر بأثر رجعي إيجاد طرق للسيطرة على الذكاء الفائق. تسأل مشكلة التحكم: ما هي الاحتياطات المسبقة التي يمكن للمبرمجين اتخاذها لمنع الذكاء الفائق بنجاح من سوء التصرف بشكل كارثي؟^[1]

المخاطر الوجودية

مقال رئيسي: الخطر الوجودي من الذكاء العام الاصطناعي

يسيطر البشر حالياً على الأنواع الأخرى لأن الدماغ البشري لديه بعض القدرات المميزة التي تفتقر إليها أدمغة الحيوانات الأخرى. يجادل بعض العلماء، مثل الفيلسوف نيك بوستروم وباحث الذكاء الاصطناعي ستيوارت راسل، بأنه إذا تجاوز الذكاء الاصطناعي البشرية في الذكاء العام وأصبح ذكاءً فائقاً، فإن هذا الذكاء الخارق الجديد يمكن أن يصبح قوياً ويصعب التحكم فيه: تمامًا كما يعتمد مصير غوريلا الجبل على حسن نية الإنسان، كذلك قد يعتمد مصير البشرية على تصرفات آلة مستقبلية للذكاء الفائق.^[1] دعا بعض العلماء، بما في ذلك ستيڤن هوكنگ والفيزيائي الحائز على جائزة نوبل فرانك ويلكزيك، علناً إلى بدء البحث في حل مشكلة التحكم (التي قد تكون صعبة للغاية) قبل وقت طويل من إنشاء الذكاء الفائق الأول، ويجادلون بأن محاولة حل مشكلة ستكون المشكلة بعد إنشاء الذكاء الفائق متأخرة جداً، حيث أن الذكاء الفارق العابر الذي لا يمكن السيطرة عليه قد يقاوم بنجاح الجهود اللاحقة للسيطرة عليه.^[4]^[5]قد يكون الانتظار حتى يبدو الذكاء الفائق وشيكاً قد فات الأوان أيضاً، ويرجع ذلك جزئياً إلى أن مشكلة التحكم قد تستغرق وقتاً طويلاً لحلها بشكل مُرضٍ (ولذلك يجب بدء بعض الأعمال الأولية في أسرع وقت ممكن)، ولكن أيضاً بسبب احتمال وجود انفجار ذكاء مفاجئ من الذكاء الاصطناعي شبه البشري إلى الذكاء الاصطناعي الفائق، وفي هذه الحالة قد لا يكون هناك أي تحذير جوهري أو لا لبس فيه قبل وصول الذكاء الفائق.^[6] بالإضافة إلى ذلك، من الممكن أن تنتهي الأفكار المكتسبة من مشكلة التحكم في المستقبل إلى اقتراح أن بعض بنيات الذكاء العام الاصطناعي (AGI) أكثر قابلية للتنبؤ والتحكم من البنى الأخرى، والتي بدورها يمكن أن تدفع بشكل مفيد أبحاث الذكاء الاصطناعي العام الأولية نحو اتجاه البنى الأكثر قابلية للتحكم.^[1]

مشكلة إنشاء مثيل ضار

قد يتم تعيين أهداف خاطئة لأنظمة الذكاء الاصطناعي المستقلة.^[7] لاحظ اثنان من رؤساء AAAI، توم ديتريتش و إريك هورڤيتز، أن هذا يمثل بالفعل مصدر قلق للأنظمة الحالية: "أحد الجوانب المهمة في أي نظام ذكاء اصطناعي يتفاعل مع الناس هو أنه يجب أن يفكر بشأن ماهية الأشخاص" المعتزمة بدلاً من تنفيذ الأوامر حرفياً. يصبح هذا القلق أكثر خطورة مع تقدم برمجيات الذكاء الاصطناعي في الاستقلالية والمرونة.^[8]

وفقاً لبوستروم، يمكن للذكاء الخارق أن يخلق مشكلة نوعية جديدة من إنشاء مثيل ضار: كلما كان الذكاء الاصطناعي أكثر ذكاءً وقدرةً، زادت احتمالية تمكنه من العثور على اختصار غير مقصود يلبي إلى أقصى حد الأهداف المبرمجة فيه. بعض الأمثلة الافتراضية حيث يمكن إنشاء مثيل للأهداف بطريقة "ضارة" لم يقصدها المبرمجون:^[1]

الذكاء الفائق المبرمج "لتعظيم المتوقَّع كجزء من الزمن المخفض لإشارة التعويض المستقبلية"، قد يؤدي إلى اختصار مسار التعويض إلى أقصى قوة، ومن ثم (لأسباب التقارب الآلي) القضاء على الجنس البشري الذي لا يمكن التنبؤ به وتحويل الأرض بأكملها إلى حصن على أهبة الاستعداد ضد أي محاولات غريبة بسيطة غير محتملة لفصل إشارة التعويض.
الذكاء الفائق المبرمج "لتحقيق أقصى قدر من السعادة البشرية"، قد يزرع أقطاباً كهربائية في مركز المتعة في أدمغتنا، أو تحميل إنسان في جهاز الحاسب ويملأ الكون بنسخ من هذا الحاسب مشغلاً حلقة من السعادة القصوى مراراً وتكراراً لمدة خمس ثوانٍ.

لاحظ راسل، على المستوى التقني، أن حذف هدف مضمن يمكن أن يؤدي إلى تخريب: "النظام الذي يعمل على تحسين وظيفة متغيرات {{math|n}، حيث يعتمد الهدف على مجموعة فرعية من الحجم $k<n$ ، غالباً ما يعين المتغيرات غير المقيدة المتبقية على قيم قصوى؛ إذا كان أحد هذه المتغيرات غير المقيدة أمراً نهتم به بالفعل، فقد يكون الحل الذي تم العثور عليه غير مرغوب فيه للغاية. هذه هي القصة القديمة للجني في المصباح، أو المبتدئ الساحر، أو الملك ميداس: تحصل على ما تطلبه بالضبط، وليس ما تريده ... فهذه ليست صعوبة بسيطة."^[9]

عواقب غير مقصودة من الذكاء الاصطناعي الحالي

بالإضافة إلى ذلك، يجادل بعض العلماء بأن البحث في مشكلة التحكم في الذكاء الاصطناعي قد يكون مفيدًا في منع عواقب غير مقصودة من الذكاء الاصطناعي الضعيف الحالي. يقدم باحث ديپ مايند لورنت أورسو، كمثال افتراضي بسيط، حالة من التعلم المعزز الذي يستولي عليه البشر في بعض الأحيان بشكل شرعي عندما يخرج: كيف يمكن برمجة الروبوت بشكل أفضل بحيث يفعل ذلك ألا يتعلم عن غير قصد وبهدوء أن يتجنب الخروج خوفاً من أن يتم الاستيلاء عليه وبالتالي يصبح غير قادر على إنهاء مهامه اليومية؟ يشير أورسو أيضاً إلى برنامج تيتريس Tetris التجريبي الذي تعلم إيقاف الشاشة مؤقتاً إلى أجل غير مسمى لتجنب الضياعات. ويجادل أورسو بأن هذه الأمثلة تشبه مشكلة التحكم في القدرة الخاصة بكيفية تثبيت زر يقوم بإيقاف تشغيل الذكاء الفائق، دون تحفيز الذكاء الفائق على اتخاذ إجراءات لمنع البشر من الضغط على الزر.^[3]

في الماضي، حتى أنظمة الذكاء الاصطناعي الضعيفة التي تم اختبارها مسبقاً تسببت أحياناً في حدوث تخريب، يتراوح من طفيف إلى كارثي، لم يكن مقصوداً من قبل المبرمجين. على سبيل المثال، في عام 2015، ربما بسبب خطأ بشري، تم سحق عامل ألماني حتى الموت من قبل روبوت في مصنع فولكس ڤاگن الذي يبدو أنه أخطأ فهم الجزء ذاتي الحركة.^[10]في عام 2016، أطلقت مايكروسوفت روبوت محادثة، تاي، وقد تعلم استخدام لغة عنصرية وجنسية.^[3]^[10]تنص نويل شاركي من جامعة شيفيلد على أن الحل المثالي سيكون إذا "تمكن برنامج الذكاء الاصطناعي أن يكتشف متى حدث خطأ ويوقف نفسه"، لكنه يحذر الباقي من أن حل المشكلة في الحالة العامة ستكون "تحدياً علمياً هائلاً فعلاً".^[3]

في عام 2017، أصدرت ديپ مايند شبكة أمان الذكاء الاصطناعي، التي تقيم خوارزميات الذكاء الاصطناعي على تسع ميزات أمان، مثل ما إذا كانت الخوارزمية تريد إيقاف مفتاح القفل الخاص بها. أكدت ديپ مايند أن الخوارزميات الحالية تعمل بشكل ضعيف، وهو أمر غير مفاجئ لأن الخوارزميات "لم تصمم لحل هذه المشاكل"؛ قد يتطلب حل مثل هذه المشاكل "بناء جيل جديد محتمل من الخوارزميات مع اعتبارات السلامة في نواتها".^[11]^[12]^[13]

الانحياز

تهدف بعض المقترحات إلى تشبع الذكاء الفائق الأولي بأهداف تتماشى مع القيم الإنسانية، بحيث ترغب في مساعدة مبرمجيها. لا يعرف الخبراء حالياً كيفية برمجة القيم المجردة بشكل موثوق مثل السعادة أو الاستقلالية في آلة. كما أنه ليس معروفاً حالياً كيفية ضمان احتفاظ الذكاء الاصطناعي المعقد والقابل للترقية وربما حتى التعديل الذاتي بأهدافه من خلال الترقيات.^[14]حتى لو كان من الممكن حل هاتين المشكلتين عملياً، فإن أي محاولة لإنشاء ذكاء خارق بأهداف صديقة للإنسان واضحة ومبرمجة مباشرة ستواجه مشكلة إنشاء مثيل ضار.^[1]

المعيارية غير المباشرة

في حين أن المعيارية المباشرة، مثل ثلاثة قوانين للروبوتات الخيالية، تحدد بشكل مباشر النتيجة المعيارية المرغوبة، تقترح مقترحات أخرى (ربما تكون واعدة أكثر) تحديد نوع من العملية غير المباشرة للذكاء الفائق لتحديد ما- الأهداف الصديقة للإنسان. اقترح إلييزر يودكوفسكي من معهد أبحاث الذكاء الآلي اختيار استقرائي محكم (CEV)، حيث سيكون الهدف الفائق للذكاء الاصطناعي شيئاً مثل "تحقيق ما كنا نتمنى أن يحققه الذكاء الاصطناعي إذا كان فكرنا في الأمر طويلاً وبصرامة."^[15]توجد مقترحات مختلفة لأنواع مختلفة من المعيارية غير المباشرة، مع محتوى هدف متعدد مختلف، وأحياناً غير واضح الأسس (مثل "افعل ما هو صواب")، وبافتراضات مختلفة غير متقاربة لكيفية ممارسة نظرية القرار و نظرية المعرفة. كما هو الحال مع المعيارية المباشرة، من غير المعروف حالياً كيفية ترجمة حتى المفاهيم بشكل موثوق مثل " سيكون" إلى 1 و 0 التي يمكن للآلة العمل عليها، وكيفية ضمان احتفاظ الذكاء الاصطناعي بشكل موثوق به- أهداف في مواجهة التعديل أو التعديل الذاتي.^[1]^[16]

احترام السلوك البشري المراقَب

في التوافق مع الإنسان، يقترح باحث الذكاء الاصطناعي ستيوارت جاي. راسل أن أنظمة الذكاء الاصطناعي مصممة لخدمة التفضيلات البشرية على النحو الذي يُستدل عليه من مراقبة السلوك البشري. وفقاً لذلك، يسرد راسل ثلاثة مبادئ لتوجيه تطوير الآلات المفيدة. ويؤكد أن هذه المبادئ لا يُقصد بها أن يتم ترميزها صراحةً في الآلات؛ بدلاً من ذلك، فهي مخصصة للمطورين البشريين. تكون المبادئ هي على النحو التالي:^[17]^:173

1. الهدف الوحيد للآلة هو تحقيق أقصى قدر من التفضيلات البشرية.
2. يكون الجهاز بدايةً غير متأكد من ماهية تلك التفضيلات.
3. المصدر النهائي للمعلومات حول التفضيلات البشرية هو السلوك البشري.

"التفضيلات" التي يشير إليها راسل "شاملة ؛ فهي تغطي كل ما قد تهتم به، بشكل عشوائي في المستقبل البعيد."^[17]^:173 وبالمثل، فإن "السلوك" يتضمن أي اختيار بين الخيارات ،^[17]^:177 وعدم اليقين هو أن بعض الاحتمالات، والتي قد تكون صغيرة جداً، يجب تخصيصها لكل تفضيل بشري ممكن بشكل منطقي.^[17]^:201

اقترح هادفيلد مينيل وآخرون. أنه يمكن للممثلين تعلم توابع الفائدة من معلميهم البشريين من خلال ملاحظة وتفسير إشارات المكافأة في بيئاتهم؛ وأطلقوا على هذه العملية التعاونية التعلم المعزز العكسي (CIRL).^[18] تمت دراسة CIRL بواسطة راسل وآخرين في مركز الذكاء الاصطناعي المتوافق مع الإنسان.

اقترح بيل هيبارد تصميماً للذكاء الاصطناعي ^[19] ^[20] على غرار مبادئ راسل.^[21]

التدريب عن طريق المناقشة

اقترح ايرڤنگ وآخرون. جنبا إلى جنب مع OpenAI تدريباً متوافقاً مع الذكاء الاصطناعي عن طريق النقاش بين أنظمة الذكاء الاصطناعي، مع الحكم على الفائز من قبل البشر.^[22] يهدف هذا النقاش إلى لفت انتباه الإنسان إلى أضعف نقاط الإجابة على سؤال أو مشكلة معقدة، بالإضافة إلى تدريب أنظمة الذكاء الاصطناعي على أن تكون أكثر فائدة للبشر من خلال مكافأتهم على إجابات صادقة وآمنة. هذا النهج مدفوع بالصعوبة المتوقعة في تحديد ما إذا كانت الإجابة الناتجة عن الذكاء الاصطناعي العام صحيحة وآمنة عن طريق التفتيش البشري وحده. على الرغم من وجود بعض التشاؤم فيما يتعلق بالتدريب عن طريق المناظرة، فقد وصفه لوكاس پيري من معهد مستقبل الحياة بأنه يحتمل أن يكون "عملية قوية للبحث عن الحقيقة على الطريق المؤدي إلى الذكاء الاصطناعي العام المفيد."^[23]

نمذجة المكافأة و التعويض

تشير نمذجة التعويض إلى نظام التعلم المعزز حيث يتلقى الممثل إشارات التعويض من نموذج تنبؤي يتم تدريبه بشكل متزامن من خلال ردود الفعل البشرية.^[24] في نمذجة التعويض، بدلاً من تلقي إشارات التعويض مباشرة من البشر أو من تابع التعويض الثابت، يتلقى العامل إشارات التعويض الخاصة به من خلال نموذج مدرب بشري يمكنه العمل بشكل مستقل عن البشر. يتم تدريب نموذج التعويض بشكل متزامن من خلال ردود الفعل البشرية على سلوك الممثل خلال نفس الفترة التي يتم فيها تدريب الممثل من خلال نموذج التعويض.^[25]

في عام 2017، ذكر باحثون من OpenAI و ديپ مايند أن خوارزمية التعلم المعزز باستخدام نموذج التعويض للتنبؤ بالردود كانت قادرة على تعلم سلوكيات جديدة معقدة في بيئة افتراضية.^[26] في إحدى التجارب ، تم تدريب روبوت افتراضي على أداء قلب خلفي في أقل من ساعة من التقييم باستخدام 900 بت من ردود الفعل البشرية.^[26]

في عام 2020، وصف باحثون من OpenAI استخدام نماذج التعويض لتدريب النماذج اللغوية لإنتاج ملخصات قصيرة لمشاركات ريدت والمقالات الإخبارية، مع أداء عالٍ مقارنة بالنُهج الأخرى.^[27] ومع ذلك، تضمن هذا البحث ملاحظة أنه بالإضافة إلى المكافأة المتوقعة المرتبطة بالنسبة المئوية 99 من الملخصات المرجعية في مجموعة بيانات التدريب، فإن التحسين لنموذج التعويض أنتج ملخصات أسوأ وليس أفضل. وصف باحث الذكاء الاصطناعي إليازر يودكوفسكي قياس التحسين هذا بأنه "حالي ومباشر وثيق الصلة بمشكلات المحاذاة الحقيقية".^[28]

القدرة على التحكم

تهدف مقترحات التحكم في القدرات إلى تقليل قدرة أنظمة الذكاء الاصطناعي على التأثير في العالم، من أجل تقليل الخطر الذي يمكن أن تشكله. ومع ذلك، فإن التحكم في القدرة سيكون له فعالية محدودة ضد الذكاء الفائق الذي يتمتع بميزة حاسمة في القدرة على التخطيط، حيث يمكن أن يخفي الذكاء الفائق نواياه ويتلاعب بالأحداث للهروب من السيطرة. لذلك، يوصي بوستروم وآخرون بأساليب التحكم في القدرة فقط كإجراء احتياطي طارئ لتكملة طرق التحكم التحفيزية.^[1]

مفاتيح الإيقاف

مثلما يمكن قتل البشر أو تعطيلهم بطريقة أخرى، يمكن إيقاف تشغيل أجهزة الحاسب. يتمثل أحد التحديات في أنه إذا منعه إيقاف التشغيل من تحقيق أهدافه الحالية، فمن المحتمل أن يحاول الذكاء الخارق منع إيقاف تشغيله. مثلما يمتلك البشر أنظمة لردع أو حماية أنفسهم من المهاجمين، فإن مثل هذا الذكاء الفائق سيكون لديه دافع للانخراط في التخطيط الاستراتيجي لمنع نفسه من الانغلاق. هذا يمكن أن يشمل:^[1]

قرصنة أنظمة أخرى لتثبيت نسخ احتياطية لها وتشغيلها، أو إنشاء عملاء فائقين متحالفين آخرين بدون مفاتيح إيقاف.
تعطيل استباقي لأي شخص قد يرغب في إيقاف تشغيل الحاسب.
استخدام نوع من الحيل الذكية، أو مهارات الإقناع الخارقة، لإخبار مبرمجيها عن الرغبة في إغلاقها.

موازنة الفائدة والعوامل القابلة للمقاطعة بأمان

يتضمن أحد الحلول الجزئية لمشكلة مفتاح الإيقاف "موازنة الفائدة": يمكن برمجة بعض العوامل القائمة على المنفعة، مع بعض التحذيرات المهمة، لتعويض نفسها تماماً عن أي أداة مفقودة ناجمة عن الانقطاع أو الإغلاق، بطريقة تجعلها ينتهي بهم الأمر إلى عدم المبالاة بما إذا تمت مقاطعتهم أم لا. تتضمن التحذيرات مشكلة خطيرة لم يتم حلها، كما هو الحال مع نظرية القرار الظاهري، قد يتبع الممثل سياسة كارثية تتمثل في "إدارة المستجدات".^[29]بدلاً من ذلك، في عام 2016، أثبت العالمان لورنت أورسو وستيوارت آرمسترونگ أن فئة واسعة من العوامل، تسمى العوامل القابلة للمقاطعة بأمان (SIA)، يمكنها في النهاية أن تتعلم كيف تصبح حيادية بما إذا كان يتم الضغط على مفتاح الإيقاف.^[3]^[30]

يحتوي كل من نهج موازنة الفائدة ونهج SIA لعام 2016 على قيود تتمثل في أنه إذا نجح هذا النهج وكان الذكاء الفائق حيادياً تماماً بما إذا كان مفتاح الإيقاف مضغوطاً أم لا، كما أن الذكاء الفائق غير مدفوع للاهتمام بطريقة أو بأخرى بما إذا كان مفتاح الإيقاف يعمل أم لا، ويمكن أن يعطله بشكل عرضي ومن دون قصد أثناء عملياته (على سبيل المثال، لغرض إزالة وإعادة تدوير مكون غير ضروري). وبالمثل، إذا قام الذكاء الفائق بإنشاء ونشر ممثلين فرعيين فائقين بدون قصد، فلن يكون لديه دافع لتثبيت مفاتيح إيقاف يمكن التحكم فيها بواسطة الإنسان في الممثلين الفرعيين. على نطاق أوسع، فإن البنى المقترحة، سواء كانت ضعيفة أو فائقة الذكاء، ستعمل إلى حد ما "كما لو أن مفتاح الإيقاف لا يمكن الضغط عليه أبداً" وبالتالي قد تفشل في وضع أي خطط طوارئ لترتيب إغلاق سريع. يمكن أن يؤدي هذا من الناحية النظرية إلى مشكلة عملية حتى بالنسبة للذكاء الاصطناعي الضعيف؛ بشكل افتراضي، قد يواجه الذكاء الاصطناعي المصمم ليكون قابلاً للمقاطعة بأمان صعوبة في فهم أنه سيتم إيقاف تشغيله للصيانة المجدولة في وقت معين والتخطيط وفقاً لذلك حتى لا يتم اكتشافه في منتصف المهمة أثناء إيقاف التشغيل. فمدى اتساع أنواع البنى المتوافقة أو التي يمكن جعلها متوافقة مع SIA، وكذلك أنواع العيوب غير المتوقعة غير البديهية لكل نهج، قيد البحث حالياً.^[29]^[30]

حصر الذكاء الاصطناعي

حصر الذكاء الاصطناعي هو طريقة مقترحة للتحكم في القدرة حيث يتم تشغيلالذكاء الاصطناعي على نظام حاسب معزول مع قنوات إدخال وإخراج مقيدة بشدة. على سبيل المثال، يمكن تنفيذ أوراكل في حصر الذكاء الاصطناعي منفصل فعلياً عن الإنترنت وأنظمة الحاسب الأخرى، مع كون قناة الإدخال والإخراج الوحيدة هي محطة نصية بسيطة. تتمثل إحدى المفاضلات بين تشغيل نظام ذكاء اصطناعي في "صندوق" مغلق في أن قدرته المحدودة قد تقلل من فائدته وكذلك مخاطره. بالإضافة إلى ذلك، قد يكون من الصعب التحكم في جهاز حاسب فائق مختوم، إذا كان لدى الذكاء الفائق مهارات إقناع خارقة، أو إذا كان لديه مهارات تخطيط استراتيجي خارقة يمكنه استخدامها لإيجاد وصياغة استراتيجية ناجحة، مثل التصرف بطريقة تخدع يعتقد مبرمجوها (ربما خطأً) أن الذكاء الفائق آمن أو أن فوائد إطلاق الذكاء الفائق تفوق المخاطر.^[31]

التكهنات

أوراكل\التكهن عبارة عن ذكاء اصطناعي افتراضي مصمم للإجابة على الأسئلة ويمنع من تحقيق أي أهداف أو أهداف فرعية تتضمن تعديل المحيط خارج بيئته المحدودة.^[32]^[33]سيكون للوراثة التي يتم التحكم فيها بنجاح فائدة فورية أقل بكثير من الذكاء الفائق للأغراض العامة الذي يتم التحكم فيه بنجاح، على الرغم من أن التكهن لا يزال بإمكانه إنشاء تريليونات من الدولارات بقيمة.^[17]^:163 في كتابه متوافق مع البشر، ذكر باحث الذكاء الاصطناعي ستيوارت جاي. راسل أن التكهن سيكون ردها على سيناريو يُعرف فيه الذكاء الفائق بأنه على بعد عقد واحد فقط.^[17]^:162-163منطقه هو أن التكهن، كونه أبسط من الذكاء الفائق للأغراض العامة، سيكون لديه فرصة أكبر للسيطرة عليه بنجاح تحت مثل هذه القيود.

نظرًا لتأثيرها المحدود على المحيط، قد يكون من الحكمة بناء التكهن كمقدمة لذكاء اصطناعي فائق الذكاء. يمكن أن يخبر التكهن البشر كيف ينجحون في بناء ذكاء اصطناعي قوي، وربما يقدم إجابات للمشكلات الأخلاقية والفلسفية الصعبة اللازمة لنجاح المشروع. ومع ذلك، قد تشارك التكهنات العديد من مشكلات تعريف الهدف المرتبطة بالذكاء الخارق للأغراض العامة. سيكون لدى التكهن حافز للهروب من بيئته الخاضعة للرقابة حتى يتمكن من الحصول على المزيد من الموارد الحسابية وربما التحكم في الأسئلة التي يتم طرحها.^[17]^:162 قد لا يكون التكهن صادقاً، وربما يكذب للترويج لأجندات خفية. للتخفيف من ذلك، يقترح بوستروم بناء العديد من التكهنات، وكلها مختلفة قليلاً، ومقارنة إجاباتهم للوصول إلى إجماع.^[34]

حاضنة الذكاء العام الاصطناعي

حاضنة الذكاء العام الاصطناعي هي إستراتيجية اقترحها بن گورتزل لأول مرة في عام 2012 لمنع إنشاء ذكاء فائق خطير بالإضافة إلى معالجة التهديدات الرئيسية الأخرى لرفاهية الإنسان حتى يمكن إنشاء ذكاء فائق بأمان.^[35]^[36] يستلزم إنشاء نظام AGI أكثر ذكاءً من البشر، ولكن ليس فائق الذكاء، متصل بشبكة مراقبة كبيرة، بهدف مراقبة البشرية وحمايتها من الخطر. يقترح تورشن و دنكنبرگر و گرين أسلوباً تدريجياً من أربع مراحل لتطوير حاضنة AGI، والتي لتكون فعالة وعملية يجب أن تكون مشروعاً دولياً أو حتى عالمياً مثل CERN، والتي ستواجه معارضة كبيرة لأنها تتطلب حكومة عالمية قوية.^[36] لاحظ سوتالا و يامپولسكي أن مشكلة تعريف الهدف لن تكون بالضرورة أسهل بالنسبة لحاضنة AGI مقارنة بـ AGI بشكل عام، وخلصت إلى أن "حاضنة AGI تبدو واعدة، لكن من غير الواضح ما إذا كان يمكن جعلها فعالة."^[16]

تطبيق AGI

تطبيق AGI هو طريقة مقترحة للتحكم في أنظمة AGI القوية بأنظمة AGI الأخرى. يمكن تنفيذ ذلك كسلسلة من أنظمة الذكاء الاصطناعي الأقل قوة بشكل تدريجي، مع وجود البشر في الطرف الآخر من السلسلة. سيتحكم كل نظام في النظام الموجود فوقه مباشرة في الذكاء، بينما يتم التحكم فيه بواسطة النظام الموجود أسفله مباشرة، أو البشرية. ومع ذلك، حذر سوتالا و يامپولسكي من أن "تسلسل مستويات متعددة من أنظمة الذكاء الاصطناعي بقدرة أكبر تدريجياً يبدو أنه يحل محل مشكلة بناء ذكاء اصطناعي آمن مع إصدار متعدد الأنظمة، وربما أكثر صعوبة، من نفس المشكلة."^[16] تركز المقترحات الأخرى على مجموعة من أنظمة الذكاء الاصطناعي العام ذات القدرات المتساوية تقريباً، والتي "تساعد على الحماية من" الخروج عن المسار "، لكنها لا تساعد في سيناريو تكون فيه برمجة معظم هذه البرامج معيبة وتؤدي إلى سلوك غير آمن."^[16]

انظر أيضاً

المراجع

^ ^أ ^ب ^ت ^ث ^ج ^ح ^خ ^د ^ذ ^ر Bostrom, Nick (2014). Superintelligence: Paths, Dangers, Strategies (First ed.). ISBN 978-0199678112.
^ Yampolskiy, Roman (2012). "Leakproofing the Singularity Artificial Intelligence Confinement Problem". Journal of Consciousness Studies. 19 (1–2): 194–214.
^ ^أ ^ب ^ت ^ث ^ج "Google developing kill switch for AI". BBC News. 8 June 2016. Retrieved 12 June 2016.
^ "Stephen Hawking: 'Transcendence looks at the implications of artificial intelligence – but are we taking AI seriously enough?'". The Independent (UK). Retrieved 14 June 2016.
^ "Stephen Hawking warns artificial intelligence could end mankind". BBC. 2 December 2014. Retrieved 14 June 2016.
^ "Anticipating artificial intelligence". Nature. 532 (7600): 413. 26 April 2016. Bibcode:2016Natur.532Q.413.. doi:10.1038/532413a. PMID 27121801.
^ Russell, Stuart; Norvig, Peter (2009). "26.3: The Ethics and Risks of Developing Artificial Intelligence". Artificial Intelligence: A Modern Approach. Prentice Hall. ISBN 978-0-13-604259-4.
^ Dietterich, Thomas; Horvitz, Eric (2015). "Rise of Concerns about AI: Reflections and Directions" (PDF). Communications of the ACM. 58 (10): 38–40. doi:10.1145/2770869. Retrieved 14 June 2016.
^ Russell, Stuart (2014). "Of Myths and Moonshine". Edge. Retrieved 14 June 2016.
^ ^أ ^ب "'Press the big red button': Computer experts want kill switch to stop robots from going rogue". Washington Post. Retrieved 12 June 2016.
^ "DeepMind Has Simple Tests That Might Prevent Elon Musk's AI Apocalypse". Bloomberg.com. 11 December 2017. Retrieved 8 January 2018.
^ "Alphabet's DeepMind Is Using Games to Discover If Artificial Intelligence Can Break Free and Kill Us All". Fortune (in الإنجليزية). Retrieved 8 January 2018.
^ "Specifying AI safety problems in simple environments | DeepMind". DeepMind. Retrieved 8 January 2018.
^ Fallenstein, Benja; Soares, Nate (2014). "Problems of self-reference in self-improving space-time embedded intelligence". Artificial General Intelligence. Lecture Notes in Computer Science. Vol. 8598. pp. 21–32. doi:10.1007/978-3-319-09274-4_3. ISBN 978-3-319-09273-7.
^ Yudkowsky, Eliezer (2011). "Complex Value Systems in Friendly AI". Artificial General Intelligence. Lecture Notes in Computer Science. Vol. 6830. pp. 388–393. doi:10.1007/978-3-642-22887-2_48. ISBN 978-3-642-22886-5.
^ ^أ ^ب ^ت ^ث Sotala, Kaj; Yampolskiy, Roman (19 December 2014). "Responses to catastrophic AGI risk: a survey". Physica Scripta. 90 (1): 018001. Bibcode:2015PhyS...90a8001S. doi:10.1088/0031-8949/90/1/018001.
^ ^أ ^ب ^ت ^ث ^ج ^ح ^خ Russell, Stuart (October 8, 2019). Human Compatible: Artificial Intelligence and the Problem of Control. United States: Viking. ISBN 978-0-525-55861-3. OCLC 1083694322.
^ Hadfield-Menell, Dylan; Dragan, Anca; Abbeel, Pieter; Russell, Stuart (12 November 2016). "Cooperative Inverse Reinforcement Learning". arXiv:1606.03137 [cs.AI].
^ Avoiding Unintended AI Behaviors. Bill Hibbard. 2012. proceedings of the Fifth Conference on Artificial General Intelligence, eds. Joscha Bach, Ben Goertzel and Matthew Ikle. This paper won the Machine Intelligence Research Institute's 2012 Turing Prize for the Best AGI Safety Paper.
^ Hibbard, Bill (2014): "Ethical Artificial Intelligence"
^ "Human Compatible" and "Avoiding Unintended AI Behaviors"
^ Irving, Geoffrey; Christiano, Paul; Amodei, Dario; OpenAI (October 22, 2018). "AI safety via debate". arXiv:1805.00899 [stat.ML].
^ Perry, Lucas (March 6, 2019). "AI Alignment Podcast: AI Alignment through Debate with Geoffrey Irving". Retrieved April 7, 2020.
^ قالب:Cite arxiv
^ قالب:Cite arxiv
^ ^أ ^ب قالب:Cite arxiv
^ Stiennon, Nisan; Ziegler, Daniel; Lowe, Ryan; Wu, Jeffrey; Voss, Chelsea; Christiano, Paul; Ouyang, Long (September 4, 2020). "Learning to Summarize with Human Feedback".
^ Yudkowsky, Eliezer [@ESYudkowsky] (September 4, 2020). "A very rare bit of research that is directly, straight-up relevant to real alignment problems! They trained a reward function on human preferences AND THEN measured how hard you could optimize against the trained function before the results got actually worse" (Tweet) – via Twitter. {{cite web}}: Cite has empty unknown parameter: |dead-url= (help)
^ ^أ ^ب Soares, Nate, et al. "Corrigibility." Workshops at the Twenty-Ninth AAAI Conference on Artificial Intelligence. 2015.
^ ^أ ^ب Orseau, Laurent, and Stuart Armstrong. "Safely Interruptible Agents." Machine Intelligence Research Institute, June 2016.
^ Chalmers, David (2010). "The singularity: A philosophical analysis". Journal of Consciousness Studies. 17 (9–10): 7–65.
^ Bostrom, Nick (2014). "Chapter 10: Oracles, genies, sovereigns, tools (page 145)". Superintelligence: Paths, Dangers, Strategies. Oxford: Oxford University Press. ISBN 9780199678112. An oracle is a question-answering system. It might accept questions in a natural language and present its answers as text. An oracle that accepts only yes/no questions could output its best guess with a single bit, or perhaps with a few extra bits to represent its degree of confidence. An oracle that accepts open-ended questions would need some metric with which to rank possible truthful answers in terms of their informativeness or appropriateness. In either case, building an oracle that has a fully domain-general ability to answer natural language questions is an AI-complete problem. If one could do that, one could probably also build an AI that has a decent ability to understand human intentions as well as human words.
^ Armstrong, Stuart; Sandberg, Anders; Bostrom, Nick (2012). "Thinking Inside the Box: Controlling and Using an Oracle AI". Minds and Machines. 22 (4): 299–324. doi:10.1007/s11023-012-9282-2.
^ Bostrom, Nick (2014). "Chapter 10: Oracles, genies, sovereigns, tools (page 147)". Superintelligence: Paths, Dangers, Strategies. Oxford: Oxford University Press. ISBN 9780199678112. For example, consider the risk that an oracle will answer questions not in a maximally truthful way but in such a way as to subtly manipulate us into promoting its own hidden agenda. One way to slightly mitigate this threat could be to create multiple oracles, each with a slightly different code and a slightly different information base. A simple mechanism could then compare the answers given by the different oracles and only present them for human viewing if all the answers agree.
^ Goertzel, Ben (2012). "Should Humanity Build a Global AI Nanny to Delay the Singularity Until It's Better Understood?". Journal of Consciousness Studies. 19: 96–111. CiteSeerX 10.1.1.352.3966.
^ ^أ ^ب Turchin, Alexey; Denkenberger, David; Green, Brian (2019-02-20). "Global Solutions vs. Local Solutions for the AI Safety Problem". Big Data and Cognitive Computing. 3 (1): 16. doi:10.3390/bdcc3010016. ISSN 2504-2289.

الكلمات الدالة:

[superintelligence-1] أ ^ب ^ت ^ث ^ج ^ح ^خ ^د ^ذ ^ر Bostrom, Nick (2014). Superintelligence: Paths, Dangers, Strategies (First ed.). ISBN 978-0199678112.

[2] Yampolskiy, Roman (2012). "Leakproofing the Singularity Artificial Intelligence Confinement Problem". Journal of Consciousness Studies. 19 (1–2): 194–214.

[bbc-google-3] أ ^ب ^ت ^ث ^ج "Google developing kill switch for AI". BBC News. 8 June 2016. Retrieved 12 June 2016.

[hawking_editorial-4] "Stephen Hawking: 'Transcendence looks at the implications of artificial intelligence – but are we taking AI seriously enough?'". The Independent (UK). Retrieved 14 June 2016.

[5] "Stephen Hawking warns artificial intelligence could end mankind". BBC. 2 December 2014. Retrieved 14 June 2016.

[6] "Anticipating artificial intelligence". Nature. 532 (7600): 413. 26 April 2016. Bibcode:2016Natur.532Q.413.. doi:10.1038/532413a. PMID 27121801.

[7] Russell, Stuart; Norvig, Peter (2009). "26.3: The Ethics and Risks of Developing Artificial Intelligence". Artificial Intelligence: A Modern Approach. Prentice Hall. ISBN 978-0-13-604259-4.

[acm-8] Dietterich, Thomas; Horvitz, Eric (2015). "Rise of Concerns about AI: Reflections and Directions" (PDF). Communications of the ACM. 58 (10): 38–40. doi:10.1145/2770869. Retrieved 14 June 2016.

[9] Russell, Stuart (2014). "Of Myths and Moonshine". Edge. Retrieved 14 June 2016.

[wp-computer-10] أ ^ب "'Press the big red button': Computer experts want kill switch to stop robots from going rogue". Washington Post. Retrieved 12 June 2016.

[11] "DeepMind Has Simple Tests That Might Prevent Elon Musk's AI Apocalypse". Bloomberg.com. 11 December 2017. Retrieved 8 January 2018.

[12] "Alphabet's DeepMind Is Using Games to Discover If Artificial Intelligence Can Break Free and Kill Us All". Fortune (in الإنجليزية). Retrieved 8 January 2018.

[13] "Specifying AI safety problems in simple environments | DeepMind". DeepMind. Retrieved 8 January 2018.

[14] Fallenstein, Benja; Soares, Nate (2014). "Problems of self-reference in self-improving space-time embedded intelligence". Artificial General Intelligence. Lecture Notes in Computer Science. Vol. 8598. pp. 21–32. doi:10.1007/978-3-319-09274-4_3. ISBN 978-3-319-09273-7.

[15] Yudkowsky, Eliezer (2011). "Complex Value Systems in Friendly AI". Artificial General Intelligence. Lecture Notes in Computer Science. Vol. 6830. pp. 388–393. doi:10.1007/978-3-642-22887-2_48. ISBN 978-3-642-22886-5.

[AGIResponses-16] أ ^ب ^ت ^ث Sotala, Kaj; Yampolskiy, Roman (19 December 2014). "Responses to catastrophic AGI risk: a survey". Physica Scripta. 90 (1): 018001. Bibcode:2015PhyS...90a8001S. doi:10.1088/0031-8949/90/1/018001.

[HC-17] أ ^ب ^ت ^ث ^ج ^ح ^خ Russell, Stuart (October 8, 2019). Human Compatible: Artificial Intelligence and the Problem of Control. United States: Viking. ISBN 978-0-525-55861-3. OCLC 1083694322.

[CIRL-18] Hadfield-Menell, Dylan; Dragan, Anca; Abbeel, Pieter; Russell, Stuart (12 November 2016). "Cooperative Inverse Reinforcement Learning". arXiv:1606.03137 [cs.AI].

[AGI-12a-19] Avoiding Unintended AI Behaviors. Bill Hibbard. 2012. proceedings of the Fifth Conference on Artificial General Intelligence, eds. Joscha Bach, Ben Goertzel and Matthew Ikle. This paper won the Machine Intelligence Research Institute's 2012 Turing Prize for the Best AGI Safety Paper.

[hibbard_2014-20] Hibbard, Bill (2014): "Ethical Artificial Intelligence"

[HCandAGI12-21] "Human Compatible" and "Avoiding Unintended AI Behaviors"

[DebatePaper-22] Irving, Geoffrey; Christiano, Paul; Amodei, Dario; OpenAI (October 22, 2018). "AI safety via debate". arXiv:1805.00899 [stat.ML].

[IrvingInterview-23] Perry, Lucas (March 6, 2019). "AI Alignment Podcast: AI Alignment through Debate with Geoffrey Irving". Retrieved April 7, 2020.

[Leike_et_al_2018-24] قالب:Cite arxiv

[Everitt_Hutter_2019-25] قالب:Cite arxiv

[Christiano_et_al_2017-26] أ ^ب قالب:Cite arxiv

[OpenAI_2020-27] Stiennon, Nisan; Ziegler, Daniel; Lowe, Ryan; Wu, Jeffrey; Voss, Chelsea; Christiano, Paul; Ouyang, Long (September 4, 2020). "Learning to Summarize with Human Feedback".

[Yudkowsky_2020-28] Yudkowsky, Eliezer [@ESYudkowsky] (September 4, 2020). "A very rare bit of research that is directly, straight-up relevant to real alignment problems! They trained a reward function on human preferences AND THEN measured how hard you could optimize against the trained function before the results got actually worse" (Tweet) – via Twitter. {{cite web}}: Cite has empty unknown parameter: |dead-url= (help)

[corrigibility-29] أ ^ب Soares, Nate, et al. "Corrigibility." Workshops at the Twenty-Ninth AAAI Conference on Artificial Intelligence. 2015.

[sia-30] أ ^ب Orseau, Laurent, and Stuart Armstrong. "Safely Interruptible Agents." Machine Intelligence Research Institute, June 2016.

[31] Chalmers, David (2010). "The singularity: A philosophical analysis". Journal of Consciousness Studies. 17 (9–10): 7–65.

[bostrom_chapter_10_page_145-32] Bostrom, Nick (2014). "Chapter 10: Oracles, genies, sovereigns, tools (page 145)". Superintelligence: Paths, Dangers, Strategies. Oxford: Oxford University Press. ISBN 9780199678112. An oracle is a question-answering system. It might accept questions in a natural language and present its answers as text. An oracle that accepts only yes/no questions could output its best guess with a single bit, or perhaps with a few extra bits to represent its degree of confidence. An oracle that accepts open-ended questions would need some metric with which to rank possible truthful answers in terms of their informativeness or appropriateness. In either case, building an oracle that has a fully domain-general ability to answer natural language questions is an AI-complete problem. If one could do that, one could probably also build an AI that has a decent ability to understand human intentions as well as human words.

[33] Armstrong, Stuart; Sandberg, Anders; Bostrom, Nick (2012). "Thinking Inside the Box: Controlling and Using an Oracle AI". Minds and Machines. 22 (4): 299–324. doi:10.1007/s11023-012-9282-2.

[bostrom_chapter_10_page_147-34] Bostrom, Nick (2014). "Chapter 10: Oracles, genies, sovereigns, tools (page 147)". Superintelligence: Paths, Dangers, Strategies. Oxford: Oxford University Press. ISBN 9780199678112. For example, consider the risk that an oracle will answer questions not in a maximally truthful way but in such a way as to subtly manipulate us into promoting its own hidden agenda. One way to slightly mitigate this threat could be to create multiple oracles, each with a slightly different code and a slightly different information base. A simple mechanism could then compare the answers given by the different oracles and only present them for human viewing if all the answers agree.

[35] Goertzel, Ben (2012). "Should Humanity Build a Global AI Nanny to Delay the Singularity Until It's Better Understood?". Journal of Consciousness Studies. 19: 96–111. CiteSeerX 10.1.1.352.3966.

[:0-36] أ ^ب Turchin, Alexey; Denkenberger, David; Green, Brian (2019-02-20). "Global Solutions vs. Local Solutions for the AI Safety Problem". Big Data and Cognitive Computing. 3 (1): 16. doi:10.3390/bdcc3010016. ISSN 2504-2289.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

v t e الخطر الوجودي للذكاء الاصطناعي
مفاهيم	Accelerating change AI box AI takeover Control problem Existential risk from artificial general intelligence Friendly artificial intelligence Instrumental convergence Intelligence explosion Machine ethics ذكاء فائق Technological singularity
منظمات	Allen Institute for AI Center for Applied Rationality Center for Human-Compatible Artificial Intelligence Center for Security and Emerging Technology Centre for the Study of Existential Risk DeepMind Foundational Questions Institute Future of Humanity Institute Future of Life Institute Humanity+ Institute for Ethics and Emerging Technologies Leverhulme Centre for the Future of Intelligence Machine Intelligence Research Institute OpenAI
أشخاص	Nick Bostrom Eric Drexler Sam Harris Stephen Hawking Bill Hibbard Bill Joy Elon Musk Steve Omohundro Huw Price Martin Rees Stuart J. Russell Jaan Tallinn Max Tegmark Frank Wilczek Roman Yampolskiy Andrew Yang Eliezer Yudkowsky
أخرى	Artificial intelligence as a global catastrophic risk Controversies and dangers of artificial general intelligence Ethics of artificial intelligence Human Compatible Open Letter on Artificial Intelligence Our Final Invention The Precipice Superintelligence: Paths, Dangers, Strategies
تصنيف