تطور الذكاء الاصطناعي وتطبيقاته في الأجهزة العليا للرقابة المالية والمحاسبة
دييغو أوليفيرا فارياس (oliveiraf@tcu.gov.br)؛ إريك هانس ميسياس دا سيلفا (erichm@tcu.gov.br)؛ إيريك موزارت فونسيكا دوس سانتو (erickmf@tcu.gov.br)؛ مونيك لويز دي باروس مونتيرو (moniquebm@tcu.gov.br)؛ تيبيريو سيزار جوكوندو لوريرو (tiberio.loureiro@tcu.gov.br)
ما هو الذكاء الاصطناعي؟
مع مرور الوقت، تم إعطاء العديد من التعريفات لمصطلح الذكاء الاصطناعي، وقد أدى ربط المصطلح بمصطلحات أخرى، مثل التعلم الآلي والتعلم العميق، إلى صعوبات في تكوين فهم أفضل للموضوع.
ويعتبر الجانب الاصطناعي للذكاء الاصطناعي بسيطاً نسبياً. وهو يشير إلى أي شيء غير طبيعي ابتكره البشر. ويمكن أن يتمثل أيضاً باستخدام مصطلحات مثل الآلات أو أجهزة الكمبيوتر أو الأنظمة. ومع ذلك، فإن الذكاء مفهوم أوسع بكثير، وهو ما يفسِّر سبب عدم التوصل إلى اتفاق حول تعريف الذكاء الاصطناعي (ميالي وهودس، 2017).
ويمكن تعريف الذكاء الاصطناعي على أنَّه استخدام التكنولوجيا الرقمية لإنشاء أنظمة قادرة على تنفيذ المهام التي عادةً ما يعتقد بأنّها تتطلب ذكاءً.
في هذا السياق، يمكننا أن نذكر تعريف منظمة التعاون الاقتصادي والتنمية الذي يعتبر الذكاء الاصطناعي نظاماً يستند إلى آلة يمكنه، لمجموعة محددة من الأهداف يعرّفها البشر، أن يضع تنبؤات أو توصيات أو قرارات تؤثر في البيئات الحقيقية أو الافتراضية.
ويشمل الذكاء الاصطناعي حالياً بشكل أساسي الآلات التي تستخدم الإحصاءات للعثور على أنماط بكميات كبيرة من البيانات وتنفيذ مهام متكررة دون الحاجة إلى توجيه بشري مستمر. وعليه، لا يرتبط الذكاء الاصطناعي بحل تكنولوجي مطبَّق على جميع الحالات لأنه لا يوفر عموماً سوى أداء جيد مع بيانات مهمة وذات صلة وعالية الجودة.
الشبكات العصبية الاصطناعية
تعتمد خوارزميات التعلم الآلي التقليدية بشكل كبير على تمثيل البيانات لإنشاء علاقات بين البيانات والتنبؤات التي يمكن أن تؤدي إليها. على سبيل المثال، لنأخذ الفارق بين نظام تشخيص يعتمد على معلومات المريض التي يقدمها الطبيب (مثلاً واجهة الدماغ – مؤشر كتلة الجسم، وفئة الدم، ومستوى السكر في الدم) لاقتراح تشخيص ونظام قادر على تحديد الأورام من صورة شعاعية. وفي حين يمكن للخوارزميات التقليدية استخراج الارتباطات بين المجموعة الأولى من المعلومات التي يقدمها الطبيب، والتي يُشار إليها بالسِّمات أو الصِّفات، وتشخيص محتمل، في المثال الثاني، تخضع هذه الأنظمة لقيود في تحليل البيانات غير المهيكلة مثل الصور، لأنَّه لا يمكنها استخراج معنى من مجرد مجموعة من البكسل.
ويكمن أحد الحلول لهذه المشكلة في استخدام التقنيات لمعرفة العلاقات بين الصِّفات والمخرجات (التنبؤ) وأفضل طريقة لتمثيل بيانات الإدخال.
في هذا السياق، تبرز تقنية تعلم النقل. ويجري استخدامها بشكل متزايد، خصوصاً في رؤية الحاسوب ومعالجة اللغة الطبيعية، حيث يتم “نقل” المعرفة المكتسبة بواسطة نموذج مدرب مسبقاً في مجال / مهمة محددة إلى مجال / مهمة أخرى. كما تتيح “إضفاء الطابع الديمقراطي” على استخدام نماذج الذكاء الاصطناعي حيث يمكن التدريب على النماذج الجديدة مع جزء صغير فقط من البيانات والموارد الحاسوبية التي يمكن استخدامها إذا كان لا بد من تعليم النموذج “من الصفر”. ويُستلهم تعلم النقل من الطريقة التي يتعلم بها البشر، حيث نادراً ما نتعلم شيئاً من الصفر، لكننا غالباً ما نتعلم عن طريق القياس، وندمج الخبرة المكتسبة سابقاً في سياقات جديدة.
وليس هناك من شك في أنَّ البنى واستراتيجيات التدريب للشبكات العصبية التي تم تبنيها في السنوات الأخيرة قد أدَّت إلى تقدم كبير في مهام مثل ترجمة النصوص، والإجابة عن الأسئلة، وروبوتات الدردشة، حتى في المهام التي تمَّ التدريب عليها من الصفر. غير أنَّ التغييرات الهامة في توزيع عينات البيانات أدَّت إلى تدهور الأداء، مما يشير إلى أنَّ النماذج أصبحت متخصصة في الأداء الجيد بمدخلات محددة فقط (مثل لغات أو أنواع نصوص محددة).
ولا تزال هناك تحديات يتعين التغلب عليها في ما يتعلق باللغات الأقل شعبية من اللغة الإنكليزية أو حتى بالنسبة إلى المهام الأكثر تحديداً أو غير المستكشفة. وفي حالة اللغات، هناك مشكلة مع اللغات الأقل تحدثاً ذات التوفر المحدود للجسم المسمى للتدريب على نماذج معالجة اللغة الطبيعية.
في ستينيات القرن الماضي، كانت الخطوة الأولى نحو تعلم النقل باستخدام مساحات الناقلات لتمثيل الكلمات كناقلات رقمية. وفي منتصف العقد الأول من القرن الحالي، تم تقديم نماذج مثل word2vec وsent2vec وdoc2vec. وجرى التدريب على هذه النماذج للتعبير عن الكلمات والجمل والوثائق في مساحات الناقلات بحيث ترتبط المسافة بين الناقلات بالفرق في المعنى بين الجهات المقابلة. ويهدف التدريب إلى ربط معنى كلمة ما بسياقها، أي الكلمات المجاورة في النص، مما يشكل مثالاً على التعلم غير الخاضع للإشراف.
وبمجرد تمثيل الكلمات أو الجمل أو الفقرات كناقلات، من الممكن استخدام خوارزميات التصنيف أو التجميع، حيث يتم تمثيل بيانات الإدخال كنقاط في مساحة ناقلة. على سبيل المثال، في حالة التصنيف، يكون نهجاً شبه خاضع للإشراف نظراً إلى الإشراف على مهمة التصنيف، ولكن تم الحصول على تمثيل بيانات الإدخال بطريقة غير خاضعة للرقابة مع الاستمرار في تضمين دلالات النص.
وفي وقت لاحق، بدأ استخدام تحديد الناقلات على مستوى الأحرف للتعامل مع الكلمات التي لم تظهر في المفردات الأولية (مثل الكلمات الجديدة، أو العاميّة، أو الرموز التعبيرية، أو الكلمات الأجنبية، أو أسماء الأشخاص).
ويمكن فهم هذا الوصف على أنَّه شكل مبكر من تعلم النقل لأن نموذج تحديد الناقلات المدرب عليه مسبقاً يمكن أن يتضمن مستوى معيناً من الدلالات أو المعاني للكلمات والجمل وما إلى ذلك.
وفي عام 2018، حدثت ثورة حقيقية في مجال معالجة اللغة الطبيعية عندما بدأ الباحثون في تطبيق تعلم النقل على مستوى أكثر تجريداً، حيث قدموا ليس فقط نماذج توجيه مدرب عليها مسبقاً وإنما أيضاً شبكات عصبية كاملة مدرب عليها مسبقاً تتعلق بمهام عامة غير خاضعة للرقابة على مستوى أعلى. ومن الأمثلة على ذلك الشبكات العصبية التي تنفذ نماذج لغوية، ونماذج إحصائية مدرب عليها للتنبؤ بالكلمات التالية أو مجموعة من الكلمات نظراً إلى المصطلحات السابقة. ومن خلال عملية تُعرف بالضبط الدقيق، يمكن أخذ أحد هذه النماذج المدرب عليها مسبقاً وإجراء تدريب موجز إضافي يركز على تحسين النموذج للمهمة المحددة المراد التدريب عليها، مع تعديل أوزان الشبكة. ويُشار إلى هذه الحركة حتى باسم “لحظة ImageNet” ، حول الاستخدام الواسع للشبكات العصبية المدرب عليها مسبقاً على قاعدة بيانات ImageNet للتطبيقات المختلفة في رؤية الحاسوب.
ويبرز المحول التوليدي المُدرَّب مُسبقاً (جي بي تي/GPT) المرتكز على الذكاء الاصطناعي كأحد الابتكارات الرائدة في تعلم التحول الخاص بمعالجة اللغة الطبيعية، استناداً إلى نموذج الشبكة العصبية المعروف بالمحول (فاسواني وآخرون، 2017)، والذي يسمح بقدر أكبر من التوازي والأداء مقارنةً بالبنى السابقة التي افتقرت إلى الدرجة نفسها من التوازي وواجهت صعوبة في التعامل مع النصوص الطويلة. ويكون في صيغته الأخيرة – المحول التوليدي المُدرَّب مُسبقاً 4 (GPT-4) – قادراً على توليد نصوص واقعية تلقائياً، مماثلة لتلك التي يكتبها البشر.
المحول التوليدي المُدرَّب مسبقاً للدردشة (شات جي بي تي/ChatGPT)، ونماذج اللغة الكبيرة، والذكاء الاصطناعي التوليدي
في تشرين الثاني / نوفمبر 2022، تم إطلاق المحول التوليدي المُدرَّب مسبقاً للدردشة والمرتكز على الذكاء الاصطناعي (OpenAI ChatGPT)، مما أدى إلى وصول الذكاء الاصطناعي إلى مرحلة جديدة: في غضون أيام قليلة، أصبح روبوتات الدردشة الإنجاز الأكثر شهرةً في تاريخ التكنولوجيا الحديثة بسبب قدراتها الرائعة في فهم النصوص وتوليدها.
ورغم “ذكائها” وشعبيتها، يعتمد جوهر المحول التوليدي المُدرَّب مسبقاً للدردشة على تقنية قديمة هي نمذجة اللغة. وفي تعريف بسيط، تهتم نمذجة اللغة باستخدام النماذج الإحصائية للتنبؤ بالتسلسل الأكثر شيوعاً للكلمات في لغة معينة. لذلك، فهي مجرد نماذج قادرة على التنبؤ بالكلمة التالية الأكثر احتمالاً على أساس سلسلة من الكلمات. ويمكن إعادة استخدام كل عنصر يتنبأ به النموذج للتنبؤ بكلمة أخرى، وتستمر هذه العملية تالياً حتى نحصل على فقرات ونصوص كاملة.
وفي السنوات القليلة الماضية، بدأ الباحثون في استخدام نماذج اللغة العصبية. وبعبارات بسيطة، إنّها نماذج لغوية يتم تنفيذها كشبكات عصبية. لذلك، لنفترض أنَّه لدينا مجموعة بيانات ضخمة من النصوص. في هذه الحالة، يمكننا استخدامها للتدريب على شبكة عصبية هدفها الأمثل توليد الكلمات الأكثر احتمالاً من تسلسل الكلمات المعطاة لها حتى التكرار الحالي. وجرى تنفيذ هذه الفكرة في البداية مع الشبكات العصبية المتكررة. ومع ذلك، في عام 2018، أظهرت بنية المحول – وهي فئة جديدة من النماذج القائمة على نماذج الانتباه والشبكات العصبية الأمامية – نتائج أفضل.
بعد ذلك، مع زيادة عدد المعلمات في هذه النماذج العصبية من الملايين إلى المليارات أو التريليونات، باتت تسمى نماذج اللغة الكبيرة.
وتأتي ميزة مهمة لنماذج لغة التدريب من مجموعة البيانات، إذ من غير الضروري أن يصنّفها البشر. ويحدث هذا لأنّه إذا كان لدينا مجموعة من النصوص، فهي بالفعل “مشروحة” بمعنى أننا نعرف دائما الكلمة التالية. وتتواجد العلامات بالفعل حتى في الإعدادات ذات أهداف التحسين المختلفة قليلاً (مثل إخفاء بعض الكلمات والتدريب على نموذج التنبؤ بالكلمات المقنعة). وتُسمى هذه التقنية الإشراف الذاتي ولكن يمكن اعتبارها أيضاً نوعاً من التعلم غير الخاضع للإشراف (على الأقل من وجهة نظر الشارحين البشريين).
وليس لدينا حالياً الكثير من التفاصيل في شأن الأعمال الداخلية للمحول التوليدي المُدرَّب مسبقاً للدردشة – نحن نعرف فقط أنها تستخدم تقنيات إضافية من التعلم المعزز إلى جانب نمذجة اللغة التقليدية. ومع ذلك، تمَّ إطلاق العديد من نماذج اللغة المفتوحة المصدر المتقنة بفضل ظهورها. وهذه النماذج مثيرة للاهتمام بشكل خاص للباحثين والمؤسسات الحكومية لأنَّ تكلفتها مناسبة مقارنة بنماذج الذكاء الاصطناعي المفتوح. علاوةً على ذلك، لدينا سيطرة كاملة على النموذج، مما يسمح لنا بتخصيصه وفقاً لمتطلباتنا (مثل فهم النصوص القانونية).
وأخيراً، أطلقنا في محكمة الحسابات الفيدرالية البرازيلية أداة تستند إلى المحول التوليدي المُدرَّب مسبقاً للدردشة تُسمى ChatTCU. والإصدار الحالي عبارة عن غلاف آمن على نموذج الذكاء الاصطناعي الأساسي لأنه يمكِّن المدققين من نقل الرسائل بشكل آمن دون إرسال بيانات مصنفة إلى الذكاء الاصطناعي. وفي الإصدارات المستقبلية، سنقوم بتوسيع ميزات ChatTCU مع بيانات متعلقة باجتهادات محكمة الحسابات الفيدرالية، إلى جانب العديد من البيانات العامة أو غير العامة الأخرى التي تملكها المؤسسة.
الخلاصات
يوفر دمج الذكاء الاصطناعي في نشاط التدقيق للأجهزة العليا للرقابة المالية فرصة فريدة لتحسين فعالية عملياتها وكفاءتها. ومن خلال التحليل الآلي لكميات كبيرة من البيانات، يمكن للذكاء الاصطناعي تحديد الأنماط المعقدة، والشذوذ، والاتجاهات في الوقت الحقيقي، وتوفير رؤى قيّمة للمدقّقين. بالإضافة إلى ذلك، في إمكان الذكاء الاصطناعي تبسيط عمليات المراجعة والتحليل، مما يثلِّص بشكل كبير الوقت اللازم لإجراء تدقيق كامل. ومن خلال تحرير خبراء التدقيق من المهام الروتينية والمتكررة، يتيح لهم الذكاء الاصطناعي تركيز خبراتهم على التحليل الرفيع المستوى واتخاذ القرارات الاستراتيجية. وأخيراً، باستخدام الذكاء الاصطناعي، يمكن للأجهزة العليا للرقابة المالية تعزيز دقة أنشطتها في مجال التدقيق واكتمالها وموثوقيتها، وتالياً تعزيز ثقة الجمهور في المؤسسات المالية والهيئات الخاضعة للتدقيق.