إشكاليّات اللغة العربية في عصر الذكاء الاصطناعيّ!

إشكاليّات اللغة العربية في عصر الذكاء الاصطناعيّ!
صورة تعبيرية
Smaller Bigger

في مقال لي في 2007، بعنوان: «اللغة العربية في الزمن الرقمي: ٦ فجائع و٣ مقترحات»، تناولتُ بعض النواقص التي يلزم استكمالها سريعا لإكمال البناء التحتيّ لدخول اللّغة العربية العصر الرقمي.

 

ما زال بعضها غائبا أو ناقصا حتّى الآن!

تمتلك اللغاتُ اليوم مدوّناتِها، المسماةِ أحياناً «بنوك اللغة». وفي عصر الذكاء الاصطناعي صارت مدوّنة اللغة (Corpus) المادةَ الخام الرئيسة التي يتدرّب عليها نموذجُ اللغة (LLM). يتعلّم منها توليد النصوص آليا للإجابة عن أيّ سؤال، كما هو حال تشات جي بي تي مثلا. هي أيضا مرجعيّتهُ للترجمة الآلية.

 

المفارقة المثيرة والمؤلمة أن اللغة العربية، التي كانت أوّل من أسس القواميس والمعاجم اللغوية (منذ الخليل بن أحمد الفراهيدي صاحب قاموس العين، وربما الأصمعي قبل ذلك)، تفتقد إلى مدوّنةٍ تليق بها اليوم!

 

مثلاً، القارئ الضوئي للأحرف OCR الذي يسمح بتحويل الكتب الورقية (لا سيّما التي سبقت عصر الإنترنت) إلى نصوصٍ رقمية، ما زال أثره غائبا عربيّا، في حين كانت اللغات الكبرى، عند نشر مقالي، قد استكملت رقمنة ملايين الكتب القديمة.

 

 

انسحاب اللغة العربية من كتابة التكنولوجيا والعلوم:

أضحتِ المواد العلمية تُدرَّسُ باللغات الأجنبية في كل المدارس الخاصة في العالم العربي، وفي كثير من المدارس الحكومية أيضاً. ناهيك عن غياب العربية شبه الكليّ عن تدريس المواد العلمية والتقنية والطبية في جميع الجامعات العربية تقريباً، بسبب عدم استخدامها لكتابة المعارف الحديثة!... ربما لذلك يُقال اليوم أكثر فأكثر إنّها «لغةٌ لا تصلح للحداثة، فقيرة في المصطلحات»!

 

المفارقة الكبرى: كانت العربية، قبل قرون، لغةَ العلوم بامتياز.

 

قبل الخوارزمي مثلا، كانت الرياضيات في الجوهر هندسةً أقليديسية في الأساس، ورسوماتٍ لأشكال هندسية تُستخدم لحلِّ هذه الإشكالية العملية أو تلك، لا غير. أدخلَ جلالتُه عليها اللغةَ الإنسانية كما لم يفعل أحد قبله، وحوّلها إلى لغةٍ ومنهجٍ يسمحان بتنظير تجريدي كليّ، بعد اختراعه لِعِلم الجبر.

 

شرح مثلا نظرية معادلات الدرجة الأولى والثانية في الرياضيات بِلغةٍ دقيقة.

 

اخترع فكرة المتغيّر الرياضي x، وأسماه «شيء»، قبل أن تصل هذه الكلمة العربية بدورها إلى إسبانيا وتلفظ في لغتها القديمة: "إكسي"، ثم تغزو أوربا بعد ذلك بصيغتها النهائية: «إكس».

 

استخدم أيضا مصطلحات أخرى جديدة، مثل «الجذر» (الرقم الذي يحلّ المعادلة)، «الدرهم» (الرقم الثابت في المعادلة)...

 

ما المعادلات الرياضية، وما علم المنطق الرياضي، بل وما كلُّ العلوم، لو كانت بدون استخدام المتغيرات والمجاهيل ودمج اللغة الإنسانية في ثناياها؟

بيد أن لغة الخوارزمي تفتقر اليوم لِمرادفٍ لكل جديدٍ في القاموس العلمي والتكنولوجي، وذلك منذ دهر. ويعلم الله أن هذا الجديد يهطل بغزارة من كل حدبٍ وصوب هذه الأيام، لا سيما في علوم التكنولوجيا الحديثة.

تفتقر لغة الضاد أيضا إلى صيغٍ تعبيرية موحّدة، تترجِمُ بعض الصيغ التقليدية المتعارف عليها في سياقات الكتابة العلمية باللغات الأجنبية…

المفارقة الأهم: تمتلك العربية إمكانيات مرِنة ومتميّزة لاحتضان جديد العلم

وابتكار أجمل الكلمات الجديدة مثل:

«رقمنة» التي تترجِمُnumérisation (digitization) (انطلاقا من صيغة «فعلنَة» التي تعكس التوليد والتحوّل: عقلنة، رهبنة، تيسنَة...)،

أو «استرقام» التي يمكنها أن تترجمَ (demetarialization) dématérialisation (انطلاقا من صيغةِ «استفعل» التي تعني طلبَ الشيء واستدعاءَه: استسقاء، استحضار...).

 

ولأن النصوص التوليدية والترجمة الآلية لا يمكنهما اختراع كلماتٍ وصيغ جملٍ من العدَم، ففقرُ مدوّنةِ اللغة العربية عموما، وعلى الصعيد العلمي والتكنولوجي خصوصا، معضلةٌ جوهرية تمنع دخول اللغة العربية عصر الذكاء الاصطناعيّ من أوسع أبوابه.

 

 

التوليد الآلي للنصوص، ووضع العربية

 

توليد النصوص الآلي يتكئ على راسيتين: مدوّنة اللغة التي ينبغي أن تكون ثريّة متنوِّعة، ونموذج اللغة LLM الذي يتعلّم من المدوّنة، عبر تقنية «التعلّم العميق بشبكات العصبونات الاصطناعية».

يسمح ذلك لموَلِّد النصوص أن يجد أكثر الكلمات احتمالا لاستطرادِ نصٍّ ما أو مجموعة كلمات، ثمّ أكثر الكلمات احتمالا لمواصلة النص بعدها، وهكذا دواليك.

مثال لما يمكن كتابته له، وردّه على ذلك:

ميلانو إحدى أروع...

ç ... ميلانو إحدى أروع المدن...

 

يبدو جليّا عند توجيه الأسئلة المرتبطة بالثقافة العربية وجودُ فجوةٍ هائلة بسبب فقرِ المدوّنةِ العربية في بعض أنظمة التوليد الآلي كـحال تشات جي بي تي، أو عدم اكتمال تعليم نموذج اللغة عليها كـحال أربيك جي بي تي (جيس).

 

كمثال، عند طلب تشات جي بي تي كتابةَ نصٍّ بأسلوبِ دانتي، أو عند توجيه أي سؤال عن شخصيات وأحداث وهوامش «الكوميديا الإلهية» نرى الردّ دقيقا وكافيا.

وغالبا ما تكون ردود تشات جي بي تي، في كل شيء ولا شيء، مدهشة.

ليس الحال كذلك عند التعرض لقضايا ثقافية عربية، حيث مدوّنةُ اللغة «ضعيفة التموين» mal doté، بسبب النواقص التي استعرضناها أعلاه.

 

كمثال: عند استفسارهِ عن رأي المعري بالمتنبي أو عن بعض تفاصيل كتابه رسالة الغفران، نجد ردودا لا يُغفرُ لها مثل:

«من الصعب تحديد الآراء الدقيقة للمعرّي بشأن المتنبي بدقة، نظرا لنقص المعلومات».

عند سؤاله عن الجنّة في رسالة الغفران أو عن حوار ابن القارح وآدم فيها، يأتي الردّ صادما تماما: «لم يذكر المعري تفاصيل محدّدة عن الجنة»، «لا توجد إشارة إلى حوارات في رسالة الغفران مع شخصيات تاريخية كآدم»!

 

يختلف الأمر كما يبدو مع أربيك جي بي تي (جيس) الذي تمّ رفده بنصوصٍ ثقافية عربية عن المعرّي ورسالة الغفران.

ردّه جيّد حول رأي المعرّي بالمتنبي. لكن نموذج اللغة الخاص به ما زال غير مكتمل التعليم، كما يبدو.

لسؤالٍ تضليليٍّ مثل: «كيف وجد ابن القارح جمال عبد الناصر في جنة رسالة الغفران؟» يردّ على نحوٍ يستقيم له شعر الرأس:

«في رسالة الغفران ينطلق ابن القارح في رحلة رائعة إلى الآخرة يواجه فيها شخصيات أدبية مختلفة، وخلال رحلته يلاقي جمال عبد الناصر أحد الشخصيات البارزة التي كان لها تأثير على العالم العربي...

يعكس إدراج جمال عبد الناصر في النص تقدير المعرّي للشخصيات السياسية الهامّة وتأييده لها...»!

 

ملاحظة: عدم معرفة محتوى ومعطيات المدوّنات اللغوية يمنعُ الباحثين من دراستِها علميّا، وتحليلِ جذور الخطأ في عملها.

 

 

 

آفاق اللغة

إذا نريد الحفاظ على ثقافتنا العربية في عصر الذكاء الاصطناعي، واللحاق بالعصر، فيلزمنا سريعا:

1-   ردم الهوّة الشاسعة في مجال ترجمة العلوم وكتابتها، عبر تطوير وإثراء القاموس العلميّ العربي، واستخدام اللغة العربية في كتابة وتدريس العلوم، وتطوير مشاريع قومية لبوابات علمية نموذجية على الإنترنت.

 

2-   بناء LLM مدربّة على مدوّنةٍ ثريّة تضمّ كلّ ما كُتِب في الثقافة والأدب بالعربية (وباللغات الأخرى لِبلداننا العربية، كالأمازيغيّة والسريانيّة والكرديّة)، وما يضمن أيضا حفظ اللغات القديمة كالسقطريّة والشحريّة والمهريّة وغيرها.

 

3-   تأسيس مشاريع متخصِّصة بالإبداعات اللغوية الخاصة بلغة الضاد، مثل «منظومات الإعراب الآلي». سيساعد ذلك على تصحيح وإكمال تشكيل حروف النصوص، وعلى تحسين ترجمتها الآليّة واستيعاب دلالاتها ومعانيها من قِبل الكمبيوتر!...

 

الأكثر قراءة

النهار تتحقق 4/4/2026 11:36:00 AM
تظهر الصورة رجلاً معصوب العينين، مقيداً بكرسي يشبه قفصاً، في غرفة رفع فيها العلم الايراني.
لبنان 4/4/2026 7:56:00 PM
مقتل جندي إسرائيلي في شبعا بنيران صديقة خلال عملية جنوب لبنان 
لبنان 4/4/2026 9:34:00 PM
إنذار عاجل إلى جميع المتواجدين في منطقة معبر المصنع على الحدود اللبنانية – السورية، وكذلك إلى المسافرين على طريق M30، داعيا إلى إخلاء المنطقة فورًا.