23-04-2017 | 09:00

المعالجة الرقمية للغة العربية: المجال الممكن

نعمه نعمه

المصدر: "النهار"

المعالجة الرقمية للغة العربية: المجال الممكن

الفرق الذي تُحدثه حركة صغيرة في معنى كلمات مثل: "الحِلّ" والحَلّ" أو "النِفايات والنُفايات" أو "عِصاب وعُصاب" أو "يَدرس" ويُدرس"، فرق بنيوي أو لفظي أو نحوي، وغيرها الآلاف من الكلمات المستخدمة يوميّاً التي نلجأ الى تشكيلها جزئيّاً أو كليّاً لإيصال المعنى المطلوب.

لا شكّ في أن عقلنا المدرّب على قراءة الأوزان وفهمها، وتحليل الكلمات وتحريكها، يسبقنا أحيانًا ويتجاوز مقدرتنا على فهم العملية السريعة التي نحققها في قراءة نصّ عربيّ وفهمه، ولو تعثّرنا في بعض الأحيان. لكن أن تُحقّق أبحاثنا العلمية وإنتاجاتها تراجعًا عما حقّقه عقلنا من قدرات استيعابيّة للغتنا المعقّدة والغنيّة، فنُنتج ما هو أقلّ من قدرات عقلنا الفطرية ليقدمَها لنا على أنها الخيار، فهذا أمر فيه جدل، لا بل تعدٍّ على ذكائنا.

الحديث هنا ليس عن اللغة العربيّة بل عن معالجتها رقميّاً، ولا سيما بعد أن أطلقت بعض المؤسسات برامج تدقيق إملائي للغة العربية. فبعد عشرين سنة من الأبحاث في كبرى المراكز المموّلة من دول وجامعات، لم يقدّم أيّ منها ما هو قابل للإستخدام لا في التدقيق الإملائي أو في التعليم الرقمي التفاعلي أو تحقيق مورد لغوي رقميّ.

ماذا جرى خلال شهر شباط 2017؟

أطلقت شركة ناشئة من بيروت مدقّق "دال" الإملائي. بعد بضعة أيام نشر معهد قطر لبحوث الحوسبة نموذجه لمعالجة اللغة العربية والتصحيح الإملائي. "غوغل" سحب مدقّقه الإملائي من التداول على "غوغل دوك" Google docs بعد أن أعاد العمل به في نسخته المعدّلة 2016 ثم أعاده مجدداً. أما مركز البحوث التابع لجامعة الملك خالد في السعودية وشركة صخر فلم نسمع جديدهما منذ وقت. مايكروسوفت تشعر بالفضول فتعيد قراءة أبحاث "دال" العلميّة.

عند زيارتنا موقع مدقّق "دال" الإملائي نقرأ ونختبر كفاءة عالية وقدرات في تدقيق النصوص المشكولة، ولا سيما التشكيل المعجمي عموماً والإعرابي في حالتَي إتصال الكلمة بحرف جرّ أو الفعل بأداة نصب، وهذه ميزة يتفرد بها "دال"، كما أن دقّة مخرجاته التي تغطي أكثر من 99 في المئة من النصوص العربية الحديثة فهي عالية، مقارنةً ببعض المدقّقات المقترحة من مراكز وشركات عالمية.

تكثُر المعالجات الرقميّة وتُبذّر الأموال الفائضة من دون مُنتج فعّال، ولا يخضع أيٌّ من هذه المراكز للمساءلة والمحاسبة بناءً على معايير واضحة تُحدّد صلاحيّة المدقّق الإملائي العربي التي تتمثل في حالتنا في ثلاث نقاط أساسية إضافة الى التغطية المُعجمية الواسعة ودقّتها:

المعيار التصريفيّ: كل كلمة في قاموس المدقّق يجب أن يتوالد معها كامل تصريفاتها كالأفعال (ماضٍ، مضارع، أمر، مرفوع، منصوب، مجزوم، مؤكد، مذكّر مؤنث، مخاطب، غائب...) والأسماء (رفع، نصب، جرّ، مفرد، مثنّى، جمع، معرّف، نكرة، مضاف، جمع تكسير...)
.

المعيار التلاصقيّ: إذا انوجدت كلمة في القاموس المصرّف، فعليها أن تحضر في جميع احتمالات سوابقها ولواحقها المتناسبة دون غيرها: كاتصال الأسماء بحروف العطف والجرّ و"الـ" التعريف كما في "وبرؤسائهم" والضمائر المتصلة، وإتصال الأفعال بحروف العطف وأداة النصب أو الجزم وإثني عشر ضميرا متصلا، كما في "فليغيروها".

المعيار التشكيلي: إذا انوجدت كلمة مصرّفة مع أو من دون سوابقها ولواحقها، فعليها أن تحضر في كل احتمالات تشكيلها الصحيحة دون غيرها: التشكيل الكلّي أو الجزئي أو دون تشكيل، وهذه الخاصية تتفرّد بها اللغة العربية.

الناطقون بالعربية يستشعرون هذه المعايير ويطبّقونها بشكل فطري، مع بعض الثغر طبعاً. لكن الجدير ذكره أن برنامجاً حاسوبياً ذا بناء وهندسة ورؤية ألسنية منهجية وعلمية قادر على تحقيق تلك المعايير من خلال الآلة.

في تقييم مدقّق "أوفيس" 2016، وجدنا انه يحوي قاموساً واسعاً جداً من الكلمات/الأشكال، يغطي بنسبة عالية (لكن ليست كاملة) ثغر المعيارين التصريفيّ والتلاصقيّ؛ أما معيار التشكيل الجزئيّ والكليّ فهو غائب، لذلك نرى تدقيقهم يستثني الحركات لعجزهم عن هندسة ترميز علمي يتضمن تغطية التشكيل في اللغة العربية.

أما مدقّق "غوغل" فمشكلاته متعدّدة وأفق تطويره شبه مستحيل، فهو ضعيف في المعايير الثلاثة، ومن الطبيعي أن يسحب "غوغل" منتجه فيعيده بين الحين والآخر لتقييمه والعمل عليه مراراً وتكراراً.

أما مدقّق "فراسة" من معهد قطر فيفتقر بقوة إلى المعايير الثلاثة إضافة الى ضعف قاموسه الذي يعتمد على نصوص محطة "الجزيرة" التلفزيونية. فقاموسه محدود بتعابير ومصطلحات مستخدمة في المحطة ويفتقر إلى غيرها. لم يحلّ مدقّق "فراسة" المشكلات الأساسية كحرف الياء والألف المقصورة فيستبدل "التقيّ" بـ"التقى"، ويتضمن ثغراً في التعرّف إلى كل أشكال تصريف الأفعال مثل: "يحدّثونها" فيستبدلها بـ"يحددنها" والمثنى: "ركبتاه" فيستبدلها بـ"ركبته"، كذلك الضمائر المتصلة فيحوّل كلمة "سيّده" الى "سيدة". في الإجمال حال المدقّقات الباقية شبيهة بحال "فراسة".

إن إصدار مدقّق إملائي عالي الدقّة ويحوي هذه المعايير الثلاثة ليس بالأمر المستحيل. مدقّق "دال" حقّقها بجهود فرديّة واستثنائية. فهو أول مدقّق يتضمن التشكيل المُعجمي. لقد حقّق الممكن واحترم ذكاء الناطقين باللغة العربية واللغة نفسها.

أما المؤسسات التي تُصرف عليها الملايين سنويّاً، فلم تُنجز ما يمكن الإعتماد عليه، حيث البحث العلمي بين أيدٍ ومؤسسات وجامعات تستشرف المال وليس العلم ولا النتائج ذات الصدقية، بينما الحلول في مكان آخر.

عديدة هي الظواهر اللغوية في معطياتها وتفاصيل توصيفها في اللغة العربيّة: في اللفظ، في الفونولوجيا، في التصريف، في النحو ومعاني المفردات؛ وهي متشابكة ومتصلة بعضها ببعض على أكثر من مستوى إلى درجة أن خوارزميات المبرمجين الحاسوبيين "العبقرية" تبدو حشرة أمام عملاق اللغة العربية وتشابكاتها.

* (باحث في التربية والفنون)

مدقّق "أوفيس" 2016: على الموقع الرسمي لأوفيس وهو مدفوع

مدقق "غوغل":

https://docs.google.com /

مدقق "فراسة" من معهد قطر لبحوث الحوسبة:

http://qatsdemo.cloudapp.net/farasa/demo.html

مدقّق "دال" الإملائي

http://dal.univ-mlv.fr