لغويات حاسوبية

علم اللغة الحاسوبي هو مجال متعدد التخصصات يهتم بالنمذجة الحوسبية للغة الطبيعية ، وكذلك دراسة المناهج الحوسبية المناسبة للأسئلة اللغوية. بشكل عام ، يعتمد علم اللغة الحاسوبي على علم اللغة وعلوم الكمبيوتر والذكاء الاصطناعي والرياضيات والمنطق والفلسفة والعلوم المعرفية وعلم النفس المعرفي وعلم اللغة النفسي وعلم الإنسان وعلم الأعصاب ، من بين أمور أخرى.


تقليديا ، ظهرت اللغويات الحاسوبية كمجال للذكاء الاصطناعي يقوم به علماء الكمبيوتر الذين تخصصوا في تطبيق أجهزة الكمبيوتر على معالجة لغة طبيعية. مع تشكيل جمعية اللغويات الحاسوبية (ACL)[1] وإنشاء سلسلة مؤتمرات مستقلة ، تم توحيد المجال خلال السبعينيات والثمانينيات. يعتبر مصطلح "اللغويات الحاسوبية" في الوقت الحاضر (2020) مرادفًا تقريبًا لمعالجة اللغة الطبيعية (NLP) وتكنولوجيا اللغة (البشرية). تركز هذه المصطلحات بشكل أقوى على جوانب التطبيقات العملية بدلاً من الاستفسار النظري ، ومنذ العقد الأول من القرن الحادي والعشرين ، حلت إلى حد كبير محل مصطلح "اللغويات الحاسوبية" في مجتمع البرمجة اللغوية العصبية.[2]

يحتوي علم اللغة الحاسوبي على مكونات نظرية وتطبيقية. يركز علم اللغة الحوسبي النظري على قضايا في علم اللغة النظري والعلوم المعرفية.[3] يركز علم اللغة الحوسبي التطبيقي على النتيجة العملية لنمذجة استخدام اللغة البشرية.[3]تشمل اللسانيات الحوسبية النظرية تطوير النظريات الرسمية للقواعد (الاعراب) والدلالات ، وغالبًا ما ترتكز على المنطق الرسمي والنهج الرمزي (القائم على المعرفة). يهيمن التعلم الآلي على اللغويات الحاسوبية التطبيقية ، التي تستخدم الأساليب الإحصائية تقليديًا ، منذ منتصف عام 2010 بواسطة الشبكات العصبونية: Socher et al. (2012)[4] كان برنامجًا تعليميًا مبكرًا للتعلم العميق في ACL 2012 ، وقد لاقى اهتمامًا وشكوكًا (في ذلك الوقت) من قبل معظم المشاركين. حتى ذلك الحين ، تم رفض التعلم العصبي أساسًا بسبب افتقاره للتفسير الإحصائي. حتى عام 2015 ، تطور التعلم العميق إلى إطار العمل الرئيسي للغة البرمجة اللغوية العصبية.


تعرف جمعية اللغويات الحاسوبية علم اللغة الحاسوبي على النحو التالي

...الدراسة العلمية لـ اللغة من منظور حوسبي. يهتم اللغويون الحوسبيون بتوفير نموذج حوسبي لأنواع مختلفة من الظواهر اللغوية.[5]

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

الأصول

غالبًا ما يتم تجميع اللغويات الحاسوبية في مجال الذكاء الاصطناعي ولكنها كانت موجودة قبل تطوير الذكاء الاصطناعي. نشأت اللغويات الحاسوبية مع الجهود المبذولة في الولايات المتحدة في الخمسينيات من القرن الماضي لاستخدام أجهزة الكمبيوتر لترجمة النصوص تلقائيًا من اللغات الأجنبية ، وخاصة المجلات العلمية الروسية ، إلى اللغة الإنجليزية.[6] نظرًا لأن أجهزة الكمبيوتر يمكنها إجراء عمليات حساتبية (منهجية) بشكل أسرع وأكثر دقة من البشر ، فقد كان يُعتقد أنها مجرد مسألة وقت قصير قبل أن يتمكنوا أيضًا من البدء في معالجة اللغة.[7] تُستخدم الأساليب الحوسبية والكمية أيضًا تاريخيًا في محاولة إعادة بناء الأشكال السابقة للغات الحديثة وتجميع اللغات الحديثة في عائلات لغوية. ثبت أن الطرق السابقة ، مثل المعجم وعلم المزمار الزمني ، سابقة لأوانها وغير دقيقة. ومع ذلك ، فقد أثبتت الدراسات الحديثة متعددة التخصصات التي تقترض مفاهيم من الدراسات البيولوجية ، وخاصة رسم خرائط الجينات ، أنها تنتج أدوات تحليلية أكثر تطوراً ونتائج أكثر موثوقية.[8]


عندما فشلت الترجمة الآلية (المعروفة أيضًا باسم الترجمة الميكانيكية) في الحصول على ترجمات دقيقة على الفور ، تم التعرف على المعالجة الآلية للغات البشرية على أنها أكثر تعقيدًا بكثير مما كان يُفترض في الأصل. وُلد علم اللغة الحاسوبي كاسم لمجال الدراسة الجديد المخصص لتطوير الخوارزميات والبرمجيات لمعالجة بيانات اللغة بذكاء. صاغ مصطلح "اللغويات الحاسوبية" لأول مرة ديفيد هايز ، وهو عضو مؤسس لكل من جمعية اللغويات الحاسوبية (ACL) واللجنة الدولية للغويات الحاسوبية (ICCL).[9]

لترجمة لغة إلى أخرى ، لوحظ أنه يتعين على المرء أن يفهم قواعد كلتا اللغتين ، بما في ذلك كل من علم التشكيل (قواعد أشكال الكلمات) وبناء الجملة (قواعد بنية الجملة). لفهم النحو ، كان على المرء أيضًا أن يفهم الدلالات والمعجم (أو "المفردات") ، وحتى شيئًا من الذرائع في استخدام اللغة. وهكذا ، فإن ما بدأ كمحاولة للترجمة بين اللغات تطور إلى تخصص كامل مكرس لفهم كيفية تمثيل ومعالجة اللغات الطبيعية باستخدام أجهزة الكمبيوتر.[10]

في الوقت الحاضر يتم البحث في نطاق علم اللغة الحاسوبي في أقسام اللغويات الحاسوبية ،[11] ومختبرات اللغويات الحاسوبية ،[12] وأقسام علوم الكمبيوتر ،[13] وأقسام اللغويات.[14][15] تهدف بعض الأبحاث في مجال اللغويات الحاسوبية إلى إنشاء أنظمة معالجة نصوص أو كلام عاملة بينما يهدف البعض الآخر إلى إنشاء نظام يسمح بالتفاعل بين الإنسان والآلة. تسمى البرامج المخصصة للاتصال بين الإنسان والآلة وعوامل المحادثة.[16]


المناهج

مثلما يمكن إجراء اللغويات الحاسوبية من قبل خبراء في مجموعة متنوعة من المجالات ومن خلال مجموعة متنوعة من الأقسام ، كذلك يمكن لمجالات البحث طرح مجموعة متنوعة من الموضوعات. تناقش الأقسام التالية بعض الأدبيات المتوفرة عبر المجال بأكمله مقسمة إلى أربعة مجالات رئيسية للخطاب: علم اللغة التطوري ، واللغويات البنيوية ، والإنتاج اللغوي ، والفهم اللغوي.

المناهج التنموية

اللغة هي مهارة معرفية تتطور طوال حياة الفرد. تم فحص هذه العملية التنموية باستخدام عدة تقنيات ، ومن بينها النهج الحوسبي. يوفر تطوير اللغة البشرية بعض القيود التي تجعل من الصعب تطبيق طريقة حوسبية لفهمها. على سبيل المثال ، أثناء اكتساب اللغة ، يتعرض الأطفال إلى حد كبير فقط للأدلة الإيجابية.[17] هذا يعني أنه خلال التطور اللغوي للفرد ، يتم تقديم الدليل الوحيد على الشكل الصحيح ، ولا يوجد دليل على ما هو غير صحيح. هذه معلومات غير كافية لإجراء اختبار فرضية بسيط للحصول على معلومات معقدة مثل اللغة ،[18] وبالتالي توفر حدودًا معينة لنهج حوسبي لنمذجة تطوير اللغة واكتسابها في الفرد.

بذلت محاولات لنمذجة العملية التنموية لاكتساب اللغة لدى الأطفال من زاوية حوسبية ، مما أدى إلى كل من قواعد النحو الإحصائية ونماذج الاتصال.[19] تم اقتراح العمل في هذا المجال أيضًا كطريقة لشرح تطور اللغة عبر التاريخ. باستخدام النماذج ، ثبت أنه يمكن تعلم اللغات من خلال مجموعة من المدخلات البسيطة المقدمة بشكل تدريجي حيث يطور الطفل ذاكرة أفضل ومدى انتباه أطول.[20] تم طرح هذا في وقت واحد كسبب لفترة نمو الأطفال البشرية الطويلة.[20]تم استخلاص كلا الاستنتاجين بسبب قوة الشبكة العصبونية الاصطناعية التي أنشأها المشروع.

تم أيضًا نمذجة قدرة الأطفال على تطوير اللغة باستخدام الروبوتات من أجل اختبار النظريات اللغوية. تم تمكينه للتعلم مثل الأطفال ،[21] تم إنشاء نموذج بناءً على نموذج مميز حيث تم إنشاء التعيينات بين الإجراءات والتصورات والتأثيرات وربطها بالكلمات المنطوقة. بشكل حاسم ، كانت هذه الروبوتات قادرة على الحصول على تعيينات فاعلة من كلمة إلى معنى دون الحاجة إلى بنية نحوية ، وتبسيط عملية التعلم إلى حد كبير وإلقاء الضوء على المعلومات التي تعزز الفهم الحالي للتطور اللغوي. من المهم ملاحظة أنه لا يمكن اختبار هذه المعلومات إلا تجريبيًا باستخدام نهج حوسبي.

نظرًا لأن فهمنا للتطور اللغوي للفرد خلال العمر يتم تحسينه باستمرار باستخدام الشبكات العصبية وأنظمة التعلم الروبوتية ، فمن المهم أيضًا أن نأخذ في الاعتبار أن اللغات نفسها تتغير وتتطور بمرور الوقت. لقد كشفت الأساليب الحوسبية لفهم هذه الظاهرة عن معلومات مثيرة للاهتمام للغاية. باستخدام معادلة السعر وديناميكيات Pólya urn ، أنشأ الباحثون نظامًا لا يتنبأ بالتطور اللغوي المستقبلي فحسب ، بل يعطي أيضًا نظرة ثاقبة للتاريخ التطوري للغات العصر الحديث.[22] تم تحقيق جهد النمذجة هذا ، من خلال علم اللغة الحوسبي ، ما كان يمكن أن يكون مستحيلًا.

من الواضح أن فهم التطور اللغوي لدى البشر وكذلك عبر الزمن التطوري قد تحسن بشكل خيالي بسبب التقدم في علم اللغة الحوسبي. إن القدرة على نمذجة وتعديل الأنظمة حسب الرغبة توفر للعلم طريقة أخلاقية لاختبار الفرضيات التي من شأنها أن تكون مستعصية على الحل.

المناهج الهيكلية

لإنشاء نماذج حوسبية أفضل للغة ، فإن فهم بنية اللغة أمر بالغ الأهمية. تحقيقا لهذه الغاية ، تمت دراسة اللغة الإنگليزية بدقة باستخدام الأساليب الحوسبية لفهم أفضل لكيفية عمل اللغة على المستوى الهيكلي. من أهم أجزاء القدرة على دراسة التركيب اللغوي هو توفر مجموعات أو عينات لغوية كبيرة. يمنح هذا اللغويين الحوسبيين البيانات الأولية اللازمة لتشغيل نماذجهم واكتساب فهم أفضل للهياكل الأساسية الموجودة في الكم الهائل من البيانات الموجودة في أي لغة واحدة. واحدة من أكثر المجموعات اللغوية الإنجليزية استشهاداً هي بن تريبانك.[23] مستمدة من مصادر مختلفة على نطاق واسع ، مثل أدلة كمبيوتر IBM والمحادثات الهاتفية المكتوبة ، تحتوي هذه المجموعة على أكثر من 4.5 مليون كلمة من اللغة الإنجليزية الأمريكية. تم شرح هذه المجموعة في المقام الأول باستخدام علامات جزء من الكلام والاقتحام النحوي وأسفرت عن ملاحظات تجريبية كبيرة تتعلق ببنية اللغة.[24]

كما تم تطوير المناهج النظرية لتركيب اللغات. تسمح هذه الأعمال لعلم اللغة الحوسبي أن يكون لها إطار عمل من خلاله لوضع فرضيات من شأنها تعزيز فهم اللغة بعدد لا يحصى من الطرق. اقترحت إحدى الأطروحات النظرية الأصلية حول استيعاب القواعد وهيكل اللغة نوعين من النماذج.[18] في هذه النماذج ، تزداد قوة القواعد أو الأنماط المكتسبة مع تكرار مواجهتها.[18] خلق العمل أيضًا سؤالًا يجيب عنه اللغويون الحوسبيون: كيف يتعلم الرضيع قواعد محددة وغير طبيعية (صيغة تشومسكي العادية) دون أن يتعلم نسخة مفرطة التعميم ويتعثر؟[18] تحدد الجهود النظرية مثل هذه الاتجاه للبحث في وقت مبكر من عمر مجال الدراسة ، وهي ضرورية لنمو هذا المجال.

تسمح المعلومات الهيكلية حول اللغات باكتشاف وتنفيذ التعرف على التشابه بين أزواج من نطق النص.[25] على سبيل المثال ، ثبت مؤخرًا أنه استنادًا إلى المعلومات الهيكلية الموجودة في أنماط الخطاب البشري ، يمكن استخدام مخططات التكرار المفاهيمية لنمذجة وتصور الاتجاهات في البيانات وإنشاء مقاييس موثوقة للتشابه بين الكلمات النصية الطبيعية.[25] هذه التقنية هي أداة قوية لمزيد من التحقيق في بنية الخطاب البشري. بدون النهج الحوسبي لهذا السؤال ، فإن المعلومات المعقدة للغاية الموجودة في بيانات الخطاب كانت ستظل بعيدة عن متناول العلماء.

المعلومات المتعلقة بالبيانات الهيكلية للغة متاحة للغة الإنجليزية بالإضافة إلى اللغات الأخرى ، مثل اليابانية.[26] باستخدام الأساليب الحوسبية ، تم تحليل مجموعات الجملة اليابانية وتم العثور على نمط من اللوغاريتمات الطبيعية فيما يتعلق بطول الجملة.[26] على الرغم من أن السبب الدقيق لهذا الخلل اللوغاريتمي لا يزال مجهولاً ، إلا أن هذا النوع من المعلومات هو بالضبط الذي صمم علم اللغة الحوسبي للكشف عنه. يمكن أن تؤدي هذه المعلومات إلى مزيد من الاكتشافات المهمة فيما يتعلق بالبنية الأساسية للغة اليابانية ويمكن أن يكون لها أي عدد من التأثيرات على فهم اللغة اليابانية كلغة. تسمح اللغويات الحاسوبية بإضافات مثيرة للغاية لقاعدة المعرفة العلمية بسرعة وبدون مجال للشك.

Iفي الأيام الأخيرة ، أصبحت البيانات الهيكلية للغات متاحة للعديد من لغات العالم بخلاف اللغة الإنجليزية. يجري العمل في اللغويات الحاسوبية على اللغة السندية لأن بنية وقواعد ومجال اللغة السندية تختلف عن اللغات الأخرى في العالم. نماذج اللغويات الحاسوبية للغة الإنجليزية ليست مناسبة للغة السندية. عند عرض هذا ،[27][28][29] بدأ العمل اللغوي الحوسبي على اللغة السندية بشكل صحيح من خلال تطوير الأساليب والخوارزميات وأدوات اللغويات (https://sindhinlp.com/) ونماذج التعلم الآلي ونماذج التعلم العميق منذ عام 2016 [30][31][32][33][34][35] للتركيز على مشاكل اللغويات في اللغة السندية وحلها لغة. يمكن أن يؤدي هذا العمل إلى مزيد من الاكتشافات المهمة فيما يتعلق بالبنية الأساسية للغة السندية ، ويمكن أن يكون لها أي عدد من التأثيرات على فهم اللغة السندية كلغة.

بدون نهج حوسبي لهيكل البيانات اللغوية ، فإن الكثير من المعلومات المتوفرة الآن ستظل مخفية تحت اتساع البيانات داخل أي لغة واحدة. تسمح اللغويات الحاسوبية للعلماء بتحليل كميات هائلة من البيانات بشكل موثوق وفعال ، مما يخلق إمكانية لاكتشافات لا مثيل لها في معظم الأساليب الأخرى.

نهج الإنتاج

قالب:Original research section

إن إنتاج اللغة معقد بنفس القدر في المعلومات التي توفرها والمهارات الضرورية التي يجب أن يمتلكها المنتج بطلاقة. وهذا يعني أن الفهم هو نصف مشكلة الاتصال فقط. النصف الآخر هو كيف ينتج النظام اللغة ، وقد حققت اللغويات الحاسوبية اكتشافات مثيرة للاهتمام في هذا المجال.

آلن تورنگ: عالم كمبيوتر ومطور يحمل الاسم نفسه اختبار تورنگ كطريقة لقياس ذكاء الآلة.

الآلات ، اقترح "اختبار تقليد" حيث يكون للفرد البشري محادثتان نصيتان فقط ، واحدة مع زميل بشري والأخرى مع آلة تحاول الاستجابة مثل الإنسان . يقترح تورينج أنه إذا لم يستطع الذات التمييز بين الإنسان والآلة ، فيمكن الاستنتاج أن الآلة قادرة على التفكير.[36] في ورقة بحثية مشهورة نُشرت في عام 1950 ، اقترح آلان تورنگ إمكانية أن تمتلك الآلات يومًا ما القدرة على "التفكير". كتجربة فكرية لما يمكن أن يعرّف مفهوم الفكر في يُعرف هذا الاختبار اليوم باسم اختبار تورنگ ويظل فكرة مؤثرة في مجال الذكاء الاصطناعي.

يعد برنامج ELIZA الذي طوره جوزيف وايزنباوم في معهد ماساتشوستس للتكنولوجيا في عام 1966 أحد أقدم وأشهر الأمثلة على برنامج كمبيوتر مصمم للتحدث بشكل طبيعي مع البشر. وقد حاكى البرنامج معالجًا نفسيًا روجيريًا عند الرد على البيانات المكتوبة والأسئلة التي طرحها المستخدم. بدت قادرة على فهم ما قيل لها والاستجابة بذكاء ، ولكن في الحقيقة ، إنها ببساطة اتبعت روتينًا مطابقًا للنمط يعتمد فقط على فهم بضع كلمات رئيسية في كل جملة. تم إنشاء ردودها من خلال إعادة دمج الأجزاء غير المعروفة من الجملة حول النسخ المترجمة بشكل صحيح للكلمات المعروفة. على سبيل المثال ، في العبارة "يبدو أنك تكرهني" تفهم إليزا "أنت" و "أنا" الذي يطابق النمط العام "أنت [بعض الكلمات] أنا" ، مما يسمح لإليزا بتحديث الكلمتين "أنت" و "أنا" إلى "أنا" و "أنت" والرد "ما الذي يجعلك تعتقد أنني أكرهك؟". في هذا المثال ، لا تفهم إليزا كلمة "كره" ، لكنها ليست مطلوبة لاستجابة منطقية في سياق هذا النوع من العلاج النفسي.[37]

جوزيف وايزنباوم: أستاذ سابق وعالم كمبيوتر في معهد ماساتشوستس للتكنولوجيا قام بتطوير ELIZA ، وهو برنامج كمبيوتر بدائي يستخدم معالجة اللغة الطبيعية.

لا تزال بعض المشاريع تحاول حل المشكلة التي بدأت علم اللغة الحاسوبي في البداية كمجال لها في المقام الأول. ومع ذلك ، فقد أصبحت الأساليب أكثر دقة ، وبالتالي ، أصبحت النتائج الناتجة عن اللغويين الحوسبيين أكثر استنارة. لتحسين الترجمة الحاسوبية ، تمت مقارنة العديد من النماذج ، بما في ذلك نماذج ماركوف المخفية ، وتقنيات التنعيم ، والتحسينات المحددة لتلك النماذج لتطبيقها على ترجمة الأفعال.[38] كان النموذج الذي تم العثور عليه لإنتاج الترجمات الأكثر طبيعية للكلمات الألمانية والفرنسية هو نموذج محاذاة دقيق مع تبعية من الدرجة الأولى ونموذج خصوبة. كما أنها توفر خوارزميات تدريب فعالة للنماذج المقدمة ، والتي يمكن أن تمنح العلماء الآخرين القدرة على تحسين نتائجهم بشكل أكبر. هذا النوع من العمل خاص باللغويات الحاسوبية وله تطبيقات يمكن أن تحسن بشكل كبير فهم كيفية إنتاج اللغة وفهمها بواسطة أجهزة الكمبيوتر.

تم العمل أيضًا في جعل أجهزة الكمبيوتر تنتج اللغة بطريقة أكثر طبيعية. باستخدام المدخلات اللغوية من البشر ، تم إنشاء خوارزميات قادرة على تعديل أسلوب إنتاج النظام بناءً على عامل مثل المدخلات اللغوية من الإنسان ، أو عوامل أكثر تجريدية مثل الأدب أو أي من الأبعاد الخمسة الرئيسية للشخصية.[39] يتخذ هذا العمل نهجًا حوسبيًا عبر نماذج تقدير المتغيرات لتصنيف مجموعة واسعة من الأساليب اللغوية التي نراها عبر الأفراد وتبسيطها حتى يعمل الكمبيوتر بنفس الطريقة ، مما يجعل التفاعل بين الإنسان والحاسوب أكثر طبيعية.

نهج تفاعلي قائم على النص

تتضمن العديد من أقدم وأبسط النماذج للتفاعل بين الإنسان والحاسوب ، مثل ELIZA على سبيل المثال ، إدخالًا نصيًا من المستخدم لتوليد استجابة من الكمبيوتر. من خلال هذه الطريقة ، تؤدي الكلمات التي يكتبها المستخدم إلى تشغيل الكمبيوتر للتعرف على أنماط معينة والرد وفقًا لذلك ، من خلال عملية تُعرف باسم اكتشاف الكلمات الرئيسية.

نهج تفاعلي قائم على الكلام

ركزت التقنيات الحديثة بشكل أكبر على الأنظمة التفاعلية القائمة على الكلام. تعمل هذه الأنظمة ، مثل Siri في نظام التشغيل iOS ، على تقنية التعرف على الأنماط المماثلة لتلك الخاصة بالأنظمة القائمة على النصوص ، ولكن مع النظام الأول ، يتم إدخال المستخدم من خلال تمييز الكلام. يتضمن هذا الفرع من اللغويات معالجة كلام المستخدم كموجات صوتية وتفسير الصوتيات وأنماط اللغة للكمبيوتر للتعرف على المدخلات.[40]


. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

مناهج الفهم

ينصب الكثير من تركيز علم اللغة الحاسوبي الحديث على الفهم. مع انتشار الإنترنت ووفرة اللغة البشرية المكتوبة التي يسهل الوصول إليها ، فإن القدرة على إنشاء برنامج قادر على فهم اللغة البشرية سيكون لها العديد من الاحتمالات الواسعة والمثيرة ، بما في ذلك محركات البحث المحسنة ، وخدمة العملاء الآلية ، والتعليم عبر الإنترنت.

تضمنت الأعمال المبكرة في مجال الفهم تطبيق إحصائيات بايزي على مهمة التعرف الضوئي على الحروف ، كما أوضح بليدسو وبروينج في عام 1959 حيث تم إنشاء قاموس كبير للأحرف المحتملة من خلال "التعلم" من الحروف النموذجية ثم احتمال أن يكون أي واحد من هؤلاء تم دمج الأمثلة المكتسبة المتطابقة مع الإدخال الجديد لاتخاذ قرار نهائي.[41] تضمنت المحاولات الأخرى لتطبيق إحصائيات بايزي على تحليل اللغة عمل موستيلر ووالاس (1963) حيث تم استخدام تحليل الكلمات المستخدمة في الأوراق الفدرالية لمحاولة تحديد تأليفهم (استنتج أن ماديسون هو الذي كتب على الأرجح غالبية أوراق).[42]

في عام 1971 ، طور تيري فينوغراد محركًا مبكرًا لمعالجة اللغة الطبيعية قادرًا على تفسير الأوامر المكتوبة بشكل طبيعي ضمن بيئة بسيطة تحكمها القواعد. كان برنامج تحليل اللغة الأساسي في هذا المشروع يسمى SHRDLU ، والذي كان قادرًا على إجراء محادثة طبيعية إلى حد ما مع المستخدم بإعطائه الأوامر ، ولكن فقط في نطاق بيئة اللعبة المصممة للمهمة. تتكون هذه البيئة من كتل مختلفة الأشكال والملونة ، وكانت SHRDLU قادرة على تفسير أوامر مثل "ابحث عن كتلة أطول من تلك التي تحملها وضعها في الصندوق". وطرح أسئلة مثل "أنا لا أفهم أي هرم تقصد". ردًا على مدخلات المستخدم.[43] على الرغم من أن هذا النوع من معالجة اللغة الطبيعية مثير للإعجاب ، فقد ثبت أنه أكثر صعوبة خارج النطاق المحدود لبيئة اللعب. وبالمثل ، تم تصميم مشروع طورته وكالة ناسا يسمى LUNAR لتقديم إجابات للأسئلة المكتوبة بشكل طبيعي حول التحليل الجيولوجي للصخور القمرية التي أعادتها بعثات أبولو.[44] يشار إلى هذه الأنواع من المشاكل بالإجابة على الأسئلة.

استندت المحاولات الأولية لفهم اللغة المنطوقة إلى العمل المنجز في الستينيات والسبعينيات من القرن الماضي في نمذجة الإشارة حيث يتم تحليل إشارة غير معروفة للبحث عن أنماط ولإجراء تنبؤات بناءً على تاريخها. تم تحقيق نهج أولي وناجح إلى حد ما لتطبيق هذا النوع من نمذجة الإشارة على اللغة باستخدام نماذج ماركوف المخفية على النحو المفصل من قبل رابينر في عام 1989.[45] يحاول هذا النهج تحديد احتمالات العدد التعسفي للنماذج التي يمكن استخدامها في توليد الكلام بالإضافة إلى نمذجة احتمالات الكلمات المختلفة الناتجة عن كل من هذه النماذج الممكنة. تم استخدام أساليب مماثلة في محاولات تمييز الكلام المبكرة التي بدأت في أواخر السبعينيات في شركة IBM باستخدام احتمالات زوج الكلمة / جزء من الكلام.[46]

في الآونة الأخيرة ، تم تطبيق هذه الأنواع من الأساليب الإحصائية على مهام أكثر صعوبة مثل تحديد الموضوع باستخدام تقدير معلمة بايزي لاستنتاج احتمالات الموضوع في المستندات النصية.[47]

التطبيقات

اللغويات الحاسوبية التطبيقية تعادل إلى حد كبير معالجة اللغة الطبيعية ، انظر هناك. تتضمن أمثلة التطبيقات للمستخدمين النهائيين برامج التعرف على الكلام ، مثل ميزة Siri من Apple ، وأدوات التدقيق الإملائي ، وبرامج تركيب الكلام ، والتي تُستخدم غالبًا لإثبات النطق أو مساعدة المعاقين ، وبرامج الترجمة الآلية ومواقع الويب ، مثل ترجمة گوگل.[48]

تكون اللغويات الحاسوبية مفيدة أيضًا في المواقف التي تنطوي على وسائل التواصل الاجتماعي والإنترنت ، على سبيل المثال ، لتوفير عوامل تصفية المحتوى في غرف الدردشة أو في عمليات البحث في مواقع الويب ،[48] لتجميع المحتوى وتنظيمه من خلال التنقيب في وسائل التواصل الاجتماعي ،[49] واسترجاع الوثائق وتجميعها. على سبيل المثال ، إذا بحث شخص ما عن "مركبة حمراء كبيرة ذات أربع عجلات" للعثور على صور لشاحنة حمراء ، فسيظل محرك البحث يجد المعلومات المطلوبة عن طريق مطابقة كلمات مثل "رباعية العجلات" مع "سيارة".[50]

تعد المناهج الحوسبية مهمة أيضًا لدعم البحث اللغوي ، على سبيل المثال ، في علم اللغة المادي[51] أو علم اللغة التاريخي. بالنسبة لدراسة التغيير بمرور الوقت ، يمكن للطرق الحوسبية أن تساهم في نمذجة وتحديد العائلات اللغوية (انظر المزيد من علم اللغة المقارن الكمي أو علم الوراثة) ، [52].بالإضافة إلى نمذجة التغييرات في الصوت والمعنى.[53]

الحقول الفرعية

يمكن تقسيم اللغويات الحاسوبية إلى مجالات رئيسية وفقًا لمعايير مختلفة ، بما في ذلك:

  • متوسط اللغة التي تتم معالجتها ، سواء كانت منطوقة أو نصية: يتعامل تمييز الكلام وتوليف الكلام مع كيفية فهم اللغة المنطوقة أو إنشائها باستخدام أجهزة الكمبيوتر.
  • المهمة التي يتم إجراؤها ، على سبيل المثال ، ما إذا كان تحليل اللغة (التعرف) أو توليف اللغة (الجيل): التحليل والتوليد هما قسمان فرعيان من اللغويات الحاسوبية يتعاملان على التوالي مع تفكيك اللغة ووضعها معًا.
  • النية: ما إذا كانت مدفوعة بتطبيقات العالم الحقيقي (علم اللغة الحوسبي التطبيقي) أو البحث الأساسي (اللغويات الحوسبية النظرية).

بالنسبة للمهام التي تتناولها اللغويات الحوسبية التطبيقية ، انظر مقالة معالجة اللغة الطبيعية. يتضمن ذلك المشكلات الكلاسيكية مثل تصميم POS-taggers (علامات جزء من الكلام) ، ومحللات اللغات الطبيعية ، أو مهام مثل الترجمة الآلية (MT) ، والتقسيم الفرعي للغويات الحوسبية الذي يتعامل مع جعل أجهزة الكمبيوتر تترجم بين اللغات . باعتبارها واحدة من أقدم وأصعب تطبيقات اللغويات الحاسوبية ، تعتمد الترجمة الآلية على العديد من الحقول الفرعية والجوانب النظرية والتطبيقية. تقليديا ، تم اعتبار الترجمة الآلية للغة فرعًا صعبًا من علم اللغة الحاسوبي.[54]

تشمل مجالات البحث التي يدرسها علم اللغة الحسابي النظري ما يلي:

تقليديا ، تم وصف تطبيقات الكمبيوتر لمعالجة مشاكل البحث في فروع علم اللغة الأخرى كمهام ضمن علم اللغة الحاسوبي. من بين الجوانب الأخرى ، وهذا يشمل

إرث

كان لموضوع اللغويات الحاسوبية تأثير متكرر على الثقافة الشعبية:

أنظر أيضا

المراجع

  1. ^ "ACL Member Portal | The Association for Computational Linguistics Member Portal". www.aclweb.org. Retrieved 2020-08-17.
  2. ^ As pointed out, for example, by Ido Dagan at his speech at the ACL 2010 banquet in Uppsala, Sweden.
  3. ^ أ ب Uszkoreit, Hans. "What Is Computational Linguistics?". Department of Computational Linguistics and Phonetics of Saarland University.
  4. ^ Socher, Richard. "Deep Learning For NLP-ACL 2012 Tutorial". Socher. Retrieved 2020-08-17.
  5. ^ "What is Computational Linguistics?". The Association for Computational Linguistics. February 2005.
  6. ^ John Hutchins: Retrospect and prospect in computer-based translation. Proceedings of MT Summit VII, 1999, pp. 30–44.
  7. ^ Arnold B. Barach: Translating Machine 1975: And the Changes To Come.
  8. ^ T. Crowley., C. Bowern. An Introduction to Historical Linguistics. Auckland, N.Z.: Oxford UP, 1992. Print.
  9. ^ "Deceased members". ICCL members. Retrieved 15 November 2017.
  10. ^ Natural Language Processing by Liz Liddy, Eduard Hovy, Jimmy Lin, John Prager, Dragomir Radev, Lucy Vanderwende, Ralph Weischedel
  11. ^ "Computational Linguistics and Phonetics".
  12. ^ "Yatsko's Computational Linguistics Laboratory".
  13. ^ "CLIP".
  14. ^ Computational Linguistics – Department of Linguistics – Georgetown College
  15. ^ "UPenn Linguistics: Computational Linguistics".
  16. ^ Jurafsky, D., & Martin, J. H. (2009). Speech and language processing: An introduction to natural language processing, computational linguistics, and speech recognition. Upper Saddle River, N.J: Pearson Prentice Hall.
  17. ^ Bowerman, M. (1988). The "no negative evidence" problem: How do children avoid constructing an overly general grammar. Explaining language universals.
  18. ^ أ ب ت ث Braine, M.D.S. (1971). On two types of models of the internalization of grammars. In D.I. Slobin (Ed.), The ontogenesis of grammar: A theoretical perspective. New York: Academic Press.
  19. ^ Powers, D.M.W. & Turk, C.C.R. (1989). Machine Learning of Natural Language. Springer-Verlag. ISBN 978-0-387-19557-5.
  20. ^ أ ب Elman, Jeffrey L. (1993). "Learning and development in neural networks: The importance of starting small". Cognition. 48 (1): 71–99. doi:10.1016/0010-0277(93)90058-4. PMID 8403835. S2CID 2105042.
  21. ^ Salvi, G.; Montesano, L.; Bernardino, A.; Santos-Victor, J. (2012). "Language bootstrapping: learning word meanings from the perception-action association". IEEE Transactions on Systems, Man, and Cybernetics. Part B. 42 (3): 660–71. arXiv:1711.09714. doi:10.1109/TSMCB.2011.2172420. PMID 22106152. S2CID 977486.
  22. ^ Gong, T.; Shuai, L.; Tamariz, M. & Jäger, G. (2012). E. Scalas (ed.). "Studying Language Change Using Price Equation and Pólya-urn Dynamics". PLOS ONE. 7 (3): e33171. Bibcode:2012PLoSO...733171G. doi:10.1371/journal.pone.0033171. PMC 3299756. PMID 22427981.{{cite journal}}: CS1 maint: unflagged free DOI (link)
  23. ^ Marcus, M. & Marcinkiewicz, M. (1993). "Building a large annotated corpus of English: The Penn Treebank" (PDF). Computational Linguistics. 19 (2): 313–330.
  24. ^ Taylor, Ann (2003). "1". Treebanks. Spring Netherlands. pp. 5–22.
  25. ^ أ ب Angus, D.; Smith, A. & Wiles, J. (2012). "Conceptual recurrence plots: revealing patterns in human discourse" (PDF). IEEE Transactions on Visualization and Computer Graphics. 18 (6): 988–97. doi:10.1109/TVCG.2011.100. PMID 22499664. S2CID 359497.
  26. ^ أ ب Furuhashi, S. & Hayakawa, Y. (2012). "Lognormality of the Distribution of Japanese Sentence Lengths". Journal of the Physical Society of Japan. 81 (3): 034004. Bibcode:2012JPSJ...81c4004F. doi:10.1143/JPSJ.81.034004.
  27. ^ "Mazhar Ali Dootio | PhD (Computer Science) Continue from SZABIST Karachi Sindh Pakistan | Independent Researcher | Computer Science | ResearchGate". ResearchGate. Retrieved 2019-07-16.
  28. ^ "Mazhar Ali Dootio - Google Scholar Citations". scholar.google.com.pk. Retrieved 2019-07-16.
  29. ^ "Sindhi NLP". sindhinlp.com. Retrieved 2019-07-16.
  30. ^ Dootio, Mazhar Ali; Wagan, Asim Imdad (February 2019). "Development of Sindhi text corpus". Journal of King Saud University - Computer and Information Sciences. doi:10.1016/j.jksuci.2019.02.002. ISSN 1319-1578.
  31. ^ Dootio, Mazhar Ali; Wagan, Asim Imdad (January 2019). "Syntactic parsing and supervised analysis of Sindhi text". Journal of King Saud University - Computer and Information Sciences. 31 (1): 105–112. doi:10.1016/j.jksuci.2017.10.004. ISSN 1319-1578.
  32. ^ Wagan, Asim Imdad; Ali, Mazhar (2019-01-01). "An Analysis of Sindhi Annotated Corpus using Supervised Machine Learning Methods". Mehran University Research Journal of Engineering and Technology. 38 (1): 185–196. Bibcode:2019MURJE..38..185A. doi:10.22581/muet1982.1901.15. ISSN 2413-7219.
  33. ^ Dootio, Mazhar Ali (2017), AUTOMATIC STEMMING AND LEMMATIZATION PROCESS FOR SINDHI TEXT, 6, JSSIR NED University of Engineering and Technology Karachi Sindh Pakistan, pp. 103–112, https://www.researchgate.net/publication/328202210 
  34. ^ Dootio, Mazhar Ali; Wagan, Asim Imdad (August 2018). "Unicode-8 based linguistics data set of annotated Sindhi text". Data in Brief. 19: 1504–1514. doi:10.1016/j.dib.2018.05.062. ISSN 2352-3409. PMC 6139473. PMID 30225294.
  35. ^ "An analysis and solution of computational linguistics problems of Sindhi text". ResearchGate. Retrieved 2019-07-16.
  36. ^ Turing, A. M. (1950). "Computing machinery and intelligence". Mind. 59 (236): 433–460. doi:10.1093/mind/lix.236.433. JSTOR 2251299.
  37. ^ Weizenbaum, J. (1966). "ELIZA—a computer program for the study of natural language communication between man and machine". Communications of the ACM. 9 (1): 36–45. doi:10.1145/365153.365168. S2CID 1896290.
  38. ^ Och, F. J.; Ney, H. (2003). "A Systematic Comparison of Various Statistical Alignment Models". Computational Linguistics. 29 (1): 19–51. doi:10.1162/089120103321337421.
  39. ^ Mairesse, F. (2011). "Controlling user perceptions of linguistic style: Trainable generation of personality traits". Computational Linguistics. 37 (3): 455–488. doi:10.1162/COLI_a_00063.
  40. ^ Language Files. The Ohio State University Department of Linguistics. 2011. pp. 624–634. ISBN 9780814251799.
  41. ^ (1959) "Pattern recognition and reading by machine" in Papers presented at the December 1–3, 1959, eastern joint IRE-AIEE-ACM computer conference on – IRE-AIEE-ACM ’59 (Eastern).: 225–232, New York, New York, USA: ACM Press. doi:10.1145/1460299.1460326. 
  42. ^ Mosteller, F. (1963). "Inference in an authorship problem". Journal of the American Statistical Association. 58 (302): 275–309. doi:10.2307/2283270. JSTOR 2283270.
  43. ^ Winograd, T. (1971). "Procedures as a Representation for Data in a Computer Program for Understanding Natural Language" (Report). {{cite journal}}: Cite journal requires |journal= (help)
  44. ^ Woods, W.; Kaplan, R. & Nash-Webber, B. (1972). "The lunar sciences natural language information system" (Report). {{cite journal}}: Cite journal requires |journal= (help)
  45. ^ Rabiner, L. (1989). "A tutorial on hidden Markov models and selected applications in speech recognition". Proceedings of the IEEE. 77 (2): 257–286. CiteSeerX 10.1.1.381.3454. doi:10.1109/5.18626.
  46. ^ Bahl, L.; Baker, J.; Cohen, P.; Jelinek, F. (1978). "Recognition of continuously read natural corpus". Acoustics, Speech, and Signal. 3: 422–424. doi:10.1109/ICASSP.1978.1170402.
  47. ^ Blei, D. & Ng, A. (2003). "Latent dirichlet allocation". The Journal of Machine Learning. 3: 993–1022.
  48. ^ أ ب "Careers in Computational Linguistics". California State University. Retrieved 19 September 2016.
  49. ^ Marujo, Lus et al. "Automatic Keyword Extraction on Twitter." Language Technologies Institute, Carnegie Mellon University, n.d. Web. 19 Sept. 2016.
  50. ^ "Computational Linguistics". Stanford Encyclopedia of Philosophy. Metaphysics Research Lab, Stanford University. Feb 26, 2014. Retrieved Apr 19, 2017.
  51. ^ أ ب McEnery, Thomas (1996). Corpus Linguistics: An Introduction. Edinburgh: Edinburgh University Press. p. 114. ISBN 978-0748611652.
  52. ^ Pigoli, Davide, et al. "The analysis of acoustic phonetic data: exploring differences in the spoken romance languages." arXiv preprint arXiv:1507.07587 985 (2015); Group, The Functional Phylogenies. "Phylogenetic inference for function-valued traits: speech sound evolution." Trends in ecology & evolution 27.3 (2012): 160-166..
  53. ^ e.g. Hamilton, William L., Jure Leskovec, and Dan Jurafsky. "Diachronic word embeddings reveal statistical laws of semantic change." arXiv preprint arXiv:1605.09096 (2016).
  54. ^ Oettinger, A. G. (1965). Computational Linguistics. The American Mathematical Monthly, Vol. 72, No. 2, Part 2: Computers and Computing, pp. 147–150.
  55. ^ Bowern, Claire. "Computational phylogenetics." Annual Review of Linguistics 4 (2018): 281-296.
  56. ^ "'Star Trek' translators reach for the final frontier". www.cnn.com (in الإنجليزية). Retrieved 2020-08-17.
  57. ^ Badham, John (1983-06-03), WarGames, https://www.imdb.com/title/tt0086567/, retrieved on 2016-02-22 
  58. ^ Hershman-Leeson, Lynn (1999-02-19), Conceiving Ada, https://www.imdb.com/title/tt0118882/, retrieved on 2016-02-22 
  59. ^ Jonze, Spike (2014-01-10), Her, https://www.imdb.com/title/tt1798709/, retrieved on 2016-02-18 
  60. ^ Tyldum, Morten (2014-12-25), The Imitation Game, https://www.imdb.com/title/tt2084970/?ref_=nv_sr_1, retrieved on 2016-02-18 
  61. ^ Garland, Alex (2015-04-24), Ex Machina, https://www.imdb.com/title/tt0470752/, retrieved on 2016-02-18 
  62. ^ Villeneuve, Denis (2016-10-10). "Arrival". Retrieved 18 December 2019.

قراءة متعمقة


. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

روابط خارجية

Wikiversity
At Wikiversity, you can learn about: لغويات حاسوبية