مجمع نصوص

في علم اللغويات، مجمع النصوص corpus، (corpus، مفردها corpora)، هي مجموعة كبيرة ومنظمة من النصوص (التي أصبحت الآن عادة مخزنة ومعالجة إلكترونيا).^[1]^[2]^[3] وتستخدم للقيام بالتحليل الإحصائي واختبار الفرضيات، والتحقق من الوقائع أو التحقق من صحة القواعد اللغوية على فضاء محدد.

قد تحتوي الذخيرة على نصوص من لغة واحدة (ذخيرة أحادية اللغة) أو نصوص من لغات متعددة (ذخيرة متعددة اللغات). الذخائر التي تم تهيئتها خصيصا لمقارنتها جنبا إلى جنب تسمى الذخائر المتوازية.

استعراض عام

قد يحتوي المجمع على نصوص بلغة واحدة (مجمع أحادي اللغة monolingual corpus)، أو بيانات نصية بلغات متعددة )مجمع متعدد اللغات multilingual corpus).

مجمع النصوص متعدد اللغات الذي يتم صياغته خصيصاً للمقارنة الجانبية يطلق عليه المجمع المتوازي المحاذي aligned parallel corpora. هناك نوعان رئيسيان من المجامع المتوازية والتي تحتوي على نصوص بلغتين. في مجمع الترجمة، النصوص الواردة لغة ما هي ترجمات للنصوص الواردة باللغة الأخرى. في المجمع المقارن، تكون النصوص من نفس النوع وتغطي نفس المحتوى، لكنها ليست ترجمات للغات الأخرى.^[4] لاستخدام النص الموازي، نوع نوع محاذاة النص هو الذي يحدد مقاطع النص المكافئة (جمل أو عبارات) هو شرط أساسي للتحليل. خوارزميات الترجمة الآلية للترجمة من لغتين، غالباً ما يتم تدريبها باستخدام أجزاء متوازية تشتمل على مجمع اللغة الأولى ومجمع اللغة الثانية وهو عبارة عن ترجمة لكل عنصر من مجمع اللغة الأولى.^[5]

لجل المجمع أكثر فائدة للأبحاث اللغوية، عادة ما يخضع لعملية تُسمى الضبط. ومن أمثلة ضبط المجامع تصنيف أقسام الكلام، أو POS-tagging، حيث تتم إضافة معلومات حول كل جزء من الكلمة (الفعل، الاسم، الصفة... الخ) إلى المجمع على شكل "علامات". ومن الأمثلة الأخرى الإشارة إلى اللـِما الشكل (الأساسي) لكل كلمة. عندما تكون لغة المجمع ليست لغة العمل للباحثين الذين يستخدمونه، تستخدم الترجمة بين السطور للحصول على ضبط ثنائي اللغة.

تتمتع بعض المجامع بمستويات أكثر هيكلة من التحليل التطبيقي. بشكل خاص، قد يكون هناك عدد من المجامع الأصغر مجزأة بالكامل. عادة ما يُطلق على هذا النوع من المجامع الحزم الشجرية أو المجمع المجزأ. تعني صعوبة التأكد من أن المجمع بأكمله مضبوطاً بشكل كامل ومتسق أن هذه المجامع الصغيرة عادة ما تكون أصغر، وتحتوي على حوالي مليون إلى ثلاثة مليون كلمة. المستويات الأخرى من التحليل المهيكل لغوياً هي ممكنة، وتشمل ضبط المورفولوجيا، علم الدلالة والذرائع.

المجمع هو الأساس المعرفي الرئيسي في لغويات المجمع. تحليل ومعالجة أنواع مختلفة من المجامع خضعت أيضاً للكثير من العمل في اللسانيات الحاسوبية، تمييز الكلام والترجمة الآلية، حيث عادة ما يتم استخدامها لخلق نماذج ماركوڤ المخفية لوسم جزء من الكلام ولأغراض أخرى. المجمع وقوائم التواتر المشتقة منه]] تكون مفيدة لتعليم اللغات. قد يعتبر المجمع نوعاً من المساعدة في كتابة اللغات الأجنبية بكونه معرفة نحوية السياق مكتبة من قبل المستخدمين الغير أصليين للغة عن طريق التعرف على النصوص الأصلية في المجمع مما يمكن المتعلمين من فهم طريقة تشكيل الجملة في اللغة المقصودة، مما يتيح الكتابة الفعالة.^[6]

المجامع الأثرية

تستخدم مجامع النصوص أيضاً في دراسة الوثائق التاريخية، على سبيل المثال لفك رموز النصوص القديمة، أو في دراسات الكتاب المقدس. بعض المجامع الأثرية قد تكون be of such short duration بحيث توفر a snapshot in time. ومن أقصر المجامع الأثرية زمنياً، نصوص رسائل تل العمارنة التي تغطي حقبة 15-30 سنة (1350 ق.م.). مجمع المدينة العتيقة، (على سبيل المثال "نصوص كول‌تپه في تركيا)، التي مرت عبر سلسلة من المجامع، تم تحديدها من خلال تواريخ المواقع التي اكتشفت فيها.

بعض مجامع النصوص البارزة

مقال رئيسي: قائمة مجامع النصوص

انظر أيضاً

المراجع

^ Wołk, K.; Marasek, K. "A Sentence Meaning Based Alignment Method for Parallel Text Corpora Preparation". Advances in Intelligent Systems and Computing. Springer. 275: 107–114. ISBN 978-3-319-05950-1. ISSN 2194-5357.
^ Wołk, K.; Marasek, K. (2015). "Tuned and GPU-accelerated Parallel Data Mining from Comparable Corpora". Lecture Notes in Artificial Intelligence. Springer: 32–40. ISBN 978-3-319-24032-9.
^ ESL Student Attitudes toward Corpus Use in L2 Writing. Journal of Second Language Writing, 13(4), 257–283. Retrieved 21 March 2012. Archived 2016-04-02 at the Wayback Machine
^ Wołk, K.; Marasek, K. "A Sentence Meaning Based Alignment Method for Parallel Text Corpora Preparation". Advances in Intelligent Systems and Computing. Springer. 275: 107–114. ISBN 978-3-319-05950-1. ISSN 2194-5357.
^ Wołk, K.; Marasek, K. (2015). "Tuned and GPU-accelerated Parallel Data Mining from Comparable Corpora". Lecture Notes in Artificial Intelligence. Springer: 32–40. arXiv:1509.08639. ISBN 978-3-319-24032-9.
^ Yoon, H., & Hirvela, A. (2004). ESL Student Attitudes toward Corpus Use in L2 Writing. Journal of Second Language Writing, 13(4), 257–283. Retrieved 21 March 2012.

وصلات خارجية

ACL SIGLEX Resource Links: Text Corpora
Developing Linguistic Corpora: a Guide to Good Practice
Free samples (not free), web-based corpora (45-425 million words each): American (COCA, COHA, TIME), British (BNC), Spanish, Portuguese
Intercorp Building synchronous parallel corpora of the languages taught at the Faculty of Arts of Charles University.
Sketch Engine: Open corpora with free access
TS Corpus - A Turkish Corpus freely available for academic research.
Turkish National Corpus - A general-purpose corpus for contemporary Turkish
Corpus of Political Speeches, publicly accessible with speeches from United States, Hong Kong, Taiwan, and China, provided by Hong Kong Baptist University Library
Russian National Corpus
American English Sentence Database

الكلمات الدالة:

[1] Wołk, K.; Marasek, K. "A Sentence Meaning Based Alignment Method for Parallel Text Corpora Preparation". Advances in Intelligent Systems and Computing. Springer. 275: 107–114. ISBN 978-3-319-05950-1. ISSN 2194-5357.

[2] Wołk, K.; Marasek, K. (2015). "Tuned and GPU-accelerated Parallel Data Mining from Comparable Corpora". Lecture Notes in Artificial Intelligence. Springer: 32–40. ISBN 978-3-319-24032-9.

[3] ESL Student Attitudes toward Corpus Use in L2 Writing. Journal of Second Language Writing, 13(4), 257–283. Retrieved 21 March 2012. Archived 2016-04-02 at the Wayback Machine

[4] Wołk, K.; Marasek, K. "A Sentence Meaning Based Alignment Method for Parallel Text Corpora Preparation". Advances in Intelligent Systems and Computing. Springer. 275: 107–114. ISBN 978-3-319-05950-1. ISSN 2194-5357.

[5] Wołk, K.; Marasek, K. (2015). "Tuned and GPU-accelerated Parallel Data Mining from Comparable Corpora". Lecture Notes in Artificial Intelligence. Springer: 32–40. arXiv:1509.08639. ISBN 978-3-319-24032-9.

[Yoon-6] Yoon, H., & Hirvela, A. (2004). ESL Student Attitudes toward Corpus Use in L2 Writing. Journal of Second Language Writing, 13(4), 257–283. Retrieved 21 March 2012.

[1]

[2]

[3]

[4]

[5]

[6]