تجزئة النص

(تم التحويل من Text segmentation)

تجزئة النص Text segmentation هي عملية تقسيم النص المكتوب إلى وحدات ذات معنى، مثل الكلمات، الجمل، أو الموضوعات. ينطبق المصطلح على كل من العمليات العقلية التي يستخدمها البشر عند قراءة النص، والعمليات الاصطناعية المنفذة في أجهزة الحاسب، والتي هي موضوع معالجة اللغة الطبيعية. المسألة ليست بسيطة، لأنه بينما تحتوي بعض اللغات المكتوبة على علامات حدود واضحة للكلمات، مثل مسافات الكلمات في اللغة الإنگليزية المكتوبة وأشكال الحروف الأولية والوسطى والنهائية المميزة لـ العربية، فإن هذه الإشارات تكون أحياناً غامضة وغير موجودة في جميع اللغات المكتوبة.

بمقارنة تجزئة الكلام، تكون عملية تقسيم الكلام إلى أجزاء ذات معنى لغوياً.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

مشاكل التجزيء

تقطيع الكلمات

تجزئة الكلمات هي مشكلة تقسيم سلسلة من اللغة المكتوبة إلى الكلمات المكونة لها.

في اللغة الإنگليزية والعديد من اللغات الأخرى باستخدام شكل من أشكال الأبجدية اللاتينية، فإن مسافة هي تقريب جيد لـ مقسم الكلمات (محدد الكلمة)، على الرغم من أن هذا المفهوم له حدود بسبب التباين في جوهرية اللغات التي تراعي التجميعات و المركبات. يتم كتابة العديد من الأسماء المركبة الإنگليزية بشكل متنوع (على سبيل المثال، ice box = ice-box = icebox; pig sty = pig-sty = pigsty) مع اختلاف مماثل في ما إذا كان المتحدثون يعتقدون أنها عبارات اسمية أو أسماء مفردة؛ هناك اتجاهات في كيفية وضع المعايير، مثل تلك المركبات المفتوحة غالباً ما تميل في النهاية إلى التماسك من خلال العرف على نطاق واسع، ولكن يظل الاختلاف منهجياً. في المقابل، تُظهر الأسماء المركبة الألمانية تبايناً إملائياً أقل، مع كون الترسيخ معياراً أقوى.

ومع ذلك، فإن ما يعادل محرف مسافة الكلمة فهو غير موجود في جميع النصوص المكتوبة، وبدونه يكون تجزئة الكلمات مشكلة صعبة. تشمل اللغات التي لا تحتوي على عملية تجزئة بسيطة للكلمات الصينية واليابانية، حيث يتم تحديد الجمل وليس الكلمات، و التايلاندية و لاو، حيث توجد عبارات وجمل ولكن لا توجد كلمات محددة، و الڤيتنامية، حيث يتم تحديد المقاطع وليس الكلمات.

ولكن في بعض أنظمة الكتابة، مثل نص الجعيز المستخدم لـ اللغة الأمهرية و التگرينية من بين اللغات الأخرى، يتم تحديد الكلمات بشكل صريح (على الأقل تاريخياً) من دون حرف المسافة البيضاء.

وفد قام اتحاد يونيكود بنشر ملحق قياسي حول تجزئة النصوص،[1] استكشاف قضايا التجزئة في النصوص متعددة الخطوط

تقسيم الكلمات هو عملية إعراب لنص متسلسل (أي نص لا يحتوي على مسافات أو فواصل كلمات أخرى) لاستنتاج مكان وجود فواصل الكلمات.

قد يشير تقسيم الكلمات أيضاً إلى عملية الوصل.

تقطيع الهدف

تقطيع الهدف هي مشكلة تقسيم الكلمات المكتوبة إلى جمل رئيسية (مجموعتان أو أكثر من الكلمات).

في اللغة الإنگليزية وجميع اللغات الأخرى يتم تحديد النية أو الرغبة الأساسية وتصبح حجر الزاوية لتجزئة هدف العبارة الرئيسية. المنتج الأساسي / الخدمة، الفكرة، العمل و أو الفكر المرسخ للعبارة الرئيسية.

"[كل الأشياء مصنوعة من الذرات]. [والقليل من الجسيمات التي تتحرك] [حولها بحركة دائمة]، [تجذب بعضها البعض] [عندما تكون على مسافة متباعدة قليلاً]، [لكن تتنافر] [عندالضغط] [على بعضها البعض] ."

تجزئة الجمل

تجزئة الجملة هي مشكلة تقسيم سلسلة من اللغة المكتوبة إلى الجمل المكونة لها. في اللغة الإنگليزية وبعض اللغات الأخرى، يعد استخدام علامات الترقيم، ولا سيما النقطة / حرف النقطة تقديراً تقريبياً معقولاً. ومع ذلك، حتى في اللغة الإنگليزية، فإن هذه المشكلة ليست تافهة بسبب استخدام محرف النقطة للاختصارات، والتي قد تنهي الجملة أو لا تنتهيها أيضاً. على سبيل المثال، السيد. ليست الجملة الخاصة بها في "ذهب السيد سميث إلى المتاجر في شارع جونز." عند معالجة نص عادي، يمكن أن تساعد جداول الاختصارات التي تحتوي على نقط في منع التخصيص غير الصحيح لحدود الجملة.

كما هو الحال مع تجزئة الكلمات، لا تحتوي جميع اللغات المكتوبة على محارف ترقيم مفيدة لتقريب حدود الجملة.

تجزئة الموضوعات

يتكون تحليل الموضوعات من مهمتين رئيسيتين: تحديد الموضوعات وتجزئة النصوص. في حين أن الأول عبارة عن تصنيف لنص معين، فإن الحالة الأخيرة تشير إلى أن المستند قد يحتوي على مواضيع متعددة، وقد تكون مهمة تجزئة النص المحوسبة هي اكتشاف هذه الموضوعات تلقائياً وتقسيم النص وفقاً لذلك. قد تكون حدود الموضوع واضحة من عناوين الأقسام والفقرات. في حالات أخرى، يحتاج المرء إلى استخدام تقنيات مشابهة لتلك المستخدمة في تصنيف المستندات.

قد يكون تقسيم النص إلى موضوعات أو خطابات مفيداً في بعض مهام المعالجة الطبيعية: يمكن أن يحسن من استرجاع المعلومات أو التعرف على الكلام بشكل كبير (عن طريق فهرسة / التعرف على المستندات بشكل أكثر دقة أو عن طريق إعطاء الجزء المحدد من المستند المقابل للاستعلام نتيجة لذلك). وهو ضروري أيضاً في كشف الموضوعات وأنظمة التتبع و تلخيص النصوص.

تم تجربة العديد من الأساليب المختلفة:[2][3] على سبيل المثال HMM، السلاسل المفرداتية، تشابه المرور باستخدام التواجد المشترك للكلمة، التعنقد، نمذجة الموضوعات، إلخ.

إنها مهمة غامضة فعلاً - غالباً ما يختلف الأشخاص الذين يقومون بتقييم أنظمة تجزئة النص في حدود الموضوع. ومن ثم، فإن تقييم مقطع النص يمثل أيضاً مشكلة صعبة.

مشاكل التجزئة الأخرى

قد تكون العمليات مطلوبة لتجزئة النص إلى مقاطع إلى جانب المذكور، بما في ذلك التصريف (مهمة تسمى عادةً التحليل الصرفي) أو الفقرات.

نهج التجزئة التلقائية

التجزئة التلقائية هي المشكلة في معالجة اللغة الطبيعية لتنفيذ عملية الحاسب لتجزئة النصوص.

عندما لا تتوفر علامات الترقيم والقرائن المماثلة بشكل ثابت، غالباً ما تتطلب مهمة التجزئة تقنيات غير بسيطة إلى حد ما، مثل اتخاذ القرارات الإحصائية، والقواميس الكبيرة، وكذلك النظر في القيود النحوية والدلالية. عادةً ما تعمل أنظمة معالجة اللغة الطبيعية الفعالة وأدوات تجزئة النصوص على نصوص في مجالات ومصادر محددة. على سبيل المثال، تعد معالجة النصوص المستخدمة في السجلات الطبية مشكلة مختلفة تماماً عن معالجة المقالات الإخبارية أو الإعلانات العقارية.

تبدأ عملية تطوير أدوات تجزئة النص بتجميع مجموعة كبيرة من النصوص في مجال التطبيق. هناك طريقتان عامتان:

  • التحليل اليدوي للنصوص وكتابة البرامج المخصصة
  • وضع تعليقات توضيحية على نموذج المجموعة بمعلومات الحدود واستخدام التعلم الآلي

تستفيد بعض أنظمة تجزئة النصوص من أي ترميز مثل HTML وتعرف تنسيقات المستندات مثل PDF لتقديم دليل إضافي لحدود الجمل والفقرات.

انظر أيضاً


. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

المراجع

  1. ^ UAX #29
  2. ^ Freddy Y. Y. Choi (2000). "Advances in domain independent linear text segmentation" (PDF). Proceedings of the 1st Meeting of the North American Chapter of the Association for Computational Linguistics (ANLP-NAACL-00): 26–33. 
  3. ^ Jeffrey C. Reynar (1998). "Topic Segmentation: Algorithms and Applications" (PDF). IRCS-98-21. University of Pennsylvania. Retrieved 8 نوفمبر 2007. {{cite journal}}: Cite journal requires |journal= (help)