معالجة المصطلحات المركبة

معالجة المصطلحات المركبة، Compound-term processing في استرجاع المعلومات، عبارة مطابقة نتيجة البحث على أساس المصطلح المركب. تُبنى المصطلحات المركبة من خلال الجمع بين اثنين أو أكثر من المصطلحات البسيطة؛ على سبيل المثال، "ثلاثي" هو مصطلح من كلمة واحدة، ولكن "قناة القلب الثلاثية" هو مصطلح مركب.

المعالجة المركبة هي نهج جديد لمسألة قديمة: كيف يمكن للمرء تحسين ملاءمة نتائج البحث مع الحفاظ على سهولة الاستخدام؟ باستخدام هذه التقنية، سيؤدي البحث عن "معدلات البقاء على قيد الحياة بعد المرض بقناة القلب الثلاثية عند كبار السن" إلى تحديد المستندات حول هذا الموضوع حتى لو لم تكن هذه العبارة الدقيقة واردة في أي مستند. يمكن إجراء ذلك عن طريق بحث المفاهيم، والذي يستخدم في حد ذاته معالجة مصطلح مركب. سيؤدي هذا إلى استخراج المفاهيم الأساسية تلقائياً (في هذه الحالة "معدلات البقاء على قيد الحياة" و "قناة القلب الثلاثية" و "كبار السن") واستخدام هذه المفاهيم لتحديد الوثائق الأكثر ارتباطاً.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

التقنيات

في أغسطس 2003، قدمت بحث المفاهيم المحدودة فكرة استخدام المعالجة الإحصائية المركبة.[1]

CLAMOR هو مشروع تعاوني أوروبي يهدف إلى إيجاد طريقة أفضل للتصنيف عند جمع ونشر المعلومات والإحصاءات الصناعية. يبدو أن CLAMOR تستخدم نهجاً لغوياً، بدلاً من نهج يعتمد على النمذجة الإحصائية.[2]


تاريخ

تعود تقنيات الترجيح الاحتمالي لمصطلحات الكلمة المفردة إلى عام 1976 على الأقل في المنشور التاريخي بقلم ستيفن إي. روبرتسن و كارين سبارك جونز.[3] صرح روبرتسن أن افتراض استقلال الكلمات غير مبرر وموجود كمسألة ملائمة للرياضيات. إن اعتراضه على مصطلح الاستقلال ليس فكرة جديدة، حيث يعود تاريخه إلى عام 1964 على الأقل عندما صرح هـ. ويليامز أن "افتراض استقلالية الكلمات في المستند يتم عادةً من باب التسهيل الرياضي".[4]

في عام 2004، قدمت آنا لين باترسون براءات اختراع بشأن "البحث القائم على العبارة في نظام استرجاع المعلومات"[5]والتي حصلت گوگل على الحقوق لاحقاً.[6]

القدرة على التكيف

المعالجة الإحصائية للمصطلحات المركبة أكثر قابلية للتكيف من العملية التي وصفها پاترسن. تستهدف عمليتها البحثية في شبكة الويب العالمية حيث يمكن استخدام معرفة إحصائية واسعة لعمليات البحث الشائعة لتحديد العبارات المرشحة. تعد معالجة المصطلح المركب الإحصائي أكثر ملاءمة لتطبيقات البحث المؤسسية حيث لا تتوفر هذه المعرفة المسبقة.

تعد المعالجة الإحصائية ذات المصطلحات المركبة أكثر قابلية للتكيف أيضاً من النهج اللغوي الذي يتبعه مشروع CLAMOR، والذي يجب أن يأخذ في الاعتبار الخصائص النحوية للمصطلحات (أي جزء من الكلام، والجنس، والعدد، وما إلى ذلك) ومجموعاتها. CLAMOR يعتمد بشكل كبير على اللغة، في حين أن النهج الإحصائي مستقل عن اللغة.

التطبيقات

تسمح معالجة المصطلح المركب لتطبيقات استرجاع المعلومات، مثل محركات البحث، بإجراء المطابقة على أساس مفاهيم متعددة الكلمات، بدلاً من الكلمات المنفردة المعزولة والتي يمكن أن تكون غامضة للغاية.

بحثت محركات البحث الأولية عن المستندات التي تحتوي على الكلمات التي أدخلها المستخدم في مربع البحث. تُعرف هذه بمحركات بحث الكلمات الرئيسية. تضيف محركات البحث المنطقي درجة من التطور من خلال السماح للمستخدم بتحديد متطلبات إضافية. على سبيل المثال، تستخدم "Tiger NEAR Woods AND (Golf OR Golfing) NOT Volkswagen" عوامل التشغيل "NEAR" و "AND" و "OR" و "NOT" لتحديد أن هذه الكلمات يجب أن تتبع متطلبات معينة. يعد استخدام البحث بالعبارة أسهل، ولكنه يتطلب ظهور العبارة المحددة في النتائج.

انظر أيضاً

المراجع

  1. ^ "Lateral Thinking in Information Retrieval" (PDF). INFORMATION MANAGEMENT AND TECHNOLOGY. 36 PART 4. Archived from the original (PDF) on 2017-11-15. Retrieved 2008-06-20. The British Library Direct catalogue entry can be found here:[1] Archived 2012-02-10 at the Wayback Machine
  2. ^ [2] National Statistics CLAMOUR project
  3. ^ Robertson, S. E.; Spärck Jones, K. (1976). "Relevance weighting of search terms". Journal of the American Society for Information Science. 27 (3): 129. doi:10.1002/asi.4630270302.
  4. ^ WILLIAMS, J.H. (1965). "Results of classifying documents with multiple discriminant functions". Statistical Association Methods for Mechanized Documentation, National Bureau of Standards. Washington: 217–224. Archived from the original on 2011-07-17. Retrieved 2015-05-21.
  5. ^ US patent 20060031195
  6. ^ Google Acquires Cuil Patent Applications
الكلمات الدالة: