استخراج المصطلحات

استخراج المصطلحات Terminology extraction (المعروفة أيضاً ب استخراج المصطلح، استخراج قائمة المصطلحات، إدراك المصطلحات، أو التنقيب في المصطلحات) عبارة عن مهمة فرعية من استخراج المعلومات. الهدف من استخراج المصطلحات هو استخراج المصطلحات ذات الصلة تلقائياً من مجموعة.[1]

في عصر [[الوب الدلالي] ، بدأ عدد متزايد من المجتمعات والشركات المتصلة بالشبكات في الوصول والتعامل عبر الإنترنت. يعد نمذجة هذه المجتمعات واحتياجاتها من المعلومات أمراً مهماً للعديد من تطبيقات الوب، مثل عناكب الوب القائم على الموضوعات،[2] خدمات الوب،[3] أنظمة التوصية،[4] إلخ. إن تطوير استخراج المصطلحات ضروري أيضاً في صناعة اللغة.

تتمثل إحدى الخطوات الأولى لنمذجة مجال المعرفة في جمع مفردات المصطلحات ذات الصلة بالمجال، والتي تشكل المظهر السطحي اللغوي لمجال المفاهيم. تم وصف العديد من الطرق لاستخراج المصطلحات التقنية تلقائياً من مستودعات المستندات الخاصة بالمجال في الأدبيات.[5][6][7][8][9][10][11][12][13][14][15][16][17]

عادةً ما تستخدم مناهج الاستخراج التلقائي لمصطلحات المعالجات اللغوية (وضع إشارات على أجزاء من الكلام، تقسيم العبارات) لاستخراج المصطلحات المرشحة، أي العبارات الاسمية المنطقية المعقولة. تتضمن عبارات الأسماء المركبات (مثل "بطاقة الائتمان")، وعبارات الصفة الاسمية (مثل "مكتب معلومات السائح المحلي")، وعبارات الجر (مثل "مجلس الإدارة"). في اللغة الإنگليزية، فإن أول اثنين من (المركبات والعبارات الاسمية الصفاتية) هما الأكثر شيوعاً.[18]يتم بعد ذلك تصفية المدخلات المصطلحية من قائمة المرشحات باستخدام الأساليب الإحصائية و التعلم الآلي. بمجرد تصفيتها، نظراً لانخفاض غموضها وخصوصياتها العالية، تُعد هذه المصطلحات مفيدة بشكل خاص لوضع تصور لمجال المعرفة أو لدعم إنشاء أنطولوجية المجال أو قاعدة المصطلحات. علاوة على ذلك، يعد استخراج المصطلحات نقطة انطلاق مفيدة جداً لـ التشابه الدلالي و إدارة المعرفة و الترجمة البشرية و الترجمة الآلية، إلخ.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

استخراج المصطلحات ثنائية اللغة

يمكن تطبيق طرق استخلاص المصطلحات على مجموعات نصية متقابلة. جنباً إلى جنب مع على سبيل المثال إحصاءات التواجد المشترك، يمكن الحصول على المرشحات لترجمة المصطلحات.[19] ويمكن استخلاص المصطلحات ثنائية اللغة أيضاً من مجموعات مماثلة[20] (مجموعة تحتوي على نصوص ضمن نفس نوع النص والمجال ولكن ليس ترجمات المستندات بين بعضها البعض).


انظر أيضاً

المراجع

  1. ^ Alrehamy, Hassan H; Walker, Coral (2018). "SemCluster: Unsupervised Automatic Keyphrase Extraction Using Affinity Propagation". Advances in Computational Intelligence Systems. Advances in Intelligent Systems and Computing. 650. pp. 222–235. doi:10.1007/978-3-319-66939-7_19. ISBN 978-3-319-66938-0.
  2. ^ Menczer F., Pant G. and Srinivasan P. Topic-Driven Crawlers: machine learning issues.
  3. ^ Fan J. and Kambhampati S. A Snapshot of Public Web Services, in ACM SIGMOD Record archive Volume 34 , Issue 1 (March 2005).
  4. ^ Yan Zheng Wei, Luc Moreau, Nicholas R. Jennings. A market-based approach to recommender systems, in ACM Transactions on Information Systems (TOIS), 23(3), 2005.
  5. ^ Bourigault D. and Jacquemin C. Term Extraction+Term Clustering: an integrated platform for computer-aided terminology Archived 2006-06-19 at the Wayback Machine., in Proc. of EACL, 1999.
  6. ^ Collier, N.; Nobata, C.; Tsujii, J. (2002). "Automatic acquisition and classification of terminology using a tagged corpus in the molecular biology domain". Terminology. 7 (2): 239–257. doi:10.1075/term.7.2.07col.
  7. ^ K. Frantzi, S. Ananiadou and H. Mima. (2000). Automatic recognition of multi-word terms: the C-value/NC-value method. In: C. Nikolau and C. Stephanidis (Eds.) International Journal on Digital Libraries, Vol. 3, No. 2., pp. 115-130.
  8. ^ K. Frantzi, S. Ananiadou and J. Tsujii. (1998) The C-value/NC-value Method of Automatic Recognition of Multi-word Terms, In: ECDL '98 Proceedings of the Second European Conference on Research and Advanced Technology for Digital Libraries, pp. 585-604. ISBN 3-540-65101-2
  9. ^ L. Kozakov; Y. Park; T. Fin; Y. Drissi; Y. Doganata & T. Cofino. (2004). "Glossary extraction and utilization in the information search and delivery system for IBM Technical Support" (PDF). IBM Systems Journal. 43 (3): 546–563. doi:10.1147/sj.433.0546.
  10. ^ Navigli R. and Velardi, P. Learning Domain Ontologies from Document Warehouses and Dedicated Web Sites. Computational Linguistics. 30 (2), MIT Press, 2004, pp. 151-179
  11. ^ Oliver, A. and Vàzquez, M. TBXTools: A Free, Fast and Flexible Tool for Automatic Terminology Extraction. Proceedings of Recent Advances in Natural Language Processing (RANLP 2015), 2015, pp. 473–479
  12. ^ Y. Park, R. J. Byrd, B. Boguraev. "Automatic glossary extraction: beyond terminology identification", International Conference On Computational Linguistics, Proceedings of the 19th international conference on Computational linguistics - Taipei, Taiwan, 2002.
  13. ^ Sclano, F. and Velardi, P.. TermExtractor: a Web Application to Learn the Shared Terminology of Emergent Web Communities. To appear in Proc. of the 3rd International Conference on Interoperability for Enterprise Software and Applications (I-ESA 2007). Funchal (Madeira Island), Portugal, March 28–30th, 2007.
  14. ^ P. Velardi, R. Navigli, P. D'Amadio. Mining the Web to Create Specialized Glossaries, IEEE Intelligent Systems, 23(5), IEEE Press, 2008, pp. 18-25.
  15. ^ Wermter J. and Hahn U. Finding New terminology in Very large Corpora, in Proc. of K-CAP'05, October 2–5, 2005, Banff, Alberta, Canada
  16. ^ Wong, W., Liu, W. & Bennamoun, M. (2007) Determining Termhood for Learning Domain Ontologies using Domain Prevalence and Tendency. In: 6th Australasian Conference on Data Mining (AusDM); Gold Coast. ISBN 978-1-920682-51-4
  17. ^ Wong, W., Liu, W. & Bennamoun, M. (2007) Determining Termhood for Learning Domain Ontologies in a Probabilistic Framework. In: 6th Australasian Conference on Data Mining (AusDM); Gold Coast. ISBN 978-1-920682-51-4
  18. ^ Alrehamy, Hassan H; Walker, Coral (2018). "SemCluster: Unsupervised Automatic Keyphrase Extraction Using Affinity Propagation". Advances in Computational Intelligence Systems. Advances in Intelligent Systems and Computing. 650. pp. 222–235. doi:10.1007/978-3-319-66939-7_19. ISBN 978-3-319-66938-0.
  19. ^ Macken, Lieve; Lefever, Els; Hoste, Veronique (2013). "TExSIS: Bilingual terminology extraction from parallel corpora using chunk-based alignment". Terminology. 19 (1): 1–30. doi:10.1075/term.19.1.01mac.
  20. ^ Sharoff, Serge; Rapp, Reinhard; Zweigenbaum, Pierre; Fung, Pascale (2013), Building and Using Comparable Corpora, Berlin: Springer-Verlag, https://www.springer.com/cda/content/document/cda_downloaddocument/9783642201271-c1.pdf?SGWID=0-0-45-1442068-p174109864