Word2vec

Word2vec هي تقنية معالجة اللغة الطبيعية. تستخدم خوارزمية word2vec نموذج الشبكة العصبية لتعلم ارتباطات الكلمات من مجموعة نصوص كبيرة. بمجرد التدريب، يمكن لهذا النموذج اكتشاف مرادف كلمات أو اقتراح كلمات إضافية لجملة جزئية. كما يوحي الاسم، تمثل word2vec كل كلمة مميزة بقائمة أرقام معينة تسمى متجه. يتم اختيار المتجهات بعناية بحيث تشير دالة رياضية بسيطة (تشابه جيب التمام بين المتجهات) إلى مستوى التشابه الدلالي بين الكلمات التي تمثلها تلك المتجهات.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

النهج

Word2vec عبارة عن مجموعة من النماذج المرتبطة التي يتم استخدامها لإنتاج تضمين الكلمات. هذه النماذج ضحلة، من الشبكة العصبية ذات طبقتين تم تدريبها لإعادة بناء السياقات اللغوية للكلمات. يأخذ Word2vec كمدخله مجموعة نصية وينتج فضاء متجه، عادةً من عدة مئات من أبعاد، مع كل كلمة فريدة في مجموعة يتم تخصيص متجه مقابل في الفراغ. يتم وضع متجهات الكلمات في فضاء المتجه بحيث تكون الكلمات التي تشترك في سياقات مشتركة في المجموعة موجودة بالقرب من بعضها البعض في الفضاء.^[1]

تاريخ

تم إنشاء Word2vec ونشره في عام 2013 من قبل فريق من الباحثين بقيادة توماس ميكولوڤ في گوگل. تمت الإشارة لورقتاهم البحثية^[2]^[3]في المؤلفات العلمية 17231 و 21670 مرة على التوالي (گوگل سكولار، 2 أغسطس 2020). والخوارزمية حاصلة على براءة اختراع.^[4] وقد قام باحثون آخرون بتحليل الخوارزمية وشرحها بشكل مفيد.^[5]^[6] تتميز متجهات التضمين التي تم إنشاؤها باستخدام خوارزمية Word2vec ببعض المزايا مقارنة بالخوارزميات السابقة^[1] مثل التحليل الدلالي الكامن.

CBOW وسكيپ گرامز

يمكن أن يستخدم Word2vec أياً من بنيتين نموذجيتين لإنتاج تمثيل موزع من الكلمات: حقيبة كلمات مستمرة (CBOW) أوسكيپ گرامز. في بنية حقيبة الكلمات المستمرة، يتنبأ النموذج بالكلمة الحالية من نافذة كلمات السياق المحيطة. لا يؤثر ترتيب كلمات السياق على الافتراض (حقيبة من الكلمات). في بنية التخطي المستمر، يستخدم النموذج الكلمة الحالية للتنبؤ بالنافذة المحيطة بكلمات السياق. تزن بنية سكيپ گرام كلمات السياق القريبة بشكل أكبر من كلمات السياق البعيدة.^[1]^[7] وبحسب ملاحظة المؤلفين:^[8]CBOW أسرع بينما يكون سكيپ گرام أبطأ ولكنه يقوم بعمل أفضل للكلمات النادرة.

الپارامترية

يمكن أن تكون نتائج التدريب على word2vec حساسة لـ الپارامترية . فيما يلي بعض الپارامترات المهمة في تدريب word2vec.

خوارزمية التدريب

يمكن تدريب نموذج Word2vec باستخدام التسلسل الهرمي سوفت ماكس و/أو أخذ العينات السلبية. لتقريب احتمالية السجل الشرطي يسعى النموذج إلى تعظيمه، تستخدم طريقة سوفت ماكس الهرمية شجرة هوفمان لتقليل الحساب. من ناحية أخرى، تقترب طريقة أخذ العينات السلبية من مشكلة التعظيم عن طريق تقليل احتمالية السجل للحالات السلبية التي تم أخذ عينات منها. وفقاً للمؤلفين، يعمل سوفت ماكس الهرمي بشكل أفضل مع الكلمات النادرة بينما يعمل أخذ العينات السلبية بشكل أفضل للكلمات المتكررة وأفضل مع المتجهات منخفضة الأبعاد.^[8] مع زيادة فترات التدريب، يتوقف سوفت ماكس الهرمي عن كونه نافعاً.^[9]

أخذ العينات الفرعية

غالباً ما توفر الكلمات عالية التردد معلومات قليلة. الكلمات التي يزيد ترددها عن حد معين يمكن أن يتم أخذ عينات منها لزيادة سرعة التدريب.^[10]

الأبعاد

تزداد جودة تضمين الكلمات مع زيادة الأبعاد. ولكن بعد الوصول إلى نقطة معينة، سوف يتضاءل الربح الهامشي.^[1] عادةً، ما تكون أبعاد المتجهات بين 100 و 1000.

نافذة السياق

يحدد حجم نافذة السياق عدد الكلمات قبل وبعد كلمة معينة سيتم تضمينها ككلمات سياق لكلمة معينة. وفقاً لملاحظة المؤلفين، فإن القيمة الموصى بها هي 10 لسكيپ گرام و 5 لـ CBOW.^[8]

ملحقات

تم اقتراح امتداد word2vec لإنشاء عمليات تزوير من مستندات كاملة (بدلاً من الكلمات الفردية).^[11] يُطلق على هذا الملحق الفقرة 2vec أو doc2vec وقد تم تنفيذه في أدوات لغة C، پايثون^[12]^[13] و جاڤا/سكالا^[14] (انظر أدناه)، مع دعم إصدارات جاڤا و پايثون أيضاً الاستدلال على تضمين المستندات في المستندات الجديدة غير المرئية.

متجهات الكلمات للمعلوماتية الحيوية: المتجهات الحيوية

امتداد لمتجهات الكلمات لـ n-grams في التسلسلات البيولوجية (على سبيل المثال DNA و RNA و الپروتين لتطبيقات المعلوماتية الحيوية بواسطة Asgari و Mofrad.^[15] المتجهات الحيوية المسماة (BioVec) للإشارة إلى التسلسلات البيولوجية بشكل عام مع متجهات الپروتين (ProtVec) للپروتينات (متواليات الأحماض الأمينية) ومتجهات ناقلات الجينات (GeneVec) للتسلسلات الجينية، يمكن استخدام هذا التمثيل على نطاق واسع في تطبيقات التعلم الآلي في علم الپروتينات وعلم الجينوم. تشير النتائج إلى أن النواقل الحيوية يمكن أن تميز التسلسلات البيولوجية من حيث التفسيرات البيوكيميائية والفيزيائية الحيوية للأنماط الأساسية^[15] أظهر متغير مماثل، dna2vec، أن هناك ارتباطاً بين نيدلمان-ونش و تشابه جيب التمام لمتجهات كلمة dna2vec.^[16]

متجهات الكلمات للأشعة: تضمين ذكي للكلمات (IWE)

تم اقتراح امتداد لمتجهات الكلمات لإنشاء تمثيل متجه كثيف لتقارير الأشعة غير المنظمة بواسطة بانيرجي وآخرون.^[17] أحد أكبر التحديات التي تواجه Word2Vec هو كيفية التعامل مع الكلمات غير المعروفة أو التي لا تحتوي على مفردات (OOV) والكلمات المتشابهة شكلياً. يمكن أن يكون هذا مشكلة بشكل خاص في مجالات مثل الطب حيث يمكن استخدام المرادفات والكلمات ذات الصلة اعتماداً على النمط المفضل لأخصائي الأشعة، وقد يتم استخدام الكلمات بشكل غير متكرر في مجموعة كبيرة. إذا لم يواجه نموذج word2vec كلمة معينة من قبل، فسيتم إجباره على استخدام متجه عشوائي، والذي يكون بشكل عام بعيداً عن تمثيله المثالي.

يجمع IWE بين Word2vec وتقنية رسم خرائط القاموس الدلالي لمواجهة التحديات الرئيسية لـ استخراج المعلومات من النصوص السريرية، والتي تشمل غموض أسلوب سرد النص الحر، والاختلافات المعجمية، واستخدام المراحل غير النحوية والتلگرافية، والترتيب العشوائي للكلمات، و كثرة ظهور الاختصارات والمختصرات. من الأمور ذات الأهمية الخاصة، أن نموذج IWE (المدرب على مجموعة بيانات مؤسسية واحدة) ترجم بنجاح إلى مجموعة بيانات مؤسسية مختلفة مما يدل على قابلية تعميم جيدة للنهج عبر المؤسسات.

التحليل

أسباب نجاح التعلم في إطار عمل word2vec غير مفهومة جيداً. يشير گولدبرگ وليڤي إلى أن الدالة الموضوعية word2vec تتسبب في أن الكلمات التي تحدث في سياقات متشابهة تحتوي على زخارف مماثلة (كما تم قياسها بواسطة تشابه جيب التمام) ولاحظوا أن هذا يتماشى مع فرضية التوزيع. ومع ذلك، فقد لاحظوا أن هذا التفسير "مائج جداً" ويجادلون بأن التفسير الأكثر اصطلاحية سيكون أفضل.^[5]

^[18]أظهر ليڤي وآخرون (2015) أن الكثير من الأداء المتفوق لـ word2vec أو عمليات التضمين المماثلة في مهام المسار ليس نتيجة للنماذج في حد ذاتها، ولكن نتيجة اختيار پارامترات تشعبية معينة. يؤدي نقل هذه الپارامترات الفائقة إلى أساليب "تقليدية" إلى تحقيق أداء مشابه في المهام النهائية. أرورا و آخرون. (2016)^[19]شرح word2vec والخوارزميات المرتبطة كأداء استدلال نموذج توليدي بسيط للنص، والذي يتضمن عملية إنشاء خطي عشوائي على أساس نموذج موضوع لوگاريتمي. يستخدمون هذا لشرح بعض خصائص تضمين الكلمة، بما في ذلك استخدامها لحل المقارنات.

الحفاظ على العلاقات الدلالية والنحوية

أسلوب تضمين الكلمة قادر على التقاط درجات مختلفة من التشابه بين الكلمات. ميكولوڤ وآخرون. (2013)^[20] فقد وجد أن الأنماط الدلالية والنحوية يمكن إعادة إنتاجها باستخدام الحساب المتجه. يمكن إنشاء أنماط مثل "الرجل إلى المرأة مثل الأخ للأخت" من خلال العمليات الجبرية على التمثيلات المتجهة لهذه الكلمات بحيث ينتج عن التمثيل المتجه لـ "Brother" - "Man" + "Woman" النتيجة الأقرب إلى التمثيل المتجه لـ "Sister" في النموذج. يمكن إنشاء مثل هذه العلاقات لمجموعة من العلاقات الدلالية (مثل الدولة - رأس المال) بالإضافة إلى العلاقات النحوية (على سبيل المثال ، المضارع - الماضي).

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

تقييم جودة النموذج

طور ميكولوڤو آخرون (2013)^[1] نهج لتقييم جودة نموذج word2vec الذي يعتمد على الأنماط الدلالية والنحوية التي تمت مناقشتها أعلاه. لقد طوروا مجموعة من 8869 علاقة دلالية و 10675 علاقة نحوية يستخدمونها كمعيار لاختبار دقة النموذج. عند تقييم جودة نموذج متجهة، يمكن للمستخدم الاعتماد على اختبار الدقة هذا الذي يتم تنفيذه في word2vec،^[21]أو تطوير مجموعة الاختبار الخاصة بهم والتي تكون ذات مغزى للمجموعة التي تشكل النموذج. يقدم هذا النهج اختباراً أكثر تحدياً من مجرد القول بأن الكلمات الأكثر تشابهاً مع كلمة اختبار معينة معقولة بشكل حدسي.^[1]

الپارامترات وجودة النموذج

يمكن أن يؤثر استخدام پارامترات النموذج المختلفة وأحجام الجسم المختلفة بشكل كبير على جودة نموذج word2vec. يمكن تحسين الدقة بعدة طرق، بما في ذلك اختيار بنية النموذج (CBOW أو سكيپ-گرام)، وزيادة مجموعة بيانات التدريب، وزيادة عدد أبعاد المتجهات، وزيادة حجم نافذة الكلمات التي تنظر فيها الخوارزمية. يأتي كل من هذه التحسينات مع تكلفة زيادة التعقيد الحسابي وبالتالي زيادة زمن إنشاء النموذج.^[1]

في النماذج التي تستخدم مجموعات كبيرة وعدداً كبيراً من الأبعاد، ينتج نموذج سكيپ-گرام أعلى دقة إجمالية، وينتج باستمرار أعلى دقة في العلاقات الدلالية، بالإضافة إلى تحقيق أعلى دقة نحوية في معظم الحالات. ومع ذلك، فإن CBOW أقل تكلفة من الناحية الحسابية وتنتج نتائج دقة مماثلة.^[1]

تزداد الدقة بشكل عام مع زيادة عدد الكلمات المستخدمة، ومع زيادة عدد الأبعاد. ذكر ميكولوڤ وآخرون.^[1]أن مضاعفة كمية بيانات التدريب تؤدي إلى زيادة في التعقيد الحسابي يعادل مضاعفة عدد أبعاد المتجهات.

درس ألتسزيلر والمؤلفون المشاركون (2017) أداء Word2vec في اختبارين دلاليين لأحجام مجموعة نصية مختلفة.^[22] وقد وجدوا أن Word2vec به منحنى تعليمي، متفوقاً على أسلوب آخر لتضمين الكلمات ( LSA) عندما يتم تدريبه على حجم مجموعة متوسط إلى كبير (المزيد من 10 ملايين كلمة). ومع ذلك، مع مجموعة صغيرة من التدريب، أظهر LSA أداء أفضل. بالإضافة إلى ذلك، يوضحون أن أفضل إعداد للپارامترات يعتمد على المهمة ومجموعة التدريب. ومع ذلك، بالنسبة لنماذج سكيپ-گرام المدربة في مجموعات متوسطة الحجم، ذات أبعاد 50، يبدو أن حجم النافذة المكون من 15 و 10 عينات سلبية يعد إعداداً جيداً للپارامترات.

خوارزميات استخدمت للغة العربية

KALIMAT a Multipurpose Arabic Corpus.
OCA: Opinion Corpus for Arabic
A Suite of Tools for Arabic Natural Language Processing: A UNL Approach
Arabic Natural Language Processing: Challenges and Solutions
A Formal Grammar for the Description of Sentence Structure in Modern Standard Arabic
Introduction to Arabic Natural Language Processing
The Penn Arabic Treebank: Building a Large-Scale Annotated Arabic Corpus.
Improving Sentiment Analysis in Arabic Using Word Representation
Rule-based Approach in Arabic Natural Language Processing
Assessment of a Significant Arabic Corpus
AraNLP: A Java-based Library for the Processing of Arabic Text
Automated Arabic Text Categorization Using SVM and NB
Automatic Arabic Text Classification

انظر أيضاً

الهامش

^ ^أ ^ب ^ت ^ث ^ج ^ح ^خ ^د ^ذ Mikolov, Tomas; et al. (2013). "Efficient Estimation of Word Representations in Vector Space". arXiv:1301.3781 [cs.CL].
^ Mikolov, Tomas; et al. (2013). "Efficient Estimation of Word Representations in Vector Space". arXiv:1301.3781 [cs.CL].
^ Mikolov, Tomas (2013). "Distributed representations of words and phrases and their compositionality". Advances in Neural Information Processing Systems. arXiv:1310.4546.
^ {{{1}}} patent {{{2}}}
^ ^أ ^ب Goldberg, Yoav; Levy, Omer (2014). "word2vec Explained: Deriving Mikolov et al.'s Negative-Sampling Word-Embedding Method". arXiv:1402.3722 [cs.CL].
^ Řehůřek, Radim. Word2vec and friends (Youtube video). Retrieved 2015-08-14.
^ (2013) "Distributed representations of words and phrases and their compositionality" in Advances in Neural Information Processing Systems..
^ ^أ ^ب ^ت "Google Code Archive - Long-term storage for Google Code Project Hosting". code.google.com. Retrieved 2016-06-13.
^ "Parameter (hs & negative)". Google Groups. Retrieved 2016-06-13.
^ "Visualizing Data using t-SNE" (PDF). Journal of Machine Learning Research, 2008. Vol. 9, pg. 2595. Retrieved 2017-03-18.
^ Le, Quoc; et al. (2014). "Distributed Representations of Sentences and Documents". arXiv:1405.4053 [cs.CL].
^ "Doc2Vec tutorial using Gensim". Retrieved 2015-08-02.
^ "Doc2vec for IMDB sentiment analysis". Retrieved 2016-02-18.
^ "Doc2Vec and Paragraph Vectors for Classification". Retrieved 2016-01-13.
^ ^أ ^ب Asgari, Ehsaneddin; Mofrad, Mohammad R.K. (2015). "Continuous Distributed Representation of Biological Sequences for Deep Proteomics and Genomics". PLOS ONE. 10 (11): e0141287. arXiv:1503.05140. Bibcode:2015PLoSO..1041287A. doi:10.1371/journal.pone.0141287. PMC 4640716. PMID 26555596.{{cite journal}}: CS1 maint: unflagged free DOI (link)
^ Ng, Patrick (2017). "dna2vec: Consistent vector representations of variable-length k-mers". arXiv:1701.06279 [q-bio.QM].
^ Banerjee, Imon; Chen, Matthew C.; Lungren, Matthew P.; Rubin, Daniel L. (2018). "Radiology report annotation using intelligent word embeddings: Applied to multi-institutional chest CT cohort". Journal of Biomedical Informatics. 77: 11–20. doi:10.1016/j.jbi.2017.11.012. PMC 5771955. PMID 29175548.
^ Levy, Omer; Goldberg, Yoav; Dagan, Ido (2015). "Improving Distributional Similarity with Lessons Learned from Word Embeddings". Transactions of the Association for Computational Linguistics. Transactions of the Association for Computational Linguistics. 3: 211–225. doi:10.1162/tacl_a_00134.
^ Arora, S; et al. (Summer 2016). "A Latent Variable Model Approach to PMI-based Word Embeddings". Transactions of Assoc. Of Comp. Linguistics. 4: 385–399. doi:10.1162/tacl_a_00106 – via ACLWEB.
^ Mikolov, Tomas; Yih, Wen-tau; Zweig, Geoffrey (2013). "Linguistic Regularities in Continuous Space Word Representations". HLT-Naacl: 746–751.
^ "Gensim - Deep learning with word2vec". Retrieved 10 June 2016.
^ Altszyler, E.; Ribeiro, S.; Sigman, M.; Fernández Slezak, D. (2017). "The interpretation of dream meaning: Resolving ambiguity using Latent Semantic Analysis in a small corpus of text". Consciousness and Cognition. 56: 178–187. arXiv:1610.01520. doi:10.1016/j.concog.2017.09.004. PMID 28943127. S2CID 195347873.

وصلات خارجية

Wikipedia2Vec [1] (introduction)

التطبيقات

الكلمات الدالة:

[mikolov-1] أ ^ب ^ت ^ث ^ج ^ح ^خ ^د ^ذ Mikolov, Tomas; et al. (2013). "Efficient Estimation of Word Representations in Vector Space". arXiv:1301.3781 [cs.CL].

[2] Mikolov, Tomas; et al. (2013). "Efficient Estimation of Word Representations in Vector Space". arXiv:1301.3781 [cs.CL].

[3] Mikolov, Tomas (2013). "Distributed representations of words and phrases and their compositionality". Advances in Neural Information Processing Systems. arXiv:1310.4546.

[pat-4] {{{1}}} patent {{{2}}}

[explain-5] أ ^ب Goldberg, Yoav; Levy, Omer (2014). "word2vec Explained: Deriving Mikolov et al.'s Negative-Sampling Word-Embedding Method". arXiv:1402.3722 [cs.CL].

[extensions-6] Řehůřek, Radim. Word2vec and friends (Youtube video). Retrieved 2015-08-14.

[mikolov-nips-7] (2013) "Distributed representations of words and phrases and their compositionality" in Advances in Neural Information Processing Systems..

[:1-8] أ ^ب ^ت "Google Code Archive - Long-term storage for Google Code Project Hosting". code.google.com. Retrieved 2016-06-13.

[9] "Parameter (hs & negative)". Google Groups. Retrieved 2016-06-13.

[10] "Visualizing Data using t-SNE" (PDF). Journal of Machine Learning Research, 2008. Vol. 9, pg. 2595. Retrieved 2017-03-18.

[doc2vec-11] Le, Quoc; et al. (2014). "Distributed Representations of Sentences and Documents". arXiv:1405.4053 [cs.CL].

[doc2vec_python-12] "Doc2Vec tutorial using Gensim". Retrieved 2015-08-02.

[doc2vec_imdb-13] "Doc2vec for IMDB sentiment analysis". Retrieved 2016-02-18.

[doc2vec_java-14] "Doc2Vec and Paragraph Vectors for Classification". Retrieved 2016-01-13.

[:0-15] أ ^ب Asgari, Ehsaneddin; Mofrad, Mohammad R.K. (2015). "Continuous Distributed Representation of Biological Sequences for Deep Proteomics and Genomics". PLOS ONE. 10 (11): e0141287. arXiv:1503.05140. Bibcode:2015PLoSO..1041287A. doi:10.1371/journal.pone.0141287. PMC 4640716. PMID 26555596.{{cite journal}}: CS1 maint: unflagged free DOI (link)

[16] Ng, Patrick (2017). "dna2vec: Consistent vector representations of variable-length k-mers". arXiv:1701.06279 [q-bio.QM].

[17] Banerjee, Imon; Chen, Matthew C.; Lungren, Matthew P.; Rubin, Daniel L. (2018). "Radiology report annotation using intelligent word embeddings: Applied to multi-institutional chest CT cohort". Journal of Biomedical Informatics. 77: 11–20. doi:10.1016/j.jbi.2017.11.012. PMC 5771955. PMID 29175548.

[18] Levy, Omer; Goldberg, Yoav; Dagan, Ido (2015). "Improving Distributional Similarity with Lessons Learned from Word Embeddings". Transactions of the Association for Computational Linguistics. Transactions of the Association for Computational Linguistics. 3: 211–225. doi:10.1162/tacl_a_00134.

[19] Arora, S; et al. (Summer 2016). "A Latent Variable Model Approach to PMI-based Word Embeddings". Transactions of Assoc. Of Comp. Linguistics. 4: 385–399. doi:10.1162/tacl_a_00106 – via ACLWEB.

[20] Mikolov, Tomas; Yih, Wen-tau; Zweig, Geoffrey (2013). "Linguistic Regularities in Continuous Space Word Representations". HLT-Naacl: 746–751.

[21] "Gensim - Deep learning with word2vec". Retrieved 10 June 2016.

[Altszyler-22] Altszyler, E.; Ribeiro, S.; Sigman, M.; Fernández Slezak, D. (2017). "The interpretation of dream meaning: Resolving ambiguity using Latent Semantic Analysis in a small corpus of text". Consciousness and Cognition. 56: 178–187. arXiv:1610.01520. doi:10.1016/j.concog.2017.09.004. PMID 28943127. S2CID 195347873.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]