وضع علامات على جزء من الكلام

في علم اللسانيات فإن وضع علامات على جزء من الكلام part-of-speech tagging (POS tagging أو PoS tagging أو POST)، والذي يطلق عليه أيضاً بالعلامات النحوية هو عملية ترميز كلمة في النص (مجموعة) على أنها تتوافق مع جزء من الكلام ،^[1] استناداً إلى تعريفها و السياق الخاص بها. يتم تدريس شكل مبسط من هذا بشكل عام للأطفال في سن المدرسة، في تحديد الكلمات مثل أسماء، أفعال، صفات، ظروف، إلخ.

بمجرد إجرائها يدوياً، يتم الآن وضع علامات POS في سياق اللغويات الحاسوبية، باستخدام الخوارزميات التي تربط المصطلحات المنفصلة، وكذلك الأجزاء المخفية من الكلام، بواسطة مجموعة من العلامات الوصفية. تنقسم خوارزميات وضع العلامات على أجزاء الكلام إلى مجموعتين مميزتين: القائمة على القواعد والعشوائية. طريقة إي. بريل لوضع العلامات، إحدى أوائل طرق وضع علامات POS الإنگليزية وأكثرها استخداماً، حيث تستخدم خوارزميات قائمة على القواعد.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

المبدأ

يعد وضع علامات على جزء من الكلام أصعب من مجرد وجود قائمة بالكلمات وأجزاء الكلام الخاصة بها، لأن بعض الكلمات يمكن أن تمثل أكثر من جزء واحد من الكلام في أوقات مختلفة، ولأن بعض أجزاء الكلام معقدة أو غير منطوقة. هذا ليس نادراً - في اللغات الطبيعية (على عكس العديد من اللغات الاصطناعية، نسبة كبيرة من أشكال الكلمات غامضة. على سبيل المثال، حتى "كلاب"، التي يُنظر إليها عادةً على أنها مجرد اسم جمع، يمكن أن تكون أيضًا فعلًا:

يربط البحار باب منع التسرب.

ستعكس العلامات النحوية الصحيحة أن "الكلاب" تُستخدم هنا كفعل، وليس كاسم جمع أكثر شيوعاً. السياق النحوي هو أحد الطرق لتحديد ذلك؛ يمكن أيضاً استخدام التحليل الدلالي للاستدلال على أن "بحار" و "يربط" يتمنان "كلاب" كـ 1) في السياق البحري و 2) إجراء يتم تطبيقه على الشيء "فتحة" ( في هذا السياق، فإن مصطلح "الكلاب" هو مصطلح بحري يعني "يربط (باب مانع لتسرب الماء) بشكل آمن").

مجموعات العلامات

تعلم المدارس عموماً أن هناك 9 أجزاء من الكلام بالإنگليزية: اسم، فعل، أداة تعريف، صفة، حرف جر و ضمير و ظرف و تصريف و تعجب. ومع ذلك، من الواضح أن هناك العديد من التصنيفات والتصنيفات الفرعية. بالنسبة للأسماء، يمكن التمييز بين صيغ الجمع والملكية والمفرد. في العديد من اللغات، يتم تمييز الكلمات أيضًا بسبب " الحالة" (دورها كموضوع، أو شيء، وما إلى ذلك)، نوع نحوي، وما إلى ذلك؛ بينما يتم تمييز الأفعال من أجل الفعل، الهيئة، وأشياء أخرى. في بعض أنظمة وضع العلامات، ستحصل تصريفات مختلفة لنفس الكلمة الجذرية على أجزاء مختلفة من الكلام، مما ينتج عنه عدد كبير من العلامات. على سبيل المثال، NN للأسماء المشتركة المفردة، و NNS للأسماء المشتركة الجمع، و NP لأسماء العلم المفردة (راجع علامات أجزاء الكلام المستخدمة في مجموعة براون). تستخدم أنظمة وضع العلامات الأخرى عدداً أقل من العلامات وتتجاهل الاختلافات الدقيقة أو تصوغها على أنها ميزات مستقلة نوعًاً ما عن جزء من الكلام.^[2]

في وضع علامات على جزء من الكلام بواسطة الحاسب، من المعتاد التمييز بين 50 إلى 150 جزءاً منفصلاً من الكلام للغة الإنگليزية. استخدم العمل على طرق عشوائية وضع العلامات كوين گريك (دي روز 1990) أكثر من 1000 جزء من الكلام ووجد أن عدد الكلمات غامض في تلك اللغة تقريباً مثل اللغة الإنگليزية. يتم التعبير عن الواصف الصرفي في حالة اللغات الغنية شكلياً بشكل شائع باستخدام استذكار قصير جداً، مثل Ncmsan للفئة = الاسم، النوع = مشترك، الجنس = مذكر، الرقم = مفرد، الحالة = حالة النصب، حركي = لا.

من المحتمل أن تكون "مجموعة العلامات" الأكثر شيوعاً لوضع علامات على أجزاء الكلام للغة الإنگليزية الأمريكية هي مجموعة علامات من جامعة پنسلڤانيا، التي تم تطويرها في مشروع پن تري بانك. فهو مشابه إلى حد كبير لمجموعات علامات براون و مجموعة لوب السابقة، على الرغم من أنها أصغر بكثير. في أوروبا، ترى مجموعات العلامات من إرشادات إيگلز استخداماً واسعاً وتتضمن إصدارات للغات متعددة.

تم عمل علامات على أجزاء الكلام بعدة لغات، وتختلف مجموعة علامات على أجزاء الكلام المستخدمة بشكل كبير باختلاف اللغة. عادةً ما يتم تصميم العلامات لتشمل اختلافات هيكلية صريحة، على الرغم من أن هذا يؤدي إلى تناقضات مثل وضع علامات على الأحرف للضمائر ولكن ليس الأسماء في اللغة الإنگليزية، واختلافات أكبر بكثير بين اللغات. يمكن أن تكون مجموعات العلامات للغات شديدة التصريف مثل اليونانية و اللاتينية كبيرة جداً؛ قد يكون وضع علامات على الكلمات في لغة ترابطية مثل لغات الإنويت مستحيلاً تقريباً. في الطرف الآخر، اقترح پيتروڤ وآخرون.^[3]مجموعة علامات "عامة"، مع 12 فئة (على سبيل المثال، لا توجد أنواع فرعية من الأسماء، والأفعال، وعلامات الترقيم، وما إلى ذلك؛ ولا يوجد تمييز بين "إلى" كعلامة مصدر مقابل حرف الجر (نادراً ما تكون مصادفة "عالمية")، إلخ.). سواء كانت مجموعة صغيرة جداً من العلامات الواسعة جداً أو مجموعة أكبر بكثير من العلامات الأكثر دقة هي الأفضل، فهذا يعتمد على الغرض المطروح. حيث يكون وضع العلامات التلقائي أسهل في مجموعات العلامات الأصغر.

تاريخ

مجموعة براون

تم ربط البحث عن علامات جزء من الكلام ارتباطاً وثيقاً بـ علم اللغة. أول مجموعة رئيسية للغة الإنگليزية لتحليل الحاسب كانت مجموعة براون التي تم تطويرها في جامعة براون بواسطة هنري كوزيرا و و. نلسون فرانسِس، في منتصف الستينيات. ويتألف من حوالي 1،000،000 كلمة من نص نثر باللغة الإنگليزية، ويتألف من 500 عينة من منشورات تم اختيارها عشوائياً. تتكون كل عينة من 2000 كلمة أو أكثر (تنتهي عند نهاية الجملة الأولى بعد 2000 كلمة، بحيث تحتوي المجموعة على جمل كاملة فقط).

تم "تعليم" مجموعة براون بشق الأنفس بعلامات جزء من الكلام على مدار سنوات عديدة. تم إجراء أول تقريب مع برنامج بواسطة گرين و روبن، والذي يتكون من قائمة ضخمة مصنوعة يدوياً للفئات التي يمكن أن تحدث على الإطلاق. على سبيل المثال، يمكن أن تحدث المقالة ثم الأسماء، لكن فعل المقالة (يمكن القول) لا يمكن. حصل البرنامج على نحو 70٪ صحيح. تمت مراجعة نتائجها بشكل متكرر وتصحيحها يدوياً، وبعد ذلك أرسل المستخدمون أخطاءً بحيث كانت العلامات شبه مثالية بحلول أواخر السبعينيات (مما يسمح ببعض الحالات التي قد لا يوافق عليها حتى المتحدثون من البشر).

تم استخدام هذه المجموعة في دراسات لا حصر لها حول تواتر الكلمات وجزء من الكلام وألهمت تطوير مجموعات مماثلة "مُعلَّمة" في العديد من اللغات الأخرى. شكلت الإحصائيات المستمدة من تحليلها أساساً لمعظم أنظمة وضع العلامات على أجزاء الكلام اللاحقة، مثل CLAWS (لسانيات) و VOLuableA. ومع ذلك، بحلول هذا الوقت عام (2005) حلت محلها مجموعة أكبر مثل 100 مليون كلمة من الهيئة الوطنية البريطانية.

لبعض الوقت، تم اعتبار وضع علامات على جزء من الكلام جزءاً لا يتجزأ من معالجة اللغة الطبيعية، نظراً لوجود حالات معينة لا يمكن فيها تحديد الجزء الصحيح من الكلام دون فهم الدلالات أو حتى الپراگماتيات للسياق. هذا صعب للغاية، خاصةً لأن تحليل المستويات الأعلى يكون أصعب بكثير عندما يجب مراعاة احتمالات متعددة لأجزاء الكلام لكل كلمة.

استخدام نماذج ماركوڤ المخفية

في منتصف الثمانينيات، بدأ الباحثون في أوروبا في استخدام نموذج ماركوڤ المخفي (HMMs) لإزالة الغموض عن أجزاء من الكلام، عند العمل على وسم مجموعة لانكستر-أوسلو-بيرگن الإنگليزية البريطانية. تتضمن HMMs عد الحالات (مثل من مجموعة براون) وعمل جدول باحتمالات تسلسل معين. على سبيل المثال، بمجرد مشاهدة مقال مثل 'ال'، فربما تكون الكلمة التالية اسماً بنسبة 40٪ من الوقت وصفة 40٪ ورقم 20٪. بمعرفة ذلك، يمكن للبرنامج أن يقرر أن "يستطيع" أو "ال يستطيع" من المرجح أن تكون اسماً أكثر من كونها فعلًا أو اسماً. يمكن بالطبع استخدام نفس الطريقة للاستفادة من المعرفة حول الكلمات التالية.

تتعلم HMMs الأكثر تقدمًا ("ذات الترتيب الأعلى") احتمالات ليس فقط للأزواج ولكن للثلاثيات أو حتى التسلسلات الأكبر. لذلك، على سبيل المثال، إذا رأيت للتو اسماً متبوعاً بفعل، فمن المحتمل جداً أن يكون العنصر التالي حرف جر أو مقال أو اسم، ولكن من غير المحتمل أن يكون فعل آخر.

عندما تظهر عدة كلمات غامضة معاً، تتضاعف الاحتمالات. ومع ذلك، فمن السهل تعداد كل مجموعة وتعيين احتمال نسبي لكل منها، بضرب احتمالات كل اختيار على حدة. ثم يتم اختيار المجموعة ذات أعلى احتمالية. طورت المجموعة الأوروبية CLAWS، وهو برنامج وضع العلامات الذي فعل ذلك بالضبط وحقق دقة في نطاق 93-95٪.

يجدر التذكير، كما يشير يوجين شارنياك في التقنيات الإحصائية لتحليل اللغة الطبيعية (1997)،^[4] أن مجرد تخصيص العلامة الأكثر شيوعاً لكل كلمة معروفة والعلامة "اسم علم" لجميع المجاهيل سيقترب من دقة 90٪ لأن العديد من الكلمات لا لبس فيها، ونادراً ما يمثل العديد من الكلمات الأخرى الأجزاء الأقل شيوعاً في الكلام.

كان CLAWS رائداً في مجال الجزء المستند إلى HMM من علامات الكلام ولكنه كان صعباً للغاية لأنه يعدد جميع الاحتمالات. كان عليه في بعض الأحيان اللجوء إلى طرق النسخ الاحتياطي عندما يكون هناك عدد كبير جداً من الخيارات (تحتوي مجموعة براون على حالة بها 17 كلمة غامضة على التوالي، وهناك كلمات مثل "يبقى" التي يمكن أن تمثل ما يصل إلى 7 أجزاء مميزة من الكلام (دب روز 1990, p. 82)).

تكمن HMMs في أساس عمل العلامات العشوائية وتستخدم في خوارزميات مختلفة واحدة من أكثر الخوارزميات استخداماً هي خوارزمية الاستدلال ثنائي الاتجاه.^[5]

Dynamic programming methods

In 1987, Steven DeRose^[6] and Ken Church^[7] independently developed dynamic programming algorithms to solve the same problem in vastly less time. Their methods were similar to the Viterbi algorithm known for some time in other fields. DeRose used a table of pairs, while Church used a table of triples and a method of estimating the values for triples that were rare or nonexistent in the Brown Corpus (an actual measurement of triple probabilities would require a much larger corpus). Both methods achieved an accuracy of over 95%. DeRose's 1990 dissertation at Brown University included analyses of the specific error types, probabilities, and other related data, and replicated his work for Greek, where it proved similarly effective.

These findings were surprisingly disruptive to the field of natural language processing. The accuracy reported was higher than the typical accuracy of very sophisticated algorithms that integrated part of speech choice with many higher levels of linguistic analysis: syntax, morphology, semantics, and so on. CLAWS, DeRose's and Church's methods did fail for some of the known cases where semantics is required, but those proved negligibly rare. This convinced many in the field that part-of-speech tagging could usefully be separated from the other levels of processing; this, in turn, simplified the theory and practice of computerized language analysis and encouraged researchers to find ways to separate other pieces as well. Markov Models are now the standard method for the part-of-speech assignment.

Unsupervised taggers

The methods already discussed involve working from a pre-existing corpus to learn tag probabilities. It is, however, also possible to bootstrap using "unsupervised" tagging. Unsupervised tagging techniques use an untagged corpus for their training data and produce the tagset by induction. That is, they observe patterns in word use, and derive part-of-speech categories themselves. For example, statistics readily reveal that "the", "a", and "an" occur in similar contexts, while "eat" occurs in very different ones. With sufficient iteration, similarity classes of words emerge that are remarkably similar to those human linguists would expect; and the differences themselves sometimes suggest valuable new insights.

These two categories can be further subdivided into rule-based, stochastic, and neural approaches.

Other taggers and methods

Some current major algorithms for part-of-speech tagging include the Viterbi algorithm, Brill tagger, Constraint Grammar, and the Baum-Welch algorithm (also known as the forward-backward algorithm). Hidden Markov model and visible Markov model taggers can both be implemented using the Viterbi algorithm. The rule-based Brill tagger is unusual in that it learns a set of rule patterns, and then applies those patterns rather than optimizing a statistical quantity. Unlike the Brill tagger where the rules are ordered sequentially, the POS and morphological tagging toolkit RDRPOSTagger stores rule in the form of a ripple-down rules tree.

Many machine learning methods have also been applied to the problem of POS tagging. Methods such as SVM, maximum entropy classifier, perceptron, and nearest-neighbor have all been tried, and most can achieve accuracy above 95%.

A direct comparison of several methods is reported (with references) at the ACL Wiki.^[8] This comparison uses the Penn tag set on some of the Penn Treebank data, so the results are directly comparable. However, many significant taggers are not included (perhaps because of the labor involved in reconfiguring them for this particular dataset). Thus, it should not be assumed that the results reported here are the best that can be achieved with a given approach; nor even the best that have been achieved with a given approach.

In 2014, a paper reporting using the structure regularization method for part-of-speech tagging, achieving 97.36% on the standard benchmark dataset.^[9]

Issues

While there is broad agreement about basic categories, several edge cases make it difficult to settle on a single "correct" set of tags, even in a particular language such as (say) English. For example, it is hard to say whether "fire" is an adjective or a noun in

 the big green fire truck

A second important example is the use/mention distinction, as in the following example, where "blue" could be replaced by a word from any POS (the Brown Corpus tag set appends the suffix "-NC" in such cases):

 the word "blue" has 4 letters.

Words in a language other than that of the "main" text are commonly tagged as "foreign", usually, in addition to a tag for the role the foreign word is playing in context.

There are also many cases where POS categories and "words" do not map one to one, for example:

 as far as
 David's
 gonna
 don't
 vice versa
 first-cut
 cannot
 pre- and post-secondary
 look (a word) up

In the last example, "look" and "up" combine to function as a single verbal unit, despite the possibility of other words coming between them. Some tag sets (such as Penn) break hyphenated words, contractions, and possessives into separate tokens, thus avoiding some but far from all such problems.

Many tag sets treat words such as "be", "have", and "do" as categories in their own right (as in the Brown Corpus), while a few treat them all as simply verbs (for example, the LOB Corpus and the Penn Treebank). Because these particular words have more forms than other English verbs, and occur in quite different grammatical contexts, treating them merely as "verbs" means that a POS tagger has much less information to go on. For example, an HMM-based tagger would combine several rows and columnsقالب:Huh that would otherwise be not only distinct but quite different. A more complex algorithm could also consider the particular word in each case; but with distinct tags, the HMM itself can often predict the correct finer-grained tag even for novel spelling variants, and thus provide better help to later processing.