تنقيب في البيانات

التنقيب في البيانات (الإنجليزية: Data mining) هي عملية بحث محوسب ويدوي عن معرفة من البيانات دون فرضيات مسبقة عما يمكن أن تكون هذه المعرفة. كما ويعرف التنقيب في البيانات على أنه عملية تحليل كمية بيانات (عادة ما تكون كمية كبيرة) لإيجاد علاقة منطقية تلخص البيانات بطريقة جديدة تكون مفهومة ومفيدة لصاحب البيانات. يطلق اسم "نماذج" models على العلاقات والبيانات الملخصة التي يتم الحصول عليها من التنقيب في البيانات. يتعامل تنقيب البيانات عادة مع بيانات يكون قد تم الحصول عليها بغرض غير غرض التنقيب في البيانات (مثلاً قاعدة بيانات التعاملات في مصرف ما) مما يعني أن طريقة التنقيب في البيانات لاتؤثر مطلقاً على طريقة تجميع البيانات ذاتها. هذه هي أحد النواحي التي يختلف فيها التنقيب في البيانات عن الإحصاء، ولهذا يشار إلى عملية التنقيب في البيانات على أنها عملية إحصائية ثانوية. يشير التعريف أيضاً إلى أن كمية البيانات تكون عادة كبيرة، أما في حال كون كمية البيانات صغيرة فيفضل استخدام الطرق الإحصائية العادية في تحليلها.

عند التعامل مع حجم كبير من البيانات تظهر مسائل جديدة مثل كيفية تحديد النقاط المميزة في البيانات، وكيفية تحليل البيانات في فترة زمنية معقولة وكيفية قرار ما إذا كانت أي علاقة ظاهرية تعكس حقيقة في طبيعة البيانات. عادة يتم التنقيب في بيانات تكون جزءاً من كامل البيانات حيث يكون الغرض عادة تعميم النتائج على كامل البيانات (مثلاً تحليل البيانات الحالية لمستهلكي منتج ما بغرض توقع طلبات المستهلكين المستقبلية). من أحد أهداف تنقيب البيانات أيضاً هو اختزال كميات البيانات الكبيرة أو ضغطها بحيث تعبر بشكل بسيط عن كامل البيانات بدون تعميم.

ويعد تنقيب في البيانات من المفهومات الجديدة في الهندسة المعلوماتية، ظهر نتيجة التطور الكبير الذي شهده استخدام قواعد المعطيات database في النصف الثاني من تسعينات القرن العشرين، وتلازم ظهوره مع الحاجة إلى مايسمى «اكتشاف المعرفة» knowledge discovery.

أتاح تطور التقانات المعلوماتية إمكانات واسعة للتعامل مع مقادير كبيرة من البيانات، ووفر الوسائل اللازمة لتخزينها وتعديلها واستخراج المعلومات منها لدى المؤسسات التي تستخدم الوسائل المعلوماتية ويعتمد عملها اعتماداً كبيراً على الأنظمة المعلوماتية والبيانات مثل المصارف وشركات التأمين وغيرها.

إن النمو السريع لحاجات المؤسسات وزيادة حجوم مخازن البيانات الحديثة التي يجري تجميعها على مراحل زمنية طويلة من جهة، واختلاف طبيعة المعطيات التي يمكن تخزينها من جهة أخرى، جعل الطرق الإحصائية التقليدية قاصرة عن تحقيق كل متطلبات تحليل المعطيات، الأمر الذي استدعى تطوير طرائق جديدة تستخدم تقانات الذكاء الصنعي في تحليل ذلك الكم الهائل من المعطيات، واستخلاص مايهم المعرفة المفيدة. وأدت هذه التقانات والأدوات إلى ظهور ما سُمي اكتشاف المعرفة من قاعدة البياناتknowledge discovery in databases (KDD) الذي عدّ فرعاً مستقلاً بذاته من فروع المعلوماتية. وقد عُقدت تحت شعاره عدّة مؤتمرات كان أولها عام1991، وصدرت مجلة خاصة بهذا العلم عام 1997 تدعى Fayyad، وأجريت بحوث عدّة في مجاله والمجالات الأخرى المرتبطة به من بينها تقانات قواعد المعطيات والإحصاء والتعلم الآلي.

من الصعب إعطاء تعريف دقيق لعملية اكتشاف المعرفة من قواعد المعطيات كونها عملية معقدة تحاكي عمليات الاكتشاف التي يقوم بها الجهاز العصبي لدى الإنسان، والتعريف الأكثر شيوعاً هو: «عملية مركبة تهدف إلى تحديد الأجزاء المفيدة والمفهومة والجديدة من المعطيات». غالباً ما يستخدم التعبيران «تنقيب في البيانات» و«اكتشاف المعرفة» مترادفين، ومن الشائع استخدام مصطلح «تنقيب في البيانات» في مجال الصناعة، أما مصطلح «اكتشاف المعرفة» فتعبير شائع في مجال الأبحاث العلمية. وعلى أساس المنحى العلمي فإن عملية «تنقيب في البيانات» ليست مرحلة واحدة من مراحل «اكتشاف المعرفة». وتتألف من تحليل المعطيات، وخوارزميات الاكتشاف التي تنتج في زمن مقبول عينات خاصة من البيانات.

فهرست

بحوث وتطور

Process

Pre-processing

التحقق من صحة النتائج

قالب:Missing information

المعايير

أشهر الاستخدامات

انظر أيضا تصنيف: Applied data mining

قالب:Cleanup-rewrite

الألعاب

الأعمال

العلوم والهندسة =

حقوق الإنسان

Spatial data mining

التحديات

التنقيب بالاستشعار

التنقيب المرئي

التنقيب موسيقي

المراقبة

نمط التنقيب

شبكة المعرفة

Reliability

مخاوف الخصوصية والأخلاق

البرمجة

انظر أيضا تصنيف: Data mining and machine learning software

Free libre open-source data-mining software and applications

برمجيات وتطبيقات التنقيب التجاري

استطلاعات السوق

أنواع

هناك نوعان أساسيان للتنقيب في البيانات هما: االتنقيب الاستشرافي والتنقيب الوصفي.

التنقيب الاستشرافي ينتج عنه نموذج عن النظام الذي تصفه البيانات المستخدمة في التنقيب. أما التنقيب الوصفي فينتج عنه معلومات جديدة بناء على المعلومات الموجودة داخل البيانات المستخدمة في عملية التنقيب.

الكيفية

أهداف التنقيب

هناك ثلاثة أهداف للتنقيب في البيانات:

1) من أجل تعليل بعض الظواهر المرئية. مثال:

2) من أجل التثبت من نظرية ما. مثال: التثبت من النظرية التي تقول بأن الأسر الكبيرة تهتم بالضمان الصحي أكثر من الأسر الصغيرة عددا.

3) من أجل تحليل البيانات للحصول على علاقات جديدة وغير متوقعة. مثال: كيف سيكون الانفاق العام إن كان ملازما لعمليات خداع واسعة من قبل البطاقات الائتمانية.

وسائل التنقيب في البيانات

هناك عدة وسائل مختلفة من أجل التنقيب في البيانات. اختيار الوسيلة المناسبة يعتمد على طبيعة البيانات تحت الدراسة وعلى حجمها. يمكن اجراء عملية التنقيب في البيانات بالمقارنة مع سوق البيانات ومخزن البيانات.

بعض من هذه الوسائل هي: (يتبعها وظيفة كل وسيلة)

- التفكير واستخلاص النتائج والقوانين من أمثلة حية Case-Based reasoning

- الكشف عن قانون Rule Discovery: البحث عن منوال معين أو علاقة معينة في جزئية كبيرة من البيانات

- معالجة الإشارات Signal Processing: ايجاد الظواهر المتشابه مع بعضها البعض

- شبكات نووية Neural Nets: تطوير نماذج قابلة لتنبؤ النتائج. هذه النماذج تم تطويرها بناءا على أسس تم استنباطها من عقل الإنسان.

- منحنيات غير ثابتة Fractals: تصغير البيانات الكبيرة من دون ضياع المعلومات

تطبيقات التنقيب في البيانات

وسائل التنقيب في البيانات تُستعمل وبنجاح في الكثير من التطبيقات الحقيقة حول العالم.

التطبيقات التالية تشمل بعضا من الأمثلة: (يتبعها مثال لكل تطبيق)

- كتابة تقرير مختصر عن فئة معينة Profiling Populations: تطوير وإنشاء تقارير موجزة عن الزبائن المهمين وعن بطاقات الائتمان.

- تحليل النزعة التجارية Analysis of Business Trend: ايجاد الأسواق ذات قدرات النمو القوية أو الضعيفة.

- التسويق لفئة معينة Target Marketing: ايجاد الزبائن من أجل منح التخفيضات لهم لسبب معين.

- تحليل الاستعمال Usage Analysis: ايجاد منوال معين لاستعمال الخدمات والسلع

- فعالية الحملة Campaign Effectiveness: مقارنة استراتيجيات الحملات مع بعضها البعض من أجل ايجاد أكثرها فعالية وتأثيرا.

- جاذبية السلعة: ايجاد السلع التي تباع مع بعضها البعض.

تطبيقات التنقيب في البيانات بدأت تنمو بصورة كبيرة للأسباب التالية:

1) كمية البيانات الموجودة في مخزن البيانات وسوق البيانات تنمو بصورة أسية (exponential).

ومن أجل ذلك، فإن المستخدم يحتاج إلى أدوات متطورة من مثل التنقيب في البيانات من اجل استخلاص الفائدة والمعرفة من هذه البيانات.

2) الكثير من أدوات التنقيب عن البيانات بدأت تظهر مؤخرا، وكل أداة أفضل من الأخرى.

3) المنافسة الشديدة الموجودة في السوق تدفع الشركات إلى الاستفادة القصوى من البيانات التي بيدها. عمليات التنقيب في البيانات تفعل ذلك تماما.

التنقيب في البيانات وأدوات الاستعلام

ثمة فروق واضحة بين تحري البيانات وطرائق الاستعلام ولغات الاستعلام الشائعة التي توفرها معظم نظم إدارة قواعد البيانات، مثل لغة SQL. ففي حين صُممت لغات الاستعلام بهدف تقديم وسائل تمكن مستخدمها من تحديد البيانات التي يود استخراجها من قاعدة ما، واختبار الفرضيات التي وضعها بناءً على البيانات أو القيم المُستخرجة، صممت أدوات التنقيب في البيانات لتضع الفرضيات وتختبرها وتستنتج منها معلومات جديدة. ولتوضيح هذه الفكرة يمكن الموازنة بين هذين المنحيين في المثال الآتي: تريد إحدى شركات تصنيع الحواسيب معرفة معدلات بيع منتجاتها والوسائل الكفيلة بتحسين مردودها. فتبدأ بدراسة كل منتج من منتجاتها لتحديد معدل البيع في بعض مناطق العالم وتوازن بين هذه المعدلات لمعرفة مدى قبول المنتج في تلك المناطق. ولتحقيق ذلك يمكن استخدام إحدى لغات الاستعلام مثل SQL، ثم تدرس العلاقة بين متوسط دخل ا لفرد في كل دولة وعدد المنتجات التي تشتريها تلك الدولة سنوياً وهكذا، وفي كل مرة هناك فرضية يجري إثباتها أو نفيها. أما تقانات التنقيب في البيانات فإنها تعنى بالإجابة على السؤال الأعم من هذه الأسئلة الفرعية مثل «هل لاقى منتج ما نجاحاً كافياً، وماهي العوائق التي تحول دون الحصول على النجاح المطلوب، وما هي طرق تذليل تلك العقبات؟». لا تتطلب أداة التحري في هذه الحالة أي فرضيات، إنما تقوم بعملية الفرز والتصنيف والتحليل لاكتشاف العلاقات والمعلومات المخفية التي لا يمكن ملاحظتها دوماً.

وعموماً يمكن القول إنه في حال معرفة المطلوب تماماً، يمكن استخدام لغات الاستفسار مثل SQL، أما إذا كان ما يريده المستخدم غير واضح، ولديه فرضيات أو معايير، فلا بد من اللجوء إلى تقانات تنقيب في البيانات التي صار لها أهمية كبيرة لغموض المطلوب في أكثر الحالات.

التقانات المستخدمة في تنقيب في البيانات

ثمة طيف واسع من التقانات المستخدمة في تنقيب في البيانات يتميز كل منها بخصائص فريدة لاتوفرها التقانات الأخرى، ولذلك فإن اختيار تقانة التعرف الملائمة لحالة معينة ليس بالأمر السهل. ويمكن حصر أهم هذه التقانات بما يلي:

ـ أدوات الاستعلام query tools ومنها لغة SQL وغيرها. وهي الخطوة الأولى في عملية التنقيب في البيانات التي تستخدم أدوات استعلام تقليدية لمعرفة بنية المعطيات الأساسية بتطبيق خوارزميات تحليل معقدة.

ـ التقنيات الإحصائية statistical techniques.

ـ الإظهار visualization وهي طريقة مفيدة في استخلاص عينات من مجموعة البيانات، تطبق في بداية عملية تحري المعطيات، لأنها تعطي فكرة جيدة حول كفاية البيانات والعينات التي يمكن استخلاصها منها.

ـ أشجار القرار decision trees وهي تقانة مفيدة في تصنيف البيانات وفقاً لمجموعة من الخواص المتدرجة التي تشكل شجرة القرار.

ـ القواعد المترابطة association rules.

ـ الشبكات العصبونية neural networks التي تقوم على محاكاة الدماغ البشري وكيفية التعلم والتعلم الذاتي، ومن ثمّ تحول عملية التنقيب في البيانات إلى قيم يمكن إرسالها إلى مداخل عقد الشبكة.

ـ الخوارزميات الجينية genetic algorithms التي اشتقت من علم البيولوجيا والوراثة، وهي نوع متطور من استراتيجيات التعلم، تقوم على نظرية التطور، ويجري تحويل مشكلة التنقيب في البيانات إلى مجموعة من سلاسل صبغيات.

فإذا توصلت إحدى هذه التقنيات إلى إيجاد شكل مناسب، فبإمكان بقية التقنيات إيجاد هذا الشكل وتترجم المشكلة إلى تقنية التعلم learning technique ومن ثمّ يقوم مختصّ بإيجاد التمثيل الهندسي للشكل الناتج.

أمثلة عن أهمية تطبيق تقانات التنقيب في البيانات

يمكن بيان أهمية تطبيق تقانات تحري البيانات في مثال بسيط يعرض وضع شركة توزيع، تتلقى طلبات شراء من المواطنين، تُدخل هذه الطلبات في نظام معلوماتي قبل إرسال المواد والبضائع التي تتضمنها هذه الطلبات إلى الزبائن. بعد العمل مدة طويلة بهذه الطريقة، سوف يتوافر لدى هذه الشركة قاعدة معطيات مهمة تحتوي على المعلومات التي تتضمنها طلبات الزبائن في تلك المرحلة، وسوف تكون هذه القاعدة مصدراً مهماً للمعلومات، تستفيد منه الشركة في اتخاذ القرارات المناسبة لعملها، ووضع خططها المستقبلية وتحديد مجموعات الزبائن التي تتعامل معها، ومن ثمّ تصنيفها وفقاً للمناطق السكنية، أو الفئات العمرية، أو المنتجات المطلوبة، أوغيرها من المعايير البسيطة أو المركبة. كما تستطيع الشركة دراسة وسائل التسويق والدعاية التي تستخدمها، ومردود هذه الوسائل. فقد تكتشف الشركة أن عدد زبائنها الذين تعرفوا على منتجاتها من الرسائل البريدية التي أرسلتها إلى سكان منطقة سكنية معينة لم يتجاوز نسبة 4٪، وأن الربح الذي حققته من بيع منتجاتها لهذه الشريحة من الزبائن لا يغطي ما أنفقته في إرسال هذه الرسائل، ومن ثمّ لابد من إيجاد وسائل ترويج أكثر ملاءمة مثل الإعلان عن تخفيضات في أسعار بعض المنتجات أو توفير طرق تسديد تناسب مستوى دخلهم. كما يمكن تطبيق تقانات أكثر تعقيداً مثل الشبكات العصبونية لمحاكاة عملية إرسال الإعلانات بالبريد وتجاوب الزبائن مع هذه الرسائل. تتعلم الشركة من المعلومات المسجلة حول ما جرى في الماضي ما يرشدها بعد ذلك إلى اختيار العنوانات التي يمكن أن تتجاوب مع هذه الطريقة في الإعلان.

كذلك يمكن الانتقال إلى مستوى أكثر تعقيداً من دراسة الزبائن والعلاقة التي يمكن أن تكون بين مجموعات الزبائن ومجموعات المنتجات التي تسوقها الشركة؛ فالزبائن الذين يشترون اليوم ملابس لأطفالهم الرضع، قد يشترون بعد عشر سنوات الألعاب الإلكترونية لهؤلاء الأطفال.

يتبين من هذا المثال أهمية معرفة هذه الأنواع من القواعد وتطبيقها لإيجاد فرص تجارية أفضل، ومعرفة مدى فعالية طرق التسويق التي تطبقها وتدقيقها، ومقارنة هذه الوسائل وتحديد ما يناسب شريحة معينة من الزبائن.

لا يقتصر التنقيب في البيانات على التطبيقات من النوع السابق، وإنما يشمل طيفاً واسعاً من النشاطات، فمثل هذا التقانات تفيد، إذا ما طُبقت على قواعد البيانات التي تحوي معطيات عن المشافي و المرضى الذين يدخلون، والأدوية التي يتعاطونها وطرق العلاج المستخدمة، ومدى استجابة الأمراض لها، والتوزع السكاني للمرضى، وأحوال الطقس في هذه المناطق السكنية، والأعمال التي يمارسها سكانها، ومستواهم التعليمي في معرفة الأمراض التي تصيب فئة معينة منهم، واكتشاف الأوبئة التي تصيب الناس في أوقات معينة واتخاذ الاحتياطات اللازمة لها، وغير ذلك من المعلومات؛ تفيد في اتخاذ قرارات تتعلق بتحسين مستوى الخدمات الطبية التي تقدمها هذه المشافي.

تكامل أنظمة دعم القرار مع عملية التنقيب في البيانات

تعد عملية تنقيب في أحد أشكال أنظمة دعم القرار، فهي تستخدم للاستعلام ولاستخلاص المعرفة من مخازن البيانات المتوافرة. تتطلب عملية استكشاف المعرفة ست مراحل:

ـ اختيار البيانات data selection ويجري في هذه المرحلة تجميع المعلومات المراد معالجتها من مخازن البيانات المختلفة ووضعها في مخزن للبيانات.

ـ التصفية cleaning وتتضمن إلغاء التسجيلات المتكررة، وتصحيح أخطاء كتابة سلاسل المحارف، وإضافة المعلومات الناقصة وغيرها.

ـ الإغناء enrichment.

ـ الترميز coding إذ يجري استخدام ترميز وتصنيف موحد للبيانات ذات الدلالة المشتركة والمستوردة من بنوك المعطيات المعنية.

ـ تحري االبيانات.

ـ بناء التقارير reporting.

وتعد المرحلة الخامسة (مرحلة التنقيب في البيانات)مرحلة الاكتشاف الحقيقية.

ويستطيع المنقب عن البيانات data miner الرجوع إلى الخلف خطوة واحدة أو أكثر، فقد يجد حين يكون في مرحلة الترميز أو مرحلة التحري، بأن مرحلة التصفية غير كاملة، أو قد يكتشف معطيات جديدة تغني مجموعات البيانات الموجودة مسبقاً. ومن المستحيل وصف كامل تلوث البيانات data pollution الذي يمكن توقع وجوده في قاعدة البيانات سلفاً، إذ لا يمكن اكتشافه إلا في مرحلة التحري فقط.

التطبيقات العملية للتنقيب في البيانات والصعوبات الناتجة

تجاوزت تقانات التنقيب في البيانات طور الاختبار ودخلت حيز الاستخدام العملي في الدول المتقدمة. وقد كانت الشركات الكبيرة مثل شركات الهاتف والمصارف أول من طبق تقانات اكتشاف المعرفة في قواعد البيانات لتحليل ملفات زبائنها. بعد ذلك اتسع مجال استخدام هذه التقانات ليشمل طيفاً واسعاً من النشاطات مثل شركات التأمين ومراكز دراسة أحوال الطقس والمؤسسات التعليمية والطبية وغيرها.

ومن الملاحظ أن 80٪ من أعمال اكتشاف المعرفة في قواعد المعطيات تقوم على تحضير البيانات، أما 20٪ المتبقية فتقوم على التحري فيها.

وتعد مرحلة تحضير البيانات التي تستخدم الإجراءات والأساليب التقليدية من قواعد البيانات لإدخالها وترميزها، المرحلة الأكثر أهمية ضمن مراحل اكتشاف المعرفة. فمن دون البيانات صحيحة يبقى هناك نقص ما يجب البحث عنه.

ولما كان اكتشاف المعرفة والتنقيب في البيانات محورين جديدين من محاور المعلوماتية التي تتعامل مع معطيات الصناعة المتنامية بوتيرة عالية، مازال هذا العلم يواجه الكثير من المصاعب منها:

ـ عملية اكتشاف المعرفة: هناك حاجة إلى فهم أفضل لعملية اكتشاف المعرفة، إذ يجب تحديد المراحل المختلفة في هذه العملية، والعلاقات بين مختلف الخطوات في أثنائها، كذلك ينبغي وضع دليل يساعد محللي الأعمال ومهندسي التنقيب في البيانات في إنجاز مشاريع اكتشاف المعرفة.

ـ التغيرات والتبدلات في البيانات: إن تبدل البيانات باستمرار، وحفظها في قواعد المعطيات يجعل من عملية اكتشاف المعرفة الشغل الشاغل لأولئك الذين يسعون إلى إيجاد تقانات جديدة للتعامل مع تلك الأشكال المتغيرة، مما يضطرهم إلى إيجاد وسائل إضافية للتأكد من أن عملية اكتشاف المعرفة المستخدمة مازالت فعّالة لدى الانتقال إلى صيغ جديدة للمعطيات، وفي بعض الأحيان تعديل نموذج التحري المستخدم ليتناسب معها.

ـ المحاور المتعددة الاستراتيجيات: أحياناً يكون استخدام نوع واحد من خوارزميات التنقيب في البيانات غير كافٍ للإجابة عن سؤال معقد نوعاً ما. ولذلك تظهر الحاجة إلى توظيف عدة استراتيجيات قائمة على استخدام مجموعة من التقانات للإجابة عن سؤال واحد.

ـ تدرج عملية اكتشاف المعرفة والتنقيب في البيانات:

يزداد كمّ البيانات بسرعة، وتتطلب قواعد البيانات اليوم استخدام طرائق فعّالة للوصول إلى المعطيات. وهي أيضاً مجبرة على استخدام خوارزميات التنقيب في البيانات، التي يجب تعديلها بما يتناسب مع هذا الكمّ المتزايد من البيانات. كذلك ينبغي توظيف تقانات لتخليص المعطيات قبل القيام بعملية التنقيب فيها ضمن عملية اكتشاف المعرفة.[1]

انظر أيضاً

الطرق

مجالات التطبيقات

أمثلة التطبيقات

انظر أيضا تصنيف: Applied data mining

مواضيع ذات صلة

Data mining is about analyzing data; for information about extracting information out of data, see:

المصادر

  1. ^ مادلين عبود. تحري المعطيات. الموسوعة العربية.

قراءات أخرى

قالب:Copy edit-section

  • Cabena, Peter, Pablo Hadjnian, Rolf Stadler, Jaap Verhees and Alessandro Zanasi (1997). Discovering Data Mining: From Concept to Implementation. Prentice Hall, ISBN 0-13-743980-6.
  • Feldman, Ronen and James Sanger. The Text Mining Handbook. Cambridge University Press, ISBN 978-0-521-83657-9.
  • Guo, Yike and Robert Grossman, editors (1999). High Performance Data Mining: Scaling Algorithms, Applications and Systems. Kluwer Academic Publishers.
  • Hastie, Trevor, Robert Tibshirani and Jerome Friedman (2001). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer, ISBN 0-387-95284-5.
  • Liu, Bing (2007). Web Data Mining: Exploring Hyperlinks, Contents and Usage Data. Springer, ISBN 3-540-37881-2.
  • Murphy, Chris (May 16, 2011). "Is Data Mining Free Speech?". InformationWeek. UMB. 
  • Nisbet, Robert, John Elder, Gary Miner (2009). Handbook of Statistical Analysis & Data Mining Applications. Academic Press/Elsevier. ISBN 9780123747655
  • Poncelet, Pascal, Florent Masseglia and Maguelonne Teisseire, editors (October 2007). "Data Mining Patterns: New Methods and Applications", Information Science Reference. ISBN 978-1-59904-162-9.
  • Pang-Ning Tan, Michael Steinbach and Vipin Kumar (2005). Introduction to Data Mining. ISBN 0-321-32136-7
  • Sergios Theodoridis, Konstantinos Koutroumbas (2009). Pattern Recognition, 4th Edition. Academic Press. ISBN 978-1-59749-272-0.
  • Weiss and Indurkhya. Predictive Data Mining. Morgan Kaufmann.
  • (30 January 2011) Data Mining: Practical Machine Learning Tools and Techniques, 3, Elsevier. ISBN 978-0-12-374856-0.  (See also Free Weka software.)
  • Ye, N. (2003). The Handbook of Data Mining. Mahwah, New Jersey: Lawrence Erlbaum.

وصلات خارجية

كومونز
هنالك المزيد من الملفات في ويكيميديا كومنز حول :

قالب:Data warehouse قالب:Computer science


[[Category:| ]]