يتم استخدام تقنيات التجميع والتصنيف للتعلم الآلي ، والحصول على المعلومات ، وتعلم الصور والمهام ذات الصلة.

هاتان الإستراتيجيتان هما القسمان الرئيسيان لعملية البحث عن البيانات. في عالم تحليلات البيانات ، من المهم جدًا إدارة هذه الخوارزميات. على وجه الخصوص ، تفصل كلتا العمليتين البيانات. هذه المهمة ذات صلة بشكل خاص في عصر المعلومات اليوم ، مع الإفراط في تطوير البيانات في نفس الوقت الذي يجب أن يساعد فيه التطوير بشكل واضح.

وغني عن القول أن التجميع والتصنيف يمكن أن يساعد في حل المشكلات العالمية مثل الجريمة والفقر والمرض من خلال علوم البيانات.

الفرق بين التكتل والتصنيف

ما هو التجميع؟

بشكل أساسي ، يتضمن التجميع تجميع البيانات مع أوجه التشابه. ويرجع ذلك في المقام الأول إلى قياسات المسافة المقسمة بشكل منهجي وخوارزميات التجميع التي تحسب الاختلافات بين البيانات.

على سبيل المثال ، يتم الجمع بين الطلاب الذين لديهم أنماط تعلم متشابهة ويتم تدريسهم بشكل منفصل من الأساليب المختلفة. غالبًا ما يشار إلى المجموعات في استرداد البيانات باسم "تقنيات التعلم غير المنضبط" لأن التجميع يعتمد على ميزات طبيعية أو محددة.

يتم استخدامه في عدد من المجالات العلمية مثل تكنولوجيا المعلومات وعلم الأحياء وعلم الجريمة والطب.

ميزات التجميع:


  • لا يوجد تعريف واضح

لا يوجد تعريف واضح للمجموعات ، لذلك هناك خوارزميات تجميع مختلفة أو نماذج عنقودية. ما يقرب من نوعين من التكتل صعب وناعم. التكتل الجامد ينطوي على تعيين كائن ببساطة ككتلة أم لا. على النقيض من ذلك ، فإن التجمعات المعتدلة أو التكتلات الضبابية تحدد الدرجة التي تنتمي إليها مجموعة معينة.


  • من الصعب الحكم

غالبًا ما يكون العثور على نتائج التحليل العنقودي أو تقييمها أمرًا صعبًا بسبب افتقاره إلى التحديد.


  • لا ترصد

نظرًا لأن هذه إستراتيجية تعلم غير منضبطة ، فإن التحليل يعتمد ببساطة على الميزات الموجودة ؛ وبالتالي ، ليس من الضروري التنظيم الصارم.

الفرق بين التكتل والتصنيف -1

ما هو التصنيف؟

يعني التصنيف وضع علامات للحالات أو الفئات الموجودة ؛ ومن هنا جاء مصطلح "التصنيف". على سبيل المثال ، يتم تصنيف الطلاب الذين يظهرون خصائص تعلم معينة كمتعلّمين بصريين.

يُعرف التصنيف أيضًا باسم "تقنيات التعلم المحكومة" ، حيث تتعلم الآلات من المعلومات المصنفة أو السرية. إنه قابل للتطبيق للغاية في التعرف على الأنماط والإحصاءات والقياسات الحيوية.

ميزات التصنيف


  • يستخدم "مصنف"

المصنف لتحليل البيانات هو خوارزمية محددة تعين البيانات بدقة لفئة معينة. على سبيل المثال ، تعلم خوارزمية التصنيف نموذجًا لتحديد ما إذا كانت خلية معينة خطيرة أو سيئة.


  • مقدر بمقياس مشترك

غالبًا ما يتم تقييم جودة تحليل التصنيف من خلال الدقة والاستدعاء ، وهو إجراء متري معروف. يتم تصنيف المصنف من حيث دقته وحساسيته.


  • تحت السيطرة

التصنيف هو تقنية تعلم خاضعة للرقابة لأنها توفر معرفات محددة مسبقًا بناءً على ميزات قابلة للمقارنة. يفصل الوظيفة عن مجموعة التدريب المعينة.

الاختلافات بين المجموعات والتصنيف


  1. تحكم

والفرق الرئيسي هو أن التكتل غير خاضع للرقابة ويعتبر "دراسة ذاتية" ، بينما يعتمد التصنيف على معايير محددة مسبقًا.


  1. استخدام حقيبة التدريب

لا يتضمن التجميع مجموعات التدريب مع مجموعات من الأمثلة المستخدمة لإنشاء المجموعات ، ويتطلب التصنيف مجموعات تدريب لتحديد السمات المماثلة.


  1. وضع العلامات

يعمل التجميع مع البيانات غير المدربة. من ناحية أخرى ، فإنه يتعامل مع البيانات المسمى والمسمى أثناء عملية التصنيف.


  1. الغرض

مجموعات تجميع الكائنات لتضييق العلاقات وتعلم معلومات جديدة من الأنماط المخفية عندما يسعى التصنيف إلى تحديد أي مجموعة معينة تنتمي إلى مجموعة معينة.


  1. الميزات

على الرغم من أن التصنيف لا يحدد ما يجب تعلمه ، إلا أن التجميع يملي التحسين الضروري لأنه يؤكد على الاختلافات القائمة على أوجه التشابه بين البيانات.


  1. المراحل

بشكل عام ، يتكون التجميع من مرحلة واحدة فقط (التجميع) ، ويتكون التصنيف من مرحلتين: التدريب (يتعلم النموذج من مجموعة البيانات) والاختبار (يتم افتراض الفئة المستهدفة).


  1. شروط الحدود

من المهم تحديد الشروط الحدية في عملية التصنيف بالمقارنة مع التكتل. على سبيل المثال ، يتطلب تجميع التصنيف معرفة معدلات الفائدة "المنخفضة" و "المنخفضة".


  1. نبوءة

مقارنة بالتجميع ، فإن التصنيف أكثر اهتمامًا بالافتراضات لأنه يهدف إلى إنشاء فئات لاكتشاف الهدف. على سبيل المثال ، يمكن استخدام هذا "لتحديد نقاط فتح الوجه" لأنه يمكن استخدامه للتنبؤ ما إذا كان شاهد معين يكذب أم لا.


  1. التعقيد

يتكون التصنيف من مراحل أكثر ، ويشارك في التنبؤات ، ويتضمن مستويات أو مستويات ، لذلك تكون طبيعته أكثر تعقيدًا عند مقارنتها بالتجميع ، والتي تتعلق بشكل رئيسي بتجميع الميزات المماثلة.


  1. ربما عدد الخوارزميات

غالبًا ما تكون خوارزميات التجميع خطية وغير خطية ، ويتكون التصنيف من أدوات خوارزمية أكثر ، مثل المصنفات الخطية والشبكات العصبية والتقدير الأساسي وأشجار القرار ودعم آلات المتجهات.

التكتل والتصنيف: جدول يقارن الفرق بين التكتل والتصنيف

ملخص التكتل والتصنيف

  • تستخدم المجموعات وتحليل التصنيف بشكل كبير في عمليات استرجاع البيانات. يتم استخدام هذه التقنيات في العديد من التخصصات اللازمة لحل المشاكل العالمية. في كثير من الأحيان ، تجميع البيانات غير المنضبط ؛ على هذا النحو ، يعمل وضع العلامات مع البيانات الخاضعة للرقابة ؛ وهكذا ملحوظ. هذا هو أحد الأسباب الرئيسية لعدم وجود مجموعات للتكتل في عملية التصنيف. هناك خوارزميات تتعلق بالتصنيف أكثر من المجموعات. يسعى التكتل إلى تحديد ما إذا كانت البيانات متشابهة أو متشابهة في نفس الوقت الذي تسعى فيه إلى تحديد "فئات" أو مجموعات من البيانات. وهذا يركز أكثر على عملية التكتل على شروط الحدود وتحليل التصنيف ، والتي تنطوي على مزيد من الخطوات.

المراجع

  • Goswami ، Jyotismita. "دراسة مقارنة لخوارزميات التجميع والتصنيف". المجلة الدولية للهندسة العلمية والعلوم التطبيقية 1.3 (2015): 170-178. طباعة.
  • الملك ، رونالد. تحليل الكتلة واستخراج البيانات: مقدمة. بوسطن: دراسات ومعلومات الزئبق ، 2014. طباعة.
  • وانغ ، هالجاموج. تصنيف وتجميع المعرفة. نيويورك: سبرينغر ، 2005. طباعة.
  • "رصيد الصورة: https://stackoverflow.com/questions/5064928/difference-b Between-classification-and-clustering-in-data-mining"