کلاسترینگ ، کلاسترینگ چیست؟ ، clustering ، تحلیل کلاسترینگ

کلاسترینگ چیست؟ در مورد کلاسترینگ چه می دانیم؟

در این مقاله قصد داریم به این موضوع بپردازیم که منظور از کلاسترینگ چیست؟، برای تجزیه و تحلیل کلاسترینگ یا clustering، وظیفه گروه بندی مجموعه ای از اشیا است، به گونه ای که اشیا در همان گروه که کلاستر یا خوشه نامیده می شود شباهت بیشتری نسبت به سایر گروه ها یا کلاسترها با یکدیگر داشته باشند. کلاسترینگ، یک هدف اصلی از داده کاوی اکتشافی می باشد و یک تکنیک معمول برای تجزیه و تحلیل داده های آماری است که در بسیاری از زمینه ها از جمله شناخت الگو، تجزیه و تحلیل image، بازیابی اطلاعات، بیوانفورماتیک، فشرده سازی داده ها، گرافیک رایانه ای و یادگیری ماشین مورد استفاده قرار می گیرد.

کلاسترینگ به عنوان یک الگوریتم خاص نمی باشد بلکه یک وظیفه کلی است که باید حل شود. می توان با الگوریتم های مختلفی که در درک آنها از آن چه که یک خوشه را تشکیل می دهد و چگونگی یافتن کارآمد آنها تفاوت چشمگیری دارند. مفاهیم رایج خوشه ها دارای گروه هایی با فاصله های کوچک بین عضوهای خوشه، منطقه های متراکم فضای داده ها، فواصل زمانی یا توزیع آماری خاص می باشد.

نابراین کلاسترینگ می تواند جهت بهینه سازی چند منظوره استفاده شود. الگوریتم کلاسترینگ و تنظیمات پارامتر مناسب شامل عملکرد فاصله جهت استفاده، تعداد کلاسترهای مورد انتظار، به مجموعه داده های فردی و نتایج مورد استفاده شده بستگی دارد. کلاسترینگ مانند یک وظیفه اتوماتیک نمی باشد بلکه یک روند تکراری از کشف علم یا بهینه سازی تعاملی چند منظوره ای می باشد که شامل آزمایش و شکست است.

اغلب لازم است تا پردازش داده ها و پارامترهای مدل اصلاح شود تا به نتیجه مورد نظر برسد. علاوه بر اصطلاح کلاسترینگ، تعدادی اصطلاح با معنای مشابه وجود دارد شامل طبقه بندی خودکار، طبقه بندی عددی، botryology، تجزیه و تحلیل تایپولوژی و تشخیص جامعه. تفاوت های دقیقی اغلب در استفاده از نتایج حاصل می شود. در حالی که در داده کاوی، گروه های نتیجه گیری مورد توجه قرار می گیرند ولی در طبقه بندی خودکار، قدرت تبعیض آمیز نتایج مورد استفاده قرار می گیرد.

کلاسترینگ ، کلاسترینگ چیست؟ ، clustering ، تحلیل کلاسترینگ

کلاسترینگ

تجزیه و تحلیل کلاستر در سال 1932 میلادی توسط Driver و Kroeber در علم انسان شناسی شروع شد و توسط Joseph Zubin در سال 1938 میلادی و Robert Tryon در سال 1939 میلادی در روان شناسی معرفی شد و ابتدا به طور رسمی توسط Cattell برای طبقه بندی نظریه صفت در روان شناسی شخصیت مورد استفاده قرار گرفت.

کاربردهای کلاسترینگ چیست؟

کلاسترینگ دارای استفاده های بی شماری در صنایع مختلف می باشد. برخی از برنامه های رایج برای کلاسترینگ را می توان به موارد زیر اشاره کرد:

  • تقسیم بندی بازار
  • تجزیه و تحلیل کردن شبکه های اجتماعی
  • گروه بندی کردن نتیجه جستجو
  • تصویر برداری پزشکی
  • تقسیم بندی کردن تصویر
  • تشخیص ناهنجاری

پس از کلاسترینگ، به هر خوشه عددی به نام ID خوشه داده می شود. اکنون شما می توانید کل ویژگی مشخص شده برای نمونه را در ID خوشه آن در نظر بگیرید. ارائه یک مثال پیچیده توسط یک ID خوشه ای ساده، کلاسترینگ را قدرتمند می کند. با گسترش ایده، کلاسترینگ داده ها می توانند مجموعه داده های بزرگ را ساده کنند.

شما می توانید برخی از موارد را با ویژگی های مختلف گروه بندی کنید، به عنوان مثال:

  • گروه بندی ستارگان بر اساس روشنایی
  • ارگانیسم های گروهی که با اطلاعات ژنتیکی به طبقه بندی تبدیل می شوند.
  • اسناد گروهی براساس موضوع

کلاسترینگ ، کلاسترینگ چیست؟ ، clustering ، تحلیل کلاسترینگ

کلاسترینگ

سپس سیستم های یادگیری ماشینی می توانند از ID خوشه ای برای ساده سازی پردازش داده های بزرگ استفاده کنند. بنابراین خروجی کلاسترینگ به عنوان ویژگی داده برای سیستم های ML پایین دست استفاده می شود. در موتورهای جستجوگر گوگل، کلاسترینگ برای عمومی سازی، فشرده سازی داده ها و حفظ حریم خصوصی در محصولاتی مانند فیلم های YouTube، برنامه های Play و آهنگ موسیقی استفاده می شود.
در موتور جستجوگر Google ، از خوشه بندی برای عمومی سازی، فشرده سازی داده ها و حفظ حریم خصوصی در محصولاتی مانند فیلم های YouTube ، برنامه های Play و آهنگ موسیقی استفاده می شود.

انواع کلاسترینگ

انواع کلاسترینگ عبارتند از:

  • کلاسترینگ سخت یا Hard Clustering: در کلاسترینگ سخت ممکن است هر نقطه داده کاملا در یک خوشه قرار داشته باشد یا نداشته باشد.
  • کلاسترینگ نرم یا Soft Clustering: در کلاسترینگ نرم به جای قرار دادن هر نقطه داده ها در یک کلاستر جداگانه احتمال وجود نقطه داده در آن دسته از کلاسترها وجود دارد.

الگوریتم ها

مفهوم یک کلاستر را نمی توان به طور دقیق تعریف کرد که یکی از دلایل آن این است که الگوریتم های کلاسترینگ بسیاری وجود دارد. گروهی از اشیا داده، یکی از دلایل اصلی مشترک الگوریتم های کلاسترینگ می باشد. با این حال محققان از مدل های کلاسترینگ مختلف استفاده می نمایند و برای هر یک از این مدل های خوشه ای دوباره می توان الگوریتم های گوناگونی را ارائه کرد. مفهوم یک خوشه، همان طور که توسط الگوریتم های مختلف یافت می شود که در ویژگی های آن به میزان قابل توجهی متفاوت است. در این مدل های خوشه ای برای درک تفاوت بین الگوریتم های مختلف مهم است.

کلاسترینگ ، کلاسترینگ چیست؟ ، clustering ، تحلیل کلاسترینگ

کلاسترینگ

 مدل های خوشه ای معمولی عبارتند از:

  • مدل های اتصال یا Connectivity models: به عنوان مثال، کلاسترینگ سلسله مراتبی مدل ها را بر اساس اتصال از راه دور ایجاد می کند.
  • مدل های Centroid یا Centroid models: به عنوان مثال، الگوریتم k-means هر خوشه را با یک بردار میانگین متوسط نشان می دهد.
  • مدل های توزیع یا Distribution models: یکی از الگوریتم های کلاستریینگ می باشد که خوشه ها با استفاده از توزیع های آماری مانند توزیع عادی چند متغیره استفاده شده توسط الگوریتم انتظار – حداکثر یا expectation-maximization مدل سازی می شوند.
  • مدل های چگالی یا Density models: این مدل ها خوشه ها را به عنوان منطقه های متراکم متصل در فضای داده تعریف می کنند، به عنوان مثال DBSCAN و OPTICS
  • مدل های Subspace یا Subspace models: یکی از الگوریتم های کلاسترینگ می باشد که به عنوان خوشه بندی مشترک یا خوشه بندی دو حالت نیز شناخته می شود و خوشه ها با هر دو اعضای خوشه و خصوصیات مرتبط مدل سازی می شوند.
  • مدل های گروهی یا Group models: برخی از الگوریتم ها یک مدل را برای نتایج خود ارائه نمی دهد و فقط اطلاعات گروه بندی را ارائه می دهند.
  • مدل های مبتنی بر نمودار یا Graph-based models: یک گروه، یک زیر مجموعه از گره ها در یک نمودار می باشد به گونه ای که هر دو گره در زیر مجموعه متصل شوند و می تواند به عنوان یک نمونه اولیه از خوشه در نظر گرفته شود.
  • مدل های عصبی یا Neural models: شناخته شده ترین شبکه عصبی بدون نظارت، نقشه خود سازماندهی می باشد و معمولا این مدل ها می توانند شبیه به یک یا چند مدل فوق باشند.

کلاسترینگ ، کلاسترینگ چیست؟ ، clustering ، تحلیل کلاسترینگ

کلاسترینگ

الگوریتم K Means

K Means یک الگوریتم کلاسترینگ تکراری است که قصد دارد حداکثر محلی را در هر تکرار پیدا کند. این الگوریتم کلاسترینگ به صورت 5 مرحله ای کار می کند که به شرح زیر می باشد:

  1. تعداد خوشه ها با K نشان داده می شود و فرض کنید که برای 5 نقطه داده در فضای دو بعدی، k=2 می باشد.

کلاسترینگ ، کلاسترینگ چیست؟ ، clustering ، تحلیل کلاسترینگ

کلاسترینگ

  1. به طور تصادفی هر نقطه داده را به یک خوشه اختصاص دهید. 3 نقطه داده در یک خوشه که با رنگ قرمز نشان داده شده است و دو نقطه دیگر در خوشه دوم قرار می گیرند.
  2. Centroid های خوشه را محاسبه کنید. مرکز نقاط داده در خوشه قرمز با استفاده از یک علامت ضربدر قرمز و آنهایی که در خوشه خاکستری هستند با استفاده از ضربدر خاکستری نشان داده می شوند.

کلاسترینگ ، کلاسترینگ چیست؟ ، clustering ، تحلیل کلاسترینگ

کلاسترینگ

  1. مجدداً هر نقطه را به نزدیکترین مرکز سلولی خوشه ای اختصاص دهید.توجه داشته باشید که تنها نقطه داده در پایین به خوشه قرمز اختصاص داده شده است حتی اگر نزدیکتر به مرکز خوشه خاکستری باشد.بنابراین ما آن داده را به خوشه خاکستری اختصاص می دهیم.

کلاسترینگ ، کلاسترینگ چیست؟ ، clustering ، تحلیل کلاسترینگ

کلاسترینگ

  1. مجدد centroid های را برای هر دو خوشه محاسبه کنید.

کلاسترینگ ، کلاسترینگ چیست؟ ، clustering ، تحلیل کلاسترینگ

کلاسترینگ

  1. مراحل 4 و 5 را تکرار کنید تا زمانی که امکان پیشرفت نباشد. به طور مشابه، ما 4 و 5 مرحله را تکرار خواهیم کرد تا زمانی که امکان پیشرفت وجود نداشته باشد. در صورت عدم تغییر بیشتر نقاط داده بین دو خوشه برای دو تکرار پی در پی می باشد واگر صریحاً ذکر نشده باشد، خاتمه الگوریتم را علامت گذاری می کند.

امید است که این مقاله در خصوص توضیح کلاسترینگ مفید واقع شود.

سوالات متداول

  1. تفاوت بین کلاسترینگ سخت و کلاسترینگ نرم چیست؟

در clustering سخت هر نقطه داده یا به طور کامل به یک خوشه تعلق دارد یا نه ولی در clustering نرم به جای قرار دادن هر نقطه داده ها در یک کلاستر جداگانه احتمال وجود نقطه داده در آن دسته از کلاسترها وجود دارد.

  1. پارامترهای مناسب الگوریتم کلاسترینگ چیست؟

از جمله پارامترهای مناسب الگوریتم clustering می توان به عملکرد فاصله برای استفاده، یک آستانه تراکم یا تعداد خوشه های مورد انتظار، به مجموعه داده های فردی و نتایج مورد استفاده شده اشاره کرد.

  1. کاربرد کلاسترینگ در موتور جستجوگر گوگل چیست؟

کاربرد کلاسترینگ در موتور جستجوگر گوگل، عمومی سازی، فشرده سازی داده ها و حفظ حریم خصوصی در محصولاتی مانند فیلم های YouTube ، برنامه های بخش کردن آهنگ موسیقی می باشد.

No votes yet.
Please wait...

    دیدگاهتان را بنویسید

    نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

    منو اصلی