متن کامل پایان نامه :خوشه بندی به عنوان یکی از فعالیتهای داده کاوی |
خوشه بندی
خوشهبندی به عنوان یکی از فعالیتهای داده کاوی میباشد و به گروهبندی کردن تراکنشها و مشاهدات یا حالتها درکلاسهای مشابه می پردازد. همچنین یک خوشه مجموعه ای از رکوردها است که به هم شبیه می باشند و از رکوردهای بیرون خوشه تفاوت دارند. در خوشهبندی متغیر هدف وجود ندارد و به طبقه بندی تخمین و پیشگوئی مقدار متغیر هدف نمی پردازد (لاروس، ۲۰۰۵).
خوشهبندی یکی از شاخههای یادگیری بدون نظارت می باشد و فرآیند خودکاری است که در طی آن، نمونهها به دسته هایی که اعضای آن مشابه یکدیگر می باشند تقسیم می شوند که به این دستهها خوشه گفته میشود. بنابراین خوشه مجموعه ای از اشیاء می باشد که در آن اشیاء با یکدیگر مشابه بوده و با اشیاء موجود در خوشههای دیگر غیر مشابه می باشند. برای مشابه بودن می توان معیارهای مختلفی را در نظر گرفت مثلا می توان معیار فاصله را برای خوشهبندی مورد استفاده قرار داد و اشیائی را که به یکدیگر نزدیکتر هستند را بعنوان یک خوشه در نظر گرفت که به این نوع خوشهبندی، خوشهبندی مبتنی بر فاصله نیز گفته می شود. بعنوان یک مثال شکل زیر را در نظر بگیرید در این شکل هر یک از دایرههای کوچک یک وسیله نقلیه (شیء) را نشان می دهد که با ویژگیهای وزن و حداکثر سرعت مشخص شده اند. هر یک از بیضیها یک خوشه می باشد و عبارت کنار هر بیضی برچسب آن خوشه را نشان می دهد. کل دستگاه مختصات که نمونهها در آن نشان داده شده اند را فضای ویژگی می گویند.
شکل (۲-۲) : خوشه بندی وسایل نقلیه
همانطور که در شکل می بینید وسایل نقلیه به سه خوشه تقسیم شده اند. برای هر یک از این خوشهها می توان یک نماینده در نظر گرفت مثلا می توان میانگین وسایل نقلیه باری را محاسبه کرد و به عنوان نماینده خوشه وسایل نقلیه باری معرفی نمود. در واقع الگوریتم های خوشه بندی اغلب بدین گونه اند که یک سری نماینده اولیه برای نمونه های ورودی در نظر گرفته می شود و سپس از روی میزان تشابه نمونه ها با این نمایندههای مشخص می شود که نمونه به کدام خوشه تعلق دارد و بعد از این مرحله نمایندههای جدید برای هر خوشه محاسبه می شود و دوباره نمونهها با این نمایندهها مقایسه می شوند تا مشخص شود که به کدام خوشه تعلق دارند و این کار آنقدر تکرار می شود تا زمانی که نمایندههای خوشهها تغییری نکنند.
۱٫۳٫۲ هدف از خوشهبندی
هدف خوشهبندی یافتن خوشههای مشابه از اشیاء در بین نمونههای ورودی می باشد اما چگونه می توان گفت که یک خوشهبندی مناسب است و دیگری مناسب نیست؟ می توان نشان داد که هیچ معیار مطلقی برای بهترین خوشه بندی وجود ندارد بلکه این بستگی به مساله و نظر کاربر دارد که باید تصمیم بگیرد که آیا نمونهها بدرستی خوشهبندی شده اند یا خیر. با این حال معیارهای مختلفی برای خوب بودن یک خوش بندی ارائه شده است که می تواند کاربر را برای رسیدن به یک خوشهبندی مناسب راهنمایی کند که در بخشهای بعدی چند نمونه از این معیارها آورده شده است. یکی از مسایل مهم در خوشه بندی انتخاب تعداد خوشهها می باشد. در بعضی از الگوریتمها تعداد خوشهها از قبل مشخص شده است و در بعضی دیگر خود الگوریتم تصمیم می گیرد که داده ها به چند خوشه تقسیم شوند (قاسمی و خانگلدی، ۱۳۸۸).
۲٫۳٫۲ انواع خوشهبندی
روشهای خوشهبندی بسیار متنوع بوده و تفکیک آنها از یکدیگر بسیار مهم است.انتخاب بهترین این روشها برای رسیدن به بهترین نتیجه از بحثهای مهم در این زمینه است. متاسفانه روش مناسبی که بتواند بهترین روش را از بین روشهای متنوع خوشهبندی انتخاب کند وجود ندارد. در اکثر موارد نیز تنها آشنایی محقق و قابل دسترس بودن نرم افزارهای مربوطه است که مبنای استفاده از روش می شود.
روشهای خوشهبندی متفاوتی وجود دارد که برای تمایز آنها از یکدیگر از پنج خصوصیت استفاده می شود. ابتدا به تعریف این خصوصیات پرداخته سپس روشهای خوشهبندی را بر اساس آنها معرفی میکنیم.
- روشهای انحصاری در مقابل روشهای غیر انحصاری: روشهای انحصاری روشهایی هستند که هر گونه تنها به یک گروه تعلق می گیرد در حالی که روشهای غیر انحصاری یک فرد به یک یا چند گروه تعلق می گیرد. روشهای کلاسیک خوشه بندی از جمله روشهای انحصاری و روشهای خوشهبندی فازی از جمله روشهای غیر انحصاری هستند.
- روشهای تکرار توالی در مقابل روشهای همزمان : در روشهای تکرار توالی عمل خوشهبندی در دفعات متفاوت بر روی افراد انجام می گیرد در حالی که در روشهای همزمان این عمل به طور آنی بر روی همه افراد انجام می شود.
- روشهای سلسله مراتبی در مقابل روشهای غیر سلسله مراتبی : در روشهای سلسلهمراتبی خوشهها به شکل سلسلهمراتبی از خوشههای بزرگ تا کوچک و یا برعکس تعیین می شوند. به عبارت دیگر در این روشها افراد در یک خوشه قرار میگیرند که خود این خوشه نیز به خوشههای دیگری تقسیم می شود. در روشهای غیر سلسلهمراتبی افراد به طور مستقیم در خوشههای متفاوتی قرار می گیرند.
- روشهای تجمعی در مقابل روشهای مقسمی: در روشهای تجمعی شبیهترین گونهها در یک خوشه قرار گرفته و این خوشهها با خوشههای دیگر تلفیق شده تا خوشه بزرگتری را بوجود آورند و این عمل تا رسیدن به بزرگترین خوشه که همه گونهها در آن قرار دارند ادامه می یابد. در روشهای مقسمی ابتدا گونهها به دو خوشه تقسیم شده و سپس این خوشهها به خوشههای ریزتری تقسیم می شوند.
[۱] . Larose
[۲] . Exclusive versus Non-exclusive
[۳] . Recrusive sequence versus Simultaneous
[۴] . Heirachal versus Non-heirachical
[۵] . Agglomerative versus divisive
فرم در حال بارگذاری ...
[جمعه 1400-02-31] [ 08:43:00 ب.ظ ]
|