چکیده:
در دنیای امروز با پیشرفتهای تکنولوژی، حجم دادههای تولید شده در سالهای اخیر، بیشتر از حجم دادههای تولیده شده در دهه ماقبل است. این حجم دادهها که به عنوان دادههای حجیم شناخته شدهاند، توجه بسیار زیادی را به خود معطوف کرده است.
Data Big اصطلاحی است برای مجموعه داده¬های حجیم که بزرگ، متنوع، با ساختار پیچیده و با دشواری¬هایی برای ذخیرهسازی، تحلیل و تصویرسازی (نمایش)، پردازشهای بیشتر یا نتایج میباشد. روند تحقیق بر روی داده¬های حجیم جهت آشکارسازی الگوهای مخفی و راز همبستگیها، تجزیه و تحلیل Big Data نامیده می¬شود. این اطلاعات، مفید برای سازمانها وشرکتها در جهت کسب بینش غنیتر، عمیقتر و موفقیت در رقابت می¬باشد. به همین دلیل دادههای حجیم نیاز دارند تا در صورت امکان، تحلیل شوند و به طور دقیق اجرا شوند.
خوشهبندی دادههای حجیم این امکان را فراهم میکند تا بتوانیم حجم زیاده دادهها را تحلیل و از آنها حداکثر استفاده ممکن را داشته باشیم. یک الگوریتم خوشهبندی تصمیم میگیرد هر یک از دادههای ورودی متعلق به کدام خوشه میباشد، بنابراین خوشهبندی میتواند به عنوان یک ابزار قدرتمند جهت تجسم ساختار دادهها در نظر گرفته شود. روشن است که یک گروه با مجموعهای از مدلهای مشابه هیچ مزایایی ندارد. بنابراین هدف این است که تنوع و گوناگونی را در خوشهها در نظر بگیریم و به این وسیله بتوانیم خوشههایی با قابلیت و عملکرد بهتر بهدست بیاوریم.
در زمینه ماهیت دادههای حجیم، چالشهای پیش روی آن و راهحلهای ارائه شده، تحقیقات گستردهای انجام گرفته است. در این تحقیق سعی شده است با آشنایی با ماهیت مساله دادههای حجیم، خوشهبندی و گوناگونی ، تاثیر و کارایی گوناگونی بر خوشهبندی دادههای حجیم را مورد بررسی قرار داده و راهکارهای جدیدی در این زمینه ارائه دهیم.