چکیده
امروزه داده های زیادی توسط برنامه های کاربردی تولید می شوند و به نوعی حجم و ابعاد داده ها در حال افزایش است. پردازش این حجم داده نیاز به ابزارهای مانند پردازش ابری دارد اما منابع موجود در فضای محاسبات ابری نامحدود نبوده و نیاز است که تعداد نمونه های ارسال شده به فضای ابری کاهش داده شود و از طرفی ابعاد داده ها نیز برای پردازش سریع تر کاهش داده شود. در روش پیشنهادی برای کاهش تعداد ابعاد داده ها از روش انتخاب ویژگی استفاده شده است و برای این منظور الگوریتم بهینه سازی کفتار برای انتخاب ویژگی های داده ها جهت کاهش ابعاد داده ها استفاده شده است و نیز برای کاهش دادن تعداد نمونه از روش خوشه بندی Kmeans استفاده شده است به نحوی که در این الگوریتم داده های که پرت تشخیص داده می شوند دارای فاصله بیشتری از مراکز خوشه¬ای بوده و از نمونه ها حذف می شوند. در واقع برای کاهش دادن تعداد نمونه ها می توان از خوشه بندی نمونه ها در هر بار اجراء استفاده نمود و نمونه های که فاصله بیشتری از مراکز خوشه ای دارند را به عنوان نمونه های که باید حذف شوند در نظر گرفت. آزمایشات و پیاده سازی بر روی چندین مجموعه داده مانند هرزنامه، بیماری قلبی و سرطان سینه نشان می دهد روش پیشنهادی نسبت به الگوریتم بهینه سازی وال و الگوریتم بهینه سازی پروانه بیشتر توانسته است تابع هدف انتخاب ویژگی را کاهش دهد. از طرفی خطای روش پیشنهادی برای طبقه بندی نسبت به الگوریتم بهینه سازی وال و الگوریتم بهینه سازی پروانه کمتر است. آزمایشات نشان می دهد تعداد ویژگی انتخاب شده برای انواع مجموعه داده ها در روش پیشنهادی از الگوریتم بهینه سازی وال و الگوریتم بهینه سازی پروانه کمتر بوده و این موضوع نشان می دهد روش پیشنهادی بیشترین کاهش ابعاد را بر روی مجموعه داده ها اعمال نموده است. همچنین نشان می دهد که استفاده از الگوریتم خوشه بندی Kmeans باعث شده که نمونه های زائد از مجموعه داده ها حذف شود.
کلمات کلیدی:
کاهش ابعاد،کاهش نمونه، انتخاب ویژگی، الگوریتم فراابتکاری، داده کاوی