بهبود دقت طبقه بندی داده های نامتعادل با ابعاد بالا
تکرار نام مولف :
ریحانه امین
سال نشر :
1396
صفحه شمار:
62ص
یادداشت
چکیده
امروزه حل مسائل طبقه بندی مجموعه دادههای نامتعادل، یکی از موضوعات مهم در حوزه دادهکاوی و یادگیری ماشین است که به علت توزیع نامتعادل دادهها، با مشکلات زیادی روبرو شدهاست. این مسئله زمانی که با ابعاد بالا برای ویژگیهای نمونهها روبرو هستیم، باعث میشود که طبقهبندهای استاندارد نتیجه مطلوبی نداشته باشند. محققان برای حل مسائل مجموعههای نامتعادل، روشهایی را با هدف افزایش دقت طبقهبندی پیشنهاد دادهاند. تحقیقات انجام شده برای حل این مشکلات به پنج دستهی کلی: 1- سطح داده 2- سطح الگوریتم 3- یادگیری حساس بههزینه 4- یادگیری گروهی 5- روش انتخاب ویژگی تقسیم میشوند. در این پایاننامه، ما از دو روش حساس به هزینه و انتخاب ویژگی استفاده کردهایم. روش پیشنهادی، ابتدا با استفاده از خوشهبندی فازی (FCM)، درجه عضویت برای هر نمونه از کلاس اقلیت را محاسبه کرده و با پیدا کردن نمونههای اقلیت دشوار و مشخص شدن درجه عضویت آنها، توسط روش پیشنهادی هزینهای به این نمونهها اعمال میکند و سپس برای حل مشکل ابعاد بالا، با استفاده از یک روش انتخاب ویژگی پوشه توسط الگوریتم ازدحام ذرات آشوبی به وسیله پرواز لوی، به جستجوی بهترین مجموعه ویژگی میپردازیم و با استفاده از طبقهبند ماشین بردار پشتیبان، دقت طبقهبندی نادرست نمونههای اقلیت را کاهش میدهیم. روش پیشنهادی با چند روش دیگر طبقهبندی که اخیرا ارائه شدهاست، مقایسه شده و توسط معیار G-Mean ارزیابی شدهاست. در روش پیشنهادی از روش ارزیابی اعتبارسنجی ضربدری دهتایی، برای طبقهبندی استفاده شدهاست. نتایج آزمایشات، نشاندهندهی برتری روش پیشنهادی نسبت به روشهای مرز دانش و مطرح، بر اساس معیار G_Mean است.
واژههای کلیدی: طبقهبندی دادهها، مجموعه دادههای نامتعادل، ابعاد بالا، یادگیری حساس به هزینه، انتخاب ویژگی، بهینهسازی ازدحام ذرات آشوبی، پرواز لوی