انتخاب ویژگی در طبقهبندی دادههای چند برچسبی در حوزه سیستمهای توصیهگر
تکرار نام مولف :
محمد انصاریمهر
سال نشر :
1398
صفحه شمار:
34ص
یادداشت
چکیده
دادههای چند برچسبی به دادههایی گفته میشود که در آن بر خلاف دادههای تک برچسبی، هر نمونه در یک لحظه ممکن است متعلق به چندین کلاس باشد. در سالهای پیشین، به دلیل رشد روز افزون کاربردهای این گونه از دادهها در دنیای واقعی، طبقهبندی دادههای چند برچسبی توجه بسیاری از پژوهشگران را به خود جلب کرده است. همانند طبقهبندی دادههای تک برچسبی، در دادههای چند برچسبی نیز حذف ویژگیهای زاید، تکراری و نا کارآمد قطعاً تا حد زیادی تاثیر در بهبود صحت عملکرد طبقهبند خواهد داشت.
در این پژوهش یک روش ترکیبی برای انتخاب ویژگی در دادههای چند برچسبی پیشنهاد شده است. روش پیشنهادی بر پایه الگوریتم بهینهسازی ازدحام ذرات معرفی شده است. از آنجایی که معمولاً تعداد ویژگیهای دادههای چند برچسبی زیاد است و علاوه بر این تعداد کلاسهایی که هر نمونه با آن در ارتباط است بسیار بیشتر از دادههای تک برچسبی است استفاده مستقیم و بر خط از نتیجه روشهای جستجو برای کشف زیرمجموعه ویژگی بهینه، هزینه محاسباتی بسیار بالایی را در پی خواهد داشت و حتی ممکن است با شکست روبه رو شود. از این رو روش پیشنهادی، نتیجه مجموعه انتخاب برجستهترین ویژگیها را به صورت برونخط ارایه مینماید.
از سویی دیگر به دلیل اینکه طبقهبندی چند برچسبی و طبقهبندی تک بر چسبی به لحاظ کشف ارتباط میان ویژگیهای توصیفی هر نمونه با برچسبهای مرتبط آن، از نظر تئوری قدری با هم تفاوت دارند از این رو الگوریتم ازدحام ذرات برای طبقهبندی تک بر چسبی باید از لحاظ معیار ارزیابی صحت، نحوه محاسبه مکان و سرعت هر ذره سازگار گردند که در این پژوهش برای هر بخش روشی مناسب ارایه گردیده است تا با کمترین تغییر در تئوری طبقهبندی تک بر چسبی، بتوان طبقهبندی چند برچسبی را نیز پشتیبانی نمود.
واژههای کلیدی: طبقهبندی، دادههای چند برچسبی، انتخاب ویژگی، الگوریتمهای تکاملی، بهینهسازی ازدحام ذرات، روشهای ترکیبی، یادگیری ماشین،