رگرسیون مربعات جزئی در مجموعه داده های ناقص، انجام شده توسط معصومه اکبری لاکه

مشخصات پژوهش

عنوان	رگرسیون مربعات جزئی در مجموعه داده های ناقص
نوع پژوهش	پایان نامه
کلیدواژه‌ها	رگرسیون حداقل مربعات جزئی، تحلیل مولفه های اصلی، داده های ناقص، پیش بینی
سال	1401
پژوهشگران	بنین نظری(دانشجو)، معصومه اکبری لاکه(استاد مشاور)، افشین فیاض موقر(استاد راهنما)

چکیده

رگرسیون حداقل مربعات جزئی 1 (PLS) در دهه 1970 توسط ولد معرفی شد. از آنجائیکه رگرسیون PLS به توزیع بستگی ندارد انگیزه ای برای معرفی آن توسط ولد گردید. کاربرد این رگرسیون در بیوانفورماتیک، پزشکی، علوم اجتماعی و طیف سنجی می باشد. در رگرسیون هدف آن است که با استفاده از یک یا چند متغیر مستقل، متغیرهای وابسته را پیش بینی کنیم. ساده ترین نوع آن رگرسیون خطی ساده است. در رگرسیون خطی ساده اگر Y متغیر وابسته و X متغیر مستقل باشد، همچنین با استفاده از ضرایبی که برای متغیر مستقل پیش بینی می کنیم می توانیم متغیر وابسته را پیش بینی کنیم. در این صورت معادله خط رگرسیون را می توان به صورت Y = aX + b+ 𝜖 نوشت. در واقع بین متغیر وابسته و متغیر مستقل رابطه خطی وجود دارد و پارامترهایa وb را که پارامترهای خط نیز گویند به راحتی قابل پیش بینی می باشند. زمانی که تعداد متغیرهای مستقل زیاد باشد و نیز زمانی که بین متغیرهای مستقل وابستگی زیادی وجود داشته باشد از رگرسیون PLS استفاده می شود. در روش PLS به دنبال یافتن توابع خطی از متغیرها هستیم که دارای بیشترین کوواریانس با متغیر وابسته باشند و نیز بین هر تابع خطی بدست آمده و تابع خطی که از قبل بدست می آوریم همبستگی وجود نداشته باشد. در واقع ما به دنبال یافتن متغیرهای جدیدی هستیم که نقش متغیرهای مستقل را بازی کند. این متغیرهای جدید متغیر پنهان نامیده می شود. باید توجه شود که این متغیرهای پنهان نیز ترکیب خطی از متغیرهای مستقل می باشند. یکی از ملزومات استفاده از رگرسیون PLS این است که توزیع ها چولگی زیادی داشته باشند. همانطور که قبلا ذکر گردید با توجه به خاصیت آزاد توزیع بودن PLS شرط نرمال بودن توزیع تاثیری در ادامه روند نخواهد داشت. همانطور که میدانیم تحلیل مؤلفه‌های اصلی1(PCA) غالبا برای کاهش ابعاد مجموعه داده ها استفاده می شود. خصوصیت مشترک دو روشPLS و PCA این است که در هر دو روش سعی شده است متغیرهایی یافت شوند که با متغیر وابسته رگرسیون شوند. وجه تمایز این دو روش نیز عبارت است از اینکه در روش PCA فقط از متغیر مستقل برای ساخت عوامل (متغیرها) جدید استفاده میشود در حالی که در روش PLS از هر دو متغیر مستقل و وابسته استفاده می شود. برخی از مزایای روش PLS عبارتند از: - به حجم نمونه بستگی ندارد و برای نمونه های کم نیز قابل استفاده است. - وابسته به توزیع نیست. - چندین متغیر مستقل و وابسته بطور همزمان تبیین می شوند. رگرسیون PLS یک روش چند متغیره است که پارامترهای آن توسط دو الگوریتم SIMPLS یا NIPALS برآورد می شوند. برای استفاده از الگوریتم NIPALS ابتدا مدل های رگرسیون PLS نسبت های مختلف داده های گمشده را بدست آورده و سپس رفتار الگوریتم NIPALS را برای متناسب کردن این مدل ها مورد مطالعه قرار میدهیم. برای بدست آوردن رگرسیون PLS در مجموعه داده های ناقص از معادلات زنجیره ای، کسر نزدیکترین همسایه و محاسبه تجزیه ارزش واحد استفاده می شود. در انتها مدل PLS و طریقه بدست آوردن اولین مؤلفه را بیان میکنیم. مدل رگرسیون PLS1 به صورت زیر می باشد: y=Tq+𝜖 در رابطه فوق y متغیر پاسخ،T یک ماتریس n×H، q برداری به طول n و 𝜖 بردار خطا است. اولین مؤلفه نیز به صورت زیر بدست می آید: همان طور که اشاره کردیم در رگرسیون PLS به دنبال توابع خطی از متغیرهای مستقلی هستیم که بیشترین کوواریانس را با متغیر وابسته داشته باشد و این موضوع کاملا در فرمول فوق صادق است. بنابراین با ماکسیمم گرفتن روی w1 بزرگترین بردار ویژه بدست می آید.