لسو
لَسو[الف] یکی از روشهای تنظیم مدل برای انتخاب ویژگی[ب] و جلوگیری از بیشبرازش در رگرسیون است که انتخاب متغیر و نرمال سازی را به منظور افزایش دقت پیشبینی و تفسیرپذیری مدل آماری حاصل انجام میدهد. این روش باعث میشود بسیاری از پارامترهای مدل نهائی صفر شده و مدل به اصطلاح خلوت[پ] شود.[۱] در روش لَسو نُرمِ به تابع هزینه اضافه میشود.[۱]
با این وجود که لسو در ابتدا برای مدل های رگرسیون خطی تعریف شده بود، اما به سادگی به سایر مدلهای آماری از جمله مدلهای خطی تعمیمیافته، معادله برآورد تعمیم یافته، مدلهای مخاطرات متناسب، و برآوردگرهای M قابل تعمیم است.[۲][۳]
تاریخچه
[ویرایش]لسو به منظور بهبود دقت پیشبینی و تفسیرپذیری مدلهای رگرسیون معرفی شد. در این روش، مجموعه کاهش یافته ای از متغیرها برای استفاده در یک مدل انتخاب می شوند.[۴][۵]
لسو به طور مستقل در سال 1986 در زمینه ژئوفیزیک توسعه یافت و در سال 1996 توسط آماردان رابرت تیبشیرانی ترویج شد. این روش، دقت پیشبینی را بهبود بخشیده و با کاهش ضرایب خاصی از مدل به صفر، تأثیر آنها در پیشبینی نهایی را از میان می برد. با وجود شباهت میان این روش و رگرسیون خط الراس، عملکرد آنها متفاوت است. در رگرسیون خط الراس، اندازه مجموع توان های دوم ضرایب از مقدار ثابتی کوچک تر شده، اما خود ضرایب صفر نمی شوند (انتخاب متغیر انجام نمی پذیرد).
تعریف ریاضی
[ویرایش]اگر در مسئله رگرسیون، دادهها را به صورت نمایش دهیم، هدف بدست آوردن به عنوان ترکیبی خطی از است یعنی . رگرسیون خطی معمولی به شکل پایین در پی یافتن و بهینه است به طوری که خطای میانگین مربعات را کمینه کند:
حال اگر دادهها را در ماتریس و بردار بگنجانیم، مسئله به عبارت پایین تغییر شکل میدهد:
دو دلیل کلی برای تغییر و بهبود روش خطای میانگین مربعات وجود دارد. مورد اول اینکه پیچیدگی مدلهای پارامتری با تعداد پارامترهای مدل و مقادیر آنها سنجیده میشود. هرچه این پیچیدگی بیشتر باشد خطر بیشبرازش[ت] برای مدل بیشتر است.[۶] پدیدهٔ بیشبرازش زمانی رخ میدهد که مدل بهجای یادگیری الگوهای موجود در داده، خود داده را به خاطر میسپارد. در این حالت، مدل برای آن مجموعه دادهٔ بهخصوص خوب عمل میکند اما برای دادههای مشابه دیگر عملکرد خوبی ندارد، که یعنی عمل یادگیری به خوبی انجام نشدهاست. در این حالت مدل، بایاس کم و واریانس زیادی دارد و در واقع بیشبرازش اتفاق افتاده است. برای جلوگیری از بیشبرازش در مدلهای خطی مانند رگرسیون خطی یا رگرسیون لجستیک، یک «جریمه»[ث] به تابع هزینه اضافه میشود تا از افزایش پارامترها جلوگیری شود. به این کار تنظیم مدل گفته میشود.[۷]
در روش لَسو ضریبی از نُرمِ به تابع هزینه اضافه میشود:
اضافه کردن ضریبی از نُرمِ به تابع هزینه معادلِ ایجاد محدودیتی بر روی نُرمِ است:
که منظور از در واقع، نُرمِ است که به صورت زیر محاسبه میشود:
استفاده از این باعث میشود بسیاری از پارامترهای مدل نهائی که دارای کمترین میزان اهمیت هستند، صفر شده و مدل به اصلاح خلوت شود.[۸] بدین ترتیب بایاس مقداری افزایش یافته اما واریانس کاهش مییابد. بنابراین لَسو به طور کلی میتواند منجر به افزایش دقت مدل شود.
هدف دیگری که استفاده از این روش دنبال میکند، افزایش قابلیت تبیین مدل است که با کاهش تعداد پارامترهای تخمینگر انجام میشود.
در نرمال سازی لسو، اگر بردار ، بردار ، بردار مقادیر پارامتر واقعی و جواب باشد،[۹] آنگاه
اثبات:
سرعت بخشیدن به لسو
[ویرایش]برای تسریع لسو، باید مفروضات دیگری در مورد وجود داشته باشد. این مفروضات همچنین سازگاری تخمین را نیز تضمین می کنند. یک شرط بسیار مفید، شرط مقدار ویژه محدود شده است. برای تعریف شرط، باید چندین نماد را معرفی کنیم. برای و ، داریم
متغیر شرط محدودیت مقدار ویژه روی را برآورده می کند اگر
برای فهم بهتر، تصور کنید دلتا همان هت-ستار است. مطلوب این است که ۲ کوچک باشد. دقت کنید که در این صورت ۲ کوچک است، خصوصاً اگر
در نزدیکی صاف باشد. برای پیشگیری از این امر، لازم است تابع فوق خمیده باشد. این شرط در صورتی محقق خواهد شد که
که نتیجه خواهد داد اگر که امکانپذیر نیست. به جای آن، حالتی را در نظر میگیریم که تابع تنها در جهات خاصی خمیده باشد. این جهات همان هستند که توسط پشتیبان یا تعریف میشود.
کوواریانس ارتونرمال
[ویرایش]اکنون می توان برخی از ویژگی های اساسی برآوردگر لسو را شرح داد.
ابتدا فرض کنید که متغیرهای کمکی متعامد هستند به طوری که ، که دلتای کرونکر است، یا به طور معادل،، سپس با استفاده از روش های زیرگرادیان می توان نشان داد که
از به عنوان عملگر آستانه نُرم یاد می شود، زیرا به جای اینکه مقادیر کوچکتر را به صفر سوق داده و مقادیر بزرگتر را دست نخورده باقی بگذارد، همه مقادیر را به سمت صفر میل می دهد (اگر به اندازه کافی کوچک باشند آنها را دقیقاً صفر می کند)[۱۰]
بنابراین، تخمین لسو، ویژگیهای هر دو رگرسیون خط الراس و بهترین زیرمجموعه را دارا می باشد، زیرا مانند رگرسیون خط الراس، بزرگی همه ضرایب را کاهش میدهند و مانند بهترین زیر مجموعه، برخی از آنها را نیز صفر میکنند. علاوه بر این، در حالی که رگرسیون خط الراس همه ضرایب را با استفاده از یک ضریب ثابت مقیاس میکند، لسو ضرایب را با یک مقدار ثابت به سمت صفر می برد.
متغیرهای وابسته
در یک مورد خاص، دو متغیر کمکی، مثلاً j و k، برای هر مشاهده یکسان هستند، به طوری که، که. سپس مقادیر و که تابع هدف کمند را به حداقل می رساند به طور منحصر به فرد تعیین نمی شود. در واقع، اگر برخی از که در آن، سپس اگر جایگزین کردن توسط و توسط، در حالی که همه موارد دیگر را حفظ می کند ثابت است، راه حل جدیدی ارائه می دهد، بنابراین تابع هدف کمند دارای پیوستاری از حداقل سازهای معتبر است. انواع مختلفی از کمند، از جمله متعادلسازی کشسان، برای رفع این نقص طراحی شده است.
مصورسازی
[ویرایش]برای مصورسازی محدودیتهای اعمال شده در دو مدل رگرسیون خط الرأس و لَسو با پارامترهای و را توجه کنید که جمع خطای مربعات، به شکل خطوط تراز بیضوی نمایش داده میشود. به علاوه در مسألۀ رگرسیون ریج، ناحیهای که ضرایب مدل را مشخص میکند از رابطه زیر به دست میآید:
که دایرهای به شعاع را نمایش میدهد. تصویر برخورد خطوط تراز با محدوده ضرایب در رگرسیون خط الرأس در تصویر روبهرو نمایش داده شده است (شکل 1).
اما در لَسو، محدودیت اعمال شده روی ضرایب به صورت زیر است:
که در مختصات دوبعدی ناحیهای به شکل لوزی را تشکیل میدهد (شکل 2).
در هر دو روش اولین محل برخورد این نواحی با خطوط تراز بیضوی به عنوان جواب مسأله در نظر گرفته میشود.
از آنجایی که لوزی برخلاف دایره، دارای گوشههایی است، امکان برخورد خطوط تراز با محدودۀ ضرایب در گوشهها وجود دارد. اگر برخورد با خطوط تراز در یکی از این گوشهها اتفاق افتاده باشد، یکی از ضرایب در مدل برابر با صفر میشود. محدودۀ ضرایب لَسو در ابعاد بالاتر، دارای گوشهها و لبههای زیادی بوده و شانس برخورد خطوط تراز در این نقاط و درنتیجۀ آن، صفر شدن تعدادی از ضرایب بیشتر میشود. بدین ترتیب تعداد پارامترهای غیرصفر در مدل کاهش یافته و مدل به اصطلاح خلوتتر میشود.[۱۱]
پیادهسازی (پایتون)
[ویرایش]با استفاده از کتابخانۀ Sickit-Learn زبان برنامهنویسی پایتون میتوان مدل لَسو را به سادگی، به صورت زیر پیادهسازی کرد:
from sklearn.linear_model import Lasso
lasso = Lasso(alpha=0.1)
lasso.fit(X_train, y_train)
prediction= lasso.predict(X_test)
پارامتر تنظیم مدل در این مثال ساده برابر با در نظر گرفته شده و پس از آموزش، از مدل برای پیشبینی روی دادۀ جدید استفاده شده است.
یادداشتها
[ویرایش]منابع
[ویرایش]- ↑ ۱٫۰ ۱٫۱ Natarajan, B. K. (1995). "Sparse Approximate Solutions to Linear Systems". SIAM Journal on Computing (به انگلیسی). 24 (2): 227–234. doi:10.1137/s0097539792240406. ISSN 0097-5397. Archived from the original on 24 May 2019. Retrieved 17 December 2019.
- ↑ "JSTOR". Wikipedia (به انگلیسی). 2023-05-01.
- ↑ Tibshirani, Robert (1996). "Regression Shrinkage and Selection via the Lasso". Journal of the Royal Statistical Society. Series B (Methodological). 58 (1): 267–288. ISSN 0035-9246.
- ↑ "JSTOR". Wikipedia (به انگلیسی). 2023-05-01.
- ↑ "Digital object identifier". Wikipedia (به انگلیسی). 2023-06-19.
- ↑ Bühlmann, Peter; van de Geer, Sara (2011). "Statistics for High-Dimensional Data". Springer Series in Statistics (به انگلیسی). doi:10.1007/978-3-642-20192-9. ISSN 0172-7397. Archived from the original on 21 February 2019. Retrieved 5 October 2018.
- ↑ Bühlmann, Peter; van de Geer, Sara (2011). Theory for ℓ1/ℓ2-penalty procedures (به انگلیسی). Berlin, Heidelberg: Springer Berlin Heidelberg. pp. 249–291. doi:10.1007/978-3-642-20192-9_8. Archived from the original on 5 اكتبر 2018. Retrieved 17 December 2019.
{{cite book}}
: Check date values in:|تاریخ بایگانی=
(help) - ↑ Géron, A. (2022). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow (3rd ed.). O’Reilly Media. (به انگلیسی).
- ↑ Tibshirani, Ryan J. (2013-01-01). "The lasso problem and uniqueness". Electronic Journal of Statistics. 7 (none). doi:10.1214/13-ejs815. ISSN 1935-7524.
- ↑ Tibshirani, Robert (1996-01). "Regression Shrinkage and Selection Via the Lasso". Journal of the Royal Statistical Society: Series B (Methodological). 58 (1): 267–288. doi:10.1111/j.2517-6161.1996.tb02080.x. ISSN 0035-9246.
{{cite journal}}
: Check date values in:|date=
(help) - ↑ Hastie, T., Tibshirani, R., & Wainwright, M. (2020). Statistical Learning with Sparsity (Chapman & Hall/CRC Monographs on Statistics and Applied Probability) (1st ed.). Routledge. (به انگلیسی).