جناب آقای آرین شکرلبان از اعضای آزمایشگاه در تاریخ ۲۷ مهر ۱۴۰۴ به دفاع از پایان نامه کارشناسی ارشد خود با عنوان «آموزش مدل زبانی بزرگ فارسی با رویکرد کاهش منابع موردنیاز» پرداختند. چکیده پایان نامه ایشان به شرح زیر است:

در سال‌های اخیر، مدل‌های زبانی بزرگ به‌عنوان یکی از دستاوردهای کلیدی یادگیری عمیق، پیشرفت‌های چشمگیری در پردازش زبان طبیعی داشته‌اند. با این حال، توسعه این مدل‌ها عمدتاً بر زبان‌های دارای منابع گسترده متمرکز بوده و زبان فارسی به دلیل کمبود داده و محدودیت منابع محاسباتی، کمتر مورد توجه قرار گرفته است. از این رو، پژوهش حاضر با هدف طراحی و پیاده‌سازی مدلی زبانی کارآمد برای فارسی در شرایط منابع محدود انجام شد. مسئله اصلی این پژوهش، نیاز به مدلی با ابعاد کوچک‌تر و هزینه آموزش پایین‌تر، در عین حفظ کیفیت رقابتی با مدل‌های بسیار بزرگ‌تر است. مرور مطالعات پیشین نشان داد که رویکردهای موجود در کوچک‌سازی مدل‌ها و بهینه‌سازی آن‌ها، گرچه برای زبان‌های پرمنبع کارآمد بوده‌اند، اما پاسخگوی نیازهای زبان فارسی نیستند و دچار چالش‌هایی همچون افت شدید دقت یا فراموشی دانش اولیه می‌شوند. برای رفع این نواقص، راهکاری نوآورانه ارائه گردید. در این روش، ابتدا از مدل‌های از پیش آموزش‌دیده چندزبانه استفاده شد و با اجرای پیش‌آموزش ممتد بر روی کمتر از ده میلیارد توکن فارسی و بر روی کمترین سخت‌افزار ممکن، مدلی کوچک‌تر ولی بهینه برای فارسی ساخته شد. سپس نوآوری اصلی این پژوهش یعنی «خودادغام» معرفی شد که طی آن، مدل آموزش‌دیده فارسی با نسخه اصلی پیش‌آموزش‌دیده طی یک فرایند بدون نیاز به آموزش اضافه، ادغام می‌شود. این رویکرد توانست مشکل فراموشی فجیع و سوگیری زبانی را کاهش داده و همزمان عملکرد مدل در درک عمومی و تحلیل متون فارسی را بهبود بخشد. برای ارزیابی، مدل پیشنهادی بر روی مجموعه‌ای از وظایف پردازش زبان طبیعی فارسی آزمایش شد. نتایج نشان داد که این مدل ضمن برخورداری از اندازه و هزینه آموزش کمتر، در بسیاری از وظایف، دقتی رقابتی با مدل‌های چند برابر بزرگ‌تر دارد. در مجموع، این پژوهش نشان می‌دهد که توسعه مدل‌های زبانی بزرگ بومی برای فارسی، حتی با منابع محدود، امکان‌پذیر است و می‌تواند به پیشبرد کاربردهای هوش مصنوعی در این زبان یاری رساند.