تحقیقات یادگیری ماشین و باید‌ها و نبایدهای آن ؛ از کجا شروع کنیم؟

جمعی از برترین متخصصان هوش مصنوعی جهان در رویداد بین‌المللی TNW حضور به عمل خواهند آورد تا درباره آینده این حوزه و همچنین تحقیقات یادگیری ماشین به بحث و تبادل نظر بپردازند.

یادگیری ماشین در بسیاری از صنایع و حوزه‌های علمی، ‌ابزاری مهم به شمار می‌آید. با این حال، تحقیقات یادگیری ماشین و توسعه محصول چالش‌هایی را پیش‌روی افراد [فعال در این حوزه] قرار داده‌ است که اگر به آن‌ها پرداخته نشود، ممکن است پروژه در مسیر نادرستی قرار گیرد.

مایکل لونز، دانشیار مدرسه ریاضی و علوم محاسباتی از دانشگاه هریوت وات، ادینبورگ، در نسخه پیش‌چاپ مقاله‌‌ خود که اخیراً در سایت arXiv منتشر شده است، فهرستی از بایدها و نبایدهای تحقیقات یادگیری ماشین را ارائه کرده است.

این مقاله چالش‌های مراحل مختلف تحقیقات یادگیری ماشین را دربر می‌گیرد. لونز در مورد مقاله خود می‌گوید: «این مقاله شامل درس‌ها و نکته‌هایی است که هنگام انجام تحقیقات یادگیری ماشین در محیط دانشگاهی و هنگام راهنمایی دانشجویان برای انجام تحقیقات، آموخته‌ام». اگرچه این مقاله برای پژوهشگران دانشگاهی نوشته شده است، اما برنامه‌نویسانی که در حال ساخت مدل‌های یادگیری ماشین برای استفاده در دنیای واقعی هستند، نیز می‌توانند از دستورالعمل‌های آن استفاده کنند.

در ادامه نکات مفیدی از این مقاله را ارائه می‌کنیم.

لزوم توجه بیشتر به داده‌ها

رشد و توسعه مدل‌های یادگیری ماشین منوط به داده ها است. در همین راستا، لونز در سرتاسر مقاله به اهمیت توجه بیشتر به داده‌ها در تمام مراحل یادگیری ماشین اشاره می‌کند. به عبارتی، باید مراقب نحوه جمع‌آوری و آماده‌سازی داده‌ها و استفاده از آن‌ها برای آموزش و ارزیابی مدل‌های یادگیری ماشین باشید.

اگر داده‌ها از منبع معتبری تهیه نشده و به شیوه‌ای قابل اعتماد جمع‌آوری نشده‌ باشند، هیچ توان محاسباتی و هیچ فناوری پیشرفته‌ای نمی‌تواند کارساز باشد. همچنین، لازم است تمام تلاش خود را به بررسی منشاء و کیفیت داده‌ها معطوف کنید. لونز می‌نویسد: «تصور نکنید به دلیل اینکه در چندین مقاله از یک دیتاست‌ استفاده شده است، آن دیتاست از کیفیت خوبی برخوردار است».

دیتاست‌ها ممکن ایرادهای مختلفی داشته باشند، ایرادهایی که در نهایت به یادگیری اشتباه مدل منجر می‌شوند. برای مثال، اگر بر روی مسئله طبقه بندی کار می‌کنید و در دیتاست مورد استفاده، تعداد نمونه‌های یک کلاس بسیار زیاد و تعداد نمونه‌های کلاس دیگر بسیار اندک است، مدل یادگیری ماشین آموزش‌دیده ممکن است همه ورودی‌ها را در طبقه بزرگ‌تر پیش‌بینی کند. در این صورت با مشکل «کلاس نامتوازن» (class imbalance) روبه‌رو هستید.

اگرچه، مسئله کلاس نامتوازن به سرعت با شیوه‌های مختلف داده‌کاوی برطرف می‌شود، اما برطرف کردن مشکلات دیگر نیاز به دقت و تجربه بیشتری دارد. مثلاً، اگر تمام تصاویر موجود در دیتاست در روز روشن گرفته شده باشند، مدل یادگیری ماشین در پیش‌بینی عکس‌های تیره عملکرد ضعیفی خواهد داشت. نمونه بارزتر این مشکل در تجهیزات مورد استفاده برای جمع‌آوری داده‌ها به چشم می‌خورد. برای مثال، اگر تمام عکس‌های دیتای آموزشی با یک دوربین عکاسی گرفته‌ شده باشند، مدل احتمالاً ردپای بصری منحصر به فرد دوربین را تشخیص داده و در پیش‌بینی تصاویر گرفته شده با سایر دوربین‌ها عملکرد ضعیفی خواهد داشت. در مجموع، دیتاست‌های یادگیری ماشین ممکن است سوگیری‌های مختلفی داشته باشند.

کمیت داده‌ها نیز بسیار حائز اهمیت است و باید داده‌ی کافی در اختیار داشته باشید. طبق توضیحات لونز، «اگر سیگنال قوی باشد، می‌توانید با داده‌ی کمتر نیز کار خود را انجام دهید، اما اگر سیگنال ضعیف باشد، به داده‌های بیشتری نیاز دارید».

در برخی از حوزه‌ها، می‌توان کمبود داده را با تکنیک‌هایی مانند اعتبارسنجی متقابل و داده‌افزایی جبران کرد. با این حال، به طور کلی باید بدانید که هرچه مدل یادگیری ماشین پیچیده‌تر باشد، به داده‌های آموزشی بیشتری نیاز خواهید داشت. برای مثال، چند صد نمونه آموزشی ممکن است برای آموزش یک مدل رگرسیون ساده با چند پارامتر کافی باشد. اما اگر قصد دارید یک شبکه عصبی عمیق با میلیون‌ها پارامتر ایجاد کنید، به داده‌های آموزشی بسیار بیشتری نیاز خواهید داشت.

نکته مهم دیگری که لونز در مقاله خود به آن اشاره می‌کند، لزوم تفکیک دقیق دیتای آموزش و دیتای آزمایشی است. مهندسان یادگیری ماشین معمولاً بخشی از داده‌های خود را برای آزمایش مدل آموزش دیده کنار می‌گذارند. اما گاهی اوقات، داده‌های آزمایشی به فرایند آموزش رخنه می‌کند. این امر ممکن است به ایجاد مدل‌هایی ختم شود که نمی‌توان آن‌ها را به داده‌های جمع‌آوری شده از دنیای واقعی تعمیم داد.

لونز یادآوری می‌کند که: «اجازه ندهید داده‌های آزمایشی به فرایند آموزش راه پیدا کنند. بهترین روش مقابله با آن، این است که در همان ابتدای امر، یک زیرمجموعه ازدیتاست را جدا کرده و در پایان تنها یک مرتبه از این زیرمجموعه مستقل برای اندازه‌گیری تعمیم‌پذیری مدل استفاده کنید».

در سناریوهای پیچیده‌تر، بهتر است یک «دیتاست اعتبارسنجی» نیز داشته باشید. منظور از دیتاست اعتبارسنجی، دیتاست آزمایشی دیگری است که مدل یادگیری ماشین را در فرایند نهایی مورد ارزیابی قرار می‌دهد. برای مثال، اگر از اعتبارسنجی متقابل (cross-validation) یا یادگیری جمعی (ensemble learning) استفاده می‌کنید، ممکن است آزمون اصلی، ارزیابی دقیقی از مدل‌ شما ارائه ندهد. در این شرایط استفاده از دیتاست اعتبارسنجی می‌تواند کارساز باشد.

به گفته لونز: «اگر داده‌ کافی دراختیار دارید، بهتر است بخشی از را کنار بگذارید و تنها یک مرتبه برای ارائه برآوردی بی‌طرفانه از نمونه‌های نهایی استفاده کنید».

لزوم شناخت مدل مورد نظر و مدل‌های دیگر

امروزه، یادگیری عمیق مورد توجه همگان قرار گرفته‌ است. اما لزوماً یادگیری عمیق کلید رفع هر مشکلی نیست. در واقع، حتی یادگیری ماشین لزوماً حلال تمام مشکلات نیست. گاهی اوقات، عملکرد تطبیق الگوها و قوانین ساده با کسری از داده‌ها و توان محاسباتی اندک با عملکرد پیچیده‌ترین مدل‌های یادگیری ماشین برابری می‌کند.

اما وقتی صحبت از مشکلاتی به میان می‌آید که مخصوص مدل‌های یادگیری ماشین هستند، همیشه باید فهرستی از الگوریتم‌های منتخب داشته باشید و آن‌ها را ارزیابی کنید. لونز معتقد است: «به طور کلی، چیزی به نام بهترین مدل یادگیری ماشین وجود ندارد. در واقع، در نظریه‌ای به نام ’ناهار مجانی‘ شواهدی دالِ بر این وجود دارد که در یادگیری ماشین هیچ رویکرد خاصی برای حل یک مشکل احتمالی بهتر از رویکردهای دیگر نخواهد بود».

در گام نخست، باید به تطبیق مدل با مشکل بپردازید. برای مثال، بسته نوع خروجی مورد نظر (گسسته یا پیوسته)، باید الگوریتم یادگیری ماشین مناسب و ساختار مناسب را انتخاب کنید. علاوه بر این، نوع داده‌ها (مثلاً، جداول، تصاویر، متنِ ساختاریافته و بدون ساختار و غیره) می‌تواند عامل تعیین‌کننده‌ی کلاسِ مدلِ مورد استفاده باشد.

یکی از نکته‌های مهمی‌که لونز در مقاله خود مطرح می‌کند، لزوم اجتناب از پیچیدگی بیش‌ از حد است. برای مثال، اگر مشکل شما با یک درخت تصمیم ساده یا مدل رگرسیون حل شود، استفاده از یادگیری عمیق بی‌فایده خواهد بود.

لونز در مورد دوباره‌کاری نیز هشدار می‌‌دهد. با توجه به اینکه یادگیری ماشین یکی از داغ‌ترین موضوعات پژوهش است، همیشه این احتمال وجود دارد که شخص دیگری مشکلی مشابه مشکل شما را حل کرده باشد. در چنین شرایطی، عاقلانه‌ترین کار این است که آن‌ها را بررسی کنید. این امر می‌تواند در وقت شما صرفه جویی کند زیرا احتمالاً پیش از این سایر محققان نیز با چالش‌هایی که به دنبال حل آن‌ها هستید روبرو بوده‌ و آن‌ها را برطرف کرده‌اند.

لونز معتقد است: «نادیده گرفتن مطالعات قبلی به معنای از دست دادن اطلاعات ارزشمند است».

با بررسی مقالات و پژوهش‌های محققان دیگر، احتمالاً مدل‌های یادگیری ماشین دیگری پیدا خواهید کرد که بتوانید از آن‌ها برای حل مسئله خود استفاده کنید. در حقیقت، محققان یادگیری ماشین اغلب از الگوهای یکدیگر برای صرفه جویی در وقت و منابع محاسباتی استفاده می‌کنند و با یک مبنای اولیه و مورد اعتماد جامعه یادگیری ماشین شروع می‌کنند.

لونز هشدار می‌دهد که باید از سندرم «در اینجا اختراع نشده است» اجتناب کرد؛ به عبارت دیگر، اگر تنها از مدل‌هایی استفاده کنید که در سازمان خود اختراع کرده‌اید، ممکن است بهترین مدل‌های ممکن برای حل مشکل را نادیده بگیرید.

لزوم شناخت هدف نهایی و الزامات آن

اگر به طور دقیق موارد کاربرد مدل یادگیری خود را بشناسید، می‌توانید به خوبی آن را توسعه دهید. اگر یادگیری ماشین را صرفاً برای اهداف دانشگاهی و پیش بردن مرزهای علم ایجاد می‎کنید، ممکن است در مورد نوع داده‌ها یا الگوریتم‌های یادگیری ماشینی مورد استفاده، هیچ محدودیتی نداشته باشید. با این‌حال، هیچ پژوهش دانشگاهی تا ابد در آزمایشگاه‌های تحقیقاتی محبوس نمی‌ماند.

به نوشته لونز، «[در] بسیاری از مطالعات دانشگاهی، هدف نهایی تولید مدل یادگیری ماشینِ قابل استفاده در دنیای واقعی است؛ بنابراین، بهتر است هر چه زودتر در مورد نحوه استقرار آن در دنیای واقعی چاره‌ای بیاندیشید».

برای نمونه، اگر قرار است مدل شما برای ساخت نرم‌افزارهایی استفاده ‌شود که به جای سرورهای بزرگ باید بر روی دستگاه‌ها اجرا ‌شوند، نمی‌توانید از شبکه های عصبی بزرگ استفاده کنید که نیاز به مقدار زیادی حافظه و فضای ذخیره‌سازی دارند. باید مدل‌های یادگیری ماشین خود را طوری طراحی کنید که در محیط‌هایی با منابع محدود نیز قابل اجرا باشند.

یکی دیگر از مسائل پیش‌رو لزوم توضیح‌پذیری است. در برخی از حوزه‌ها، مانند امور مالی و بهداشت و درمان، ‌در صورت درخواست کاربر، برنامه‌نویسان از نظر قانونی ملزم به ارائه توضیحاتی در مورد تصمیمات الگوریتمی هستند. در چنین مواردی، استفاده از مدل جعبه سیاه امکان‌پذیر نیست. در چنین شرایطی، حتی اگر مدل عملکرد مطلوبی داشته باشد، اما تفسیرنا‌پذیری آن را بلااستفاده می‌سازد. در عوض، یک مدل شفاف‌تر، مانند درخت تصمیم، به احتمال زیاد انتخاب بهتری خواهد بود، حتی اگر عملکرد چندان مطلوبی نداشته باشد. به عبارت دیگر، اگر لزوم استفاده از یادگیری عمیق برای نرم‌افزارتان برای شما به اثبات رسیده است، باید تکنیک‌هایی را بررسی کنید که بتوانند تفسیرهایی موثق از فعال‌سازی در شبکه عصبی ارائه دهند.

در مقام یک مهندس یادگیری ماشین، ممکن است از الزامات مدل خود آگاهی دقیقی نداشته باشید. بنابراین، لازم است با متخصصان این حوزه مشورت کنید زیرا این متخصصان می‌توانند شما را در مسیر درست هدایت کرده و تعیین کنند آیا در جهت حل مشکل مورد نظر گام بر می‌دارید یا خیر.

طبق توضیحات لونز «عدم توجه به نظر متخصصان هر حوزه ممکن است باعث ایجاد پروژه‌هایی شود که به مسائل بی‌ثمر می‌پردازند یا پروژه‌هایی که مسائل مهم را با روش‌هایی نامناسب حل می‌کنند».

برای مثال، اگر یک شبکه عصبی ایجاد کرده‌اید که تقلب در تراکنش‌های بانکی را با دقت بسیار بالایی مشخص می‌کند، اما توضیحی درباره نحوه‌ی تصمیم‌گیری خود ارائه نمی‌دهد، موسسات مالی نمی‌توانند از آن استفاده کنند.

روش‌های اندازه‌گیری و گزارشی را مشخص کنید/ لزوم شناخت روش‌های اندازه‌گیری و گزارش آن‌ها

روش‌های مختلفی برای اندازه‌گیری عملکرد مدل‌های یادگیری ماشین وجود دارد، اما همه آن‌ها لزوماً برای مشکل مورد بررسی مناسب نیستند.

بسیاری از مهندسان یادگیری ماشین از «آزمون دقت» (accuracy test) برای رتبه‌بندی مدل‌های خود استفاده می‌کنند. آزمون دقت درصد پیش‌بینی‌های صحیح مدل را محاسبه می‌کند. این عدد در برخی موارد می‌تواند گمراه کننده باشد.

برای مثال، دیتاستی متشکل از اسکن‌های اشعه ایکس را در نظر بگیرید که برای آموزش مدل یادگیری ماشین در تشخیص سرطان استفاده می‌شود. داده‌های شما نامتعادل است و ۹۰ درصد نمونه‌های آموزشی با برچسب خوش‌خیم و تعداد بسیار کمی با برچسب بدخیم طبقه‌بندی شده‌اند. اگر مدل آموزشی شما در آزمون دقت نمره ۹۰ کسب کند، احتمالاً یاد گرفته است که همه عکس‌ها را خوش‌خیم برچسب‌گذاری کند. در صورتی که از این مدل در یک نرم‌افزار و در محیط واقعی استفاده شود، احتمالاً مواردی را به اشتباه برچسب‌گذاری خواهد کرد؛ این امر نتایج فاجعه‌باری در پی خواهد داشت. در چنین مواردی، تیم یادگیری ماشین باید از آزمون‌هایی استفاده کند که به عدم تعادل کلاس حساس نباشند یا با کمک ماتریس درهم‌ریختگی (confusion matrix)، دیگر معیارهای اندازه‌گیری را بررسی کند. تکنیک‌های جدیدتر می‌توانند عملکرد مدل را در حوزه‌های مختلف به دقت اندازه‌گیری‌ کنند.

علاوه ‌بر این، ممکن است برنامه‌نویس یادگیری ماشین معیارهای متعددی را با در نظر گرفتن نرم‌‌افزار مورد استفاده اندازه‌گیری کند. برای نمونه، در مثال تشخیص سرطان، کاهش موارد منفی کاذب تا حد امکان از اهمیت بسیاری برخوردار است، حتی اگر به قیمت پایین آمدن دقت مدل یا افزایش جزئی مثبت کاذب باشد. بهتر است چند فرد سالم برای تشخیص به بیمارستان فرستاده شوند تا اینکه بیمارانِ مبتلا به سرطان پیشرفته شناسایی نشوند.

لونز خاطرنشان می‌سازد که هنگام مقایسه چندین مدل یادگیری ماشین برای حل یک مشکل، اعداد بزرگ‌تر لزوماً به معنای بهتر‌ بودن مدل‌ نیستند. تفاوت عملکرد ممکن است به دلیل آموزش و آزمایش مدل بر روی بخش‌های مختلف یک دیتاست یا اجرا بر روی دیتاستی کاملاً متفاوت بدست آمده باشد.

او معتقد است: «برای اینکه مقایسه دو رویکرد منصفانه باشد، باید اجرای مدل‌های مورد مقایسه جدید باشد، همه مدل‌ها به یک اندازه بهینه‌سازی شده باشند، چندین مرتبه ارزیابی شوند … و سپس از آزمون‌های آماری برای تعیین سطح معناداری تفاوت عملکرد مدل‌ها استفاده شود».

لونز همچنین در مورد دست‌بالاگرفتن قابلیت‌های مدل هشدار می‌دهد. او می‌نویسد: «یکی از اشتباهات رایج کلی‌گویی‌هایی است که داده‌های آموزشی و ارزیابی مدل‌، از آن‌ها پشتیبانی نمی‌کند».

بنابراین، در تمام گزارشات مربوط به عملکرد مدل باید نوع داده‌ای که مدل بر روی آن آموزش دیده و آزمایش شده است، قید گردد. اعتبارسنجی مدل بر روی دیتاست‌های متعدد تصویری عینی‌تر از قابلیت‌های آن ارائه می‌دهد، اما کماکان لازم است نسبت به نوع خطای داده‌ای که در بالا مطرح کردیم، محتاط باشید.

شفافیت نیز سهم بسزایی در سایر تحقیقات یادگیری ماشین دارد. اگر معماری مدل خود و همچنین روند آموزش و اعتبارسنجی را به طور کامل شرح دهید، سایر محققانی که یافته‌های شما را مطالعه می‌کنند می‌توانند از آن‌ها در کارهای بعدی خود استفاده کنند یا حتی به ایرادات احتمالی روش‌شناسی پژوهش شما کمک کنند. در نهایت، به دنبال تکرارپذیری باشید. اگر کد منبع و پیاده‌سازی مدل خود را منتشر کنید، می‌توانید در کارهای آینده ابزارهای فوق العادهای در اختیار جامعه یادگیری ماشین قرار دهید.

یادگیری ماشین کاربردی

جالب اینجاست که تقریباً تمام مواردی که لونز در مقاله خود به آن‌ها اشاره کرده است در یادگیری ماشین کاربردی نیز مصداق دارد. یادگیری ماشین کاربردی به شاخه‌ای از یادگیری ماشین اطلاق می‌شود که دغدغه آن ادغام مدل‌ها در محصولات واقعی است. با این حال، ذکر این نکات که فراتر از تحقیقات دانشگاهی است، در برنامه‌های کاربردی و محیط واقعی ضروری به نظر می‌رسد.

زمانی که صحبت از داده‌ها به میان می‌آید، مهندسان یادگیری ماشین باید قبل از گنجاندن مدل‌ها در محصولات، ملاحظات بیشتری را در نظر بگیرند. برخی از این ملاحظات، پیرامون حریم خصوصی و امنیت داده‌ها است. برخی هم به رضایت کاربر و محدودیت‌های قانونی اشاره دارد. بسیاری از شرکت ها به دلیل استخراج داده‌های کاربران بدون رضایت آن‌ها، دچار مشکل شده‌اند.

موضوع مهم دیگری که در یادگیری ماشین کاربردی اغلب به دست فراموشی سپرده می‌شود، پوسیدگی مدل (model decay) است. برخلاف تحقیقات دانشگاهی، مدل‌های یادگیری ماشین مورد استفاده در محیط واقعی باید به طور مرتب بازآموزی و به‌روز رسانی شوند. به دلیل اینکه داده‌ها هر روزه تغییر می‌کنند، مدل‌های یادگیری ماشین «می‌پوسند» و عملکرد آن‌ها ضعیف‌تر می‌شود. برای مثال، با تغییر عادات زندگی در دوران قرنطینه، سیستم‌های یادگیری ماشین که بر روی داده‌های قدیمی‌آموزش دیده بودند، شکست خورده و نیاز به بازآموزی دارند. در همین راستا، با ظهور روندهای جدید و تغییر عادات گفتاری و نوشتاری، الگوهای زبانی باید دائماً به روز رسانی شوند. به موجب این تغییرات، تیم تولید یادگیری ماشین باید راهکاری برای جمع‌آوری داده‌های جدید و بازآموزی دوره‌ای مدل‌های خود طراحی کنند.

در نهایت، یکپارچه‌سازی به چالش بزرگی در پروژه‌های یادگیری ماشین کاربردی تبدیل خواهد شد. لذا، این سوالات مطرح می‌شوند که: سیستم جدید یادگیری ماشین چگونه با نرم‌افزارهای فعلی یک سازمان تعامل برقرار می‌کند؟ آیا زیرساخت داده‌ها آماده اتصال به خط یادگیری ماشین است؟ آیا زیرساخت فضای اَبری یا سرور از استقرار و مقیاس‌بندی مدل تولید شده پشتیبانی می‌کند؟ پاسخ به این سوالات می‌تواند موفقیت یا شکست استقرار محصولِ جدید یادگیری ماشین را تعیین کند.

برای مثال، آزمایشگاه تحقیقاتی هوش مصنوعی OpenAI به تازگی نسخه آزمایشی مدل Codex API خود را برای ارزیابی عمومی ‌راه‌اندازی کرده است. اما به دلیل اینکه سرورهای شرکت نتوانستند پاسخگوی مقیاس بالای تقاضای کاربران باشند، این راه‌اندازی به شکست انجامید.

در این نوشتار نکاتی چند در مورد ارزیابی پروژه‌ها و تحقیقات یادگیری ماشین و پیشگیری از اشتباهات احتمالی ارائه شد. برای جزئیات بیشتر در مورد اشتباهات رایج در روند تحقیق و توسعه یادگیری ماشین، می‌توانید به مقاله کامل لونز، با عنوان «چگونه از مشکلات یادگیری ماشین جلوگیری کنیم: راهنمای محققان دانشگاهی» مراجعه کنید.

جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید

منبع: هوشیو