چطور یادگیری عمیق به کامپیوترها اجازه دیدن داد؟
چطور یادگیری عمیق به کامپیوترها اجازه دیدن داد؟
یکی از بزرگترین چالش‌های قرن بیست و یکم، ساخت کامپیوترهایی با قابلیت‌هایی شبیه به مغز انسان است. ما می‌خواهیم که آنها صحبت کنند، بفهمند، مشکلات را حل کنند و حالا می‌خواهیم که ببینند و تصاویر را تشخیص دهند. مدت‌ها بود که قدرتمندترین کامپیوترهای ما نابینا بودند. حالا، آنها می‌توانند ببینند. این انقلابی است که با کمک یادگیری عمیق به وجود آمده است.

چطور یادگیری عمیق به کامپیوترها اجازه دیدن داد؟

یکی از بزرگترین چالش‌های قرن بیست و یکم، ساخت کامپیوترهایی با قابلیت‌هایی شبیه به مغز انسان است. ما می‌خواهیم که آنها صحبت کنند، بفهمند، مشکلات را حل کنند و حالا می‌خواهیم که ببینند و تصاویر را تشخیص دهند. مدت‌ها بود که قدرتمندترین کامپیوترهای ما نابینا بودند. حالا، آنها می‌توانند ببینند. این انقلابی است که با کمک یادگیری عمیق به وجود آمده است.

درک یادگیری ماشین بسیار آسان است. ایده این است که الگوریتم‌ها را بر روی پایگاه داده‌های بزرگ آموزش دهیم تا آنها بتوانند از داده‌های جدید نتیجه‌گیری کنند. به عنوان مثال، می‌خواهیم سن یک درخت را بر اساس قطر آن پیش بینی کنیم. این پایگاه داده فقط سه نوع اطلاعات دارد: ورودی (x، قطر درخت)، خروجی (y، سن درخت) و ویژگی ها (a، b: نوع درخت، مکان جنگل…). این اطلاعات توسط یک تابع خطی y = ax + b به هم مرتبط هستند. با آموزش این پایگاه داده، الگوریتم‌های یادگیری ماشین قادر به درک ارتباط بین x و y و تعیین مقدار دقیق ویژگی ها خواهند بود. پس از اتمام این مرحله آموزشی، کامپیوترها قادر خواهند بود سن دقیق درخت (y) را از قطر جدید (x) پیش بینی کنند.

این یک توصیف بیش از حد ساده است. وقتی صحبت از تشخیص تصویر می‌شود، اوضاع پیچیده‌تر است. برای یک کامپیوتر، یک تصویر میلیون‌ها پیکسل است – یعنی حجم زیادی از داده‌ها برای پردازش و ورودی‌های زیادی برای یک الگوریتم. محققان مجبور بودند راهی میانبر پیدا کنند. اولین راه حل این بود که ویژگی‌های واسطه‌ای تعریف کنند.

تصور کنید که می‌خواهید کامپیوترها یک گربه را تشخیص دهند. اول از همه، یک انسان باید تمام ویژگی‌های اصلی یک گربه را تعریف کند: سر گرد، دو گوش تیز، پوزه… پس از تعریف ویژگی‌های کلیدی، یک الگوریتم شبکه عصبی آموزش دیده با دقت کافی، آنها را تجزیه و تحلیل کرده و تعیین می‌کند که آیا تصویر یک گربه است یا خیر.

یک کامپیوتر که در حال تشخیص تصویر یک گربه است

حالا چه می‌شود اگر یک مورد پیچیده‌تر را در نظر بگیریم؟ به عنوان مثال، چگونه یک لباس را برای یک کامپیوتر توصیف می‌کنید؟

یک کامپیوتر که در حال تشخیص تصویر یک گربه است

به این ترتیب به اولین محدودیت یادگیری ماشین پایه برای تشخیص تصویر می‌رسیم: ما اغلب قادر به تعریف ویژگی‌های تمییز کننده‌ای نیستیم که به احتمال ۱۰۰ درصد منجر به تشخیص شود.

یادگیری عمیق: دیدن و یادگیری بدون دخالت انسان

در دهه ۲۰۰۰، فی-فی لی، مدیر آزمایشگاه هوش مصنوعی و آزمایشگاه بینایی دانشگاه استنفورد، یک شهود خوب داشت: کودکان چگونه نام اشیاء را یاد می‌گیرند؟ چگونه می‌توانند یک گربه یا یک لباس را تشخیص دهند؟ والدین این را با نشان دادن ویژگی‌ها آموزش نمی‌دهند، بلکه هر زمان که فرزندشان یک شیء/حیوان را می‌بیند، نام آن را به او می‌گویند. آنها کودکان را با مثال‌های بصری آموزش می‌دهند. چرا نمی‌توانیم همین کار را برای کامپیوترها انجام دهیم؟

با این حال، دو مشکل باقی ماند: در دسترس بودن پایگاه داده‌ها و قدرت محاسباتی. اولا، چگونه می‌توانیم پایگاه داده‌ای به اندازه کافی بزرگ برای “آموزش دیدن به کامپیوترها” بدست آوریم؟ برای حل این مشکل، لی و تیمش در سال ۲۰۰۷ پروژه ImageNet را راه اندازی کردند. آنها با همکاری بیش از ۵۰۰۰۰ نفر در ۱۸۰ کشور، در سال ۲۰۰۹ بزرگ‌ترین پایگاه داده تصویری جهان را ایجاد کردند: ۱۵ میلیون تصویر نام‌گذاری شده و طبقه بندی شده، در ۲۲۰۰۰ دسته.

حالا کامپیوترها می‌توانند خودشان را بر روی پایگاه‌های داده تصویری عظیم آموزش دهند تا بتوانند ویژگی‌های کلیدی را شناسایی کنند، و بدون دخالت انسان. مانند یک کودک سه ساله، کامپیوترها میلیون‌ها تصویر نامگذاری شده را می‌بینند و به طور خودکار ویژگی‌های اصلی هر مورد را درک می‌کنند. این الگوریتم‌های پیچیده استخراج ویژگی از شبکه‌های عصبی عمیق استفاده می‌کنند و به هزاران میلیون گره نیاز دارند.

یک کامپیوتر که در حال تشخیص تصویر یک گربه است

این فقط آغاز یادگیری عمیق است: ما موفق شدیم کامپیوترها را مانند یک کودک سه ساله ببینیم، اما، همانطور که لی در یک سخنرانی TED گفت، “چالش واقعی در پیش است: چگونه می‌توانیم به کامپیوترمان کمک کنیم تا از سه سالگی به یک نوجوان ۱۳ ساله و فراتر از آن تبدیل شود؟”

منبع خبر

  • نویسنده : حامد غلامی
  • منبع خبر : TechCrunch