Как глубокое обучение позволило компьютерам видеть

Одна из самых больших задач ۲۱-го века — сделать компьютеры более похожими на человеческий мозг. Мы хотим, чтобы они говорили, понимали и решали проблемы — а теперь мы хотим, чтобы они видели и распознавали изображения. Долгое время наши самые умные компьютеры были слепыми. Теперь они могут видеть. Это революция, ставшая возможной благодаря глубокому обучению.

Понять машинное обучение довольно просто. Идея заключается в том, чтобы обучать алгоритмы на больших базах данных, чтобы они могли предсказывать результаты из новых данных. Вот простой пример: мы хотим предсказать возраст дерева по его диаметру. Эта база данных содержит только три типа данных: вход (x, диаметр дерева), выход (y, возраст дерева) и признаки (a, b: тип дерева, местоположение леса …). Эти данные связаны линейной функцией y = ax + b. С обучением этой базы данных алгоритмы машинного обучения смогут понять корреляцию между x и y и определить точное значение признаков. После завершения этой фазы обучения компьютеры смогут предсказывать правильный возраст дерева (y) по любому новому диаметру (x).

Это слишком упрощенное описание; оно становится более сложным, когда мы говорим о распознавании изображений. Для компьютера картинка — это миллионы пикселей, то есть очень много данных для обработки и слишком много входных данных для одного алгоритма. Исследователям пришлось найти обходной путь. Первое решение заключалось в определении промежуточных характеристик. Представьте, что вы хотите, чтобы компьютеры распознавали кошку. Прежде всего, человек должен определить все основные черты кошки: круглая голова, два острых уха, морда … После определения ключевых черт, хорошо обученный алгоритм нейронной сети с достаточной точностью проанализирует их и определит, является ли изображение кошкой.

یک کامپیوتر که در حال تشخیص تصویر یک گربه است

?А что, если мы возьмем более сложный предмет? Например, как вы описали бы платье компьютеру

یک کامپیوتر که در حال تشخیص تصویر یک گربه است

Вы получите первый предел базового машинного обучения для распознавания изображений: мы часто не способны определить дискриминационные характеристики, которые привели бы к ۱۰۰% вероятности распознавания.

Глубокое обучение: видение и обучение без вмешательства человека

В ۲۰۰۰-х годах Фей-Фей Ли, директор лаборатории искусственного интеллекта и лаборатории зрения Стэнфорда, имела хорошую интуицию: как дети учатся именам объектов? Как они могут распознать кошку или платье? Родители не учат этому, показывая характеристики, а скорее называя объект/животное каждый раз, когда ребенок его видит. Они обучают детей визуальными примерами. Почему мы не можем сделать то же самое для компьютеров?

Однако, остались две проблемы: доступность баз данных и вычислительная мощность. Во-первых, как мы можем получить достаточно большую базу данных, чтобы «научить компьютеры видеть»? Чтобы решить эту проблему, Ли и ее команда запустили проект ImageNet в ۲۰۰۷ году. В сотрудничестве с более чем ۵۰ ۰۰۰ человек в ۱۸۰ странах они создали самую большую в мире базу данных изображений в ۲۰۰۹ году: ۱۵ миллионов названных и классифицированных изображений, охватывающих ۲۲ ۰۰۰ категорий.

Теперь компьютеры могут обучать себя на огромных базах данных изображений, чтобы идентифицировать ключевые черты, и без вмешательства человека. Как ребенок в три года, компьютеры видят миллионы названных изображений и сами понимают основные характеристики каждого предмета. Эти сложные алгоритмы извлечения признаков используют глубокие нейронные сети и требуют тысяч миллионов узлов.

یک کامپیوتر که در حال تشخیص تصویر یک گربه است

Это только начало для глубокого обучения: мы смогли заставить компьютеры видеть, как ребенок в три года, но, как сказала Ли в TED Talk, «перед нами стоит реальная проблема: как мы можем помочь нашему компьютеру перейти от трехлетнего ребенка к тринадцатилетнему и далеко за пределы этого?»

Ссылка