December 10th, 2017

О любопытстве нейросетей



На dirty нашелся годный текст про любопытство нейросетей, достойный того, чтобы перепостить его без исправлений:
----------
Нейросеть самостоятельно научилась играть в Супер Марио при помощи своего любопытства. Как же моделируется любопытство? Это похоже на обучение с подкреплением, только наоборот. При обучении с подкреплением система получает плюшки за правильные действия, и по попе за неправильные. А тут наоборот — чем хуже система предсказывает результат своего действия, тем чаще старается его совершать. И это внутреннее подкрепление, а не внешнее — система сама себе начисляет плюшки.

Например, нейросеть очень быстро перестала нажимать кнопку "вниз", потому что уже заранее знает, что при нажатии ничего не происходит. С кнопками "вверх" и "вправо" наоборот — все время происходит что–то новое, часто неожиданное. Она плохо предсказывает что, поэтому жмет на них снова и снова. Интересно, что она сама научилась не умирать, так как это дает больше пищи ее любопытству. Правда дальше середины первого уровня пока пройти не может, потому что там требуется очень сложная последовательность четких действий. В результате система отлично предсказывает, что в этом месте она умирает, и ей перестало быть интересным идти дальше.

В этом подходе есть и другая ловушка. Если, например, смотреть на белый шум на телевизоре, то практически невозможно предсказать, как он будет выглядеть в следующую минуту. В результате система может залипнуть, потому что на экране все время происходит что–то неожиданное на уровне пикселов. И таких вещей на самом деле много — листья на дереве, облака и т.д. Чтобы этого избежать, надо абстрагироваться от пикселов и мыслить более релевантными категориями. Например, можно игнорировать вещи, которые не влияют на агента, и на которые агент не может повлиять.
----------

Искусственные нейросети становятся все более похожими на человеческое сознание. Скайнет грядет.

На картинке к посту та самая нейросеть играет в того самого Марио.