Не так давно освоить древнюю китайскую игру в Го было за пределами досягаемости искусственный интеллект, Но потом AlphaGo, AI-плеер Google DeepMind, начал уходить даже лучшие человеческие противники в пыли, Тем не менее, даже этот бьющий мир ИИ нуждался в том, чтобы люди учились. Затем, в среду, новая версия DeepMind полностью отбросила людей.
AlphaGo Zero превзошел возможности своего предшественника, обойдя традиционный метод обучения игр AI, который включает в себя наблюдение за тысячами человеческих игр. Вместо этого он просто начинает играть в случайном порядке, оттачивая свои навыки, постоянно играя против себя. Три дня и 4.9 миллионов таких игр спустя, в результате получается лучший в мире искусственный интеллект.
«Он более мощный, чем предыдущие подходы, потому что мы устранили ограничения человеческих знаний», - говорит Дэвид Сильвер, ведущий исследователь AlphaGo.
«Человечество накопило знания о го из миллионов игр, в которые играли тысячи лет», - пишут авторы в своей статье. «В течение нескольких дней… AlphaGo Zero смог заново открыть для себя большую часть этих знаний о Go, а также новые стратегии, которые дают новое представление о самой старой из игр».
Альтернативный подход AlphaGo Zero позволил ему обнаружить стратегии, которые люди никогда не находили. Например, он выучил много разных хосэки - последовательности ходов, которые не приводят к чистым потерям ни для одной из сторон. За тысячи лет игры в Го было записано множество хосэки, и первоначально AlphaGo Zero выучил многие из знакомых. Но поскольку его самообучение продолжалось, он начал отдавать предпочтение ранее неизвестным последовательностям.
Чтобы проверить эти новые приемы, DeepMind сравнил AlphaGo Zero с версией, победившей чемпиона мира по времени 18 Ли Седола. В 100-игре реванш, он выиграл 100-0. И это несмотря на то, что тренировка длилась всего три дня, а для предшественника - несколько месяцев. После 40 дней обучения он также выиграл 89-11 против лучшей версии AlphaGo, победившей номер один в мире Ке Цзе (природа, DOI: 10.1038 / nature24270).