alpha blue
Смотреть что такое «alpha blue» в других словарях:
Alpha Psi Omega — Alpha Psi Omega/Delta Psi Omega ΑΨΩ/ΔΨΩ Founded August 12, 1925 (1925 08 12) (86 years ago) Fairmont State University Type Honorary Emphasis … Wikipedia
Alpha-Bits — Alpha Bits, also known as Frosted Alpha Bits, is a breakfast cereal made by Post Cereals, which contains frosted alphabet shaped corn cereal bits. Post Cereals also started producing Marshmallow Alpha Bits in 1990. Alpha Bits cereal was invented… … Wikipedia
Alpha Chi National College Honor Society — (or ΑΧ) is an American collegiate honor society recognizing achievements in general scholarship. It was founded on February 22, 1922 at Southwestern University in Georgetown, Texas. Its current headquarters is located at Harding University in… … Wikipedia
Alpha Persei Cluster — Observation data (2000.0 epoch) Constellation Perseus … Wikipedia
Alpha Beta Kappa — (AΒΚ) is the only honor society recognizing excellence in the arts, the sciences, the trades, business, and both technical and general studies. It is also the only honor society in America that represents degree granting institutions, junior… … Wikipedia
Blue Angels — Blue Angels … Deutsch Wikipedia
Blue Ranger — Saltar a navegación, búsqueda Blue Ranger es una designación otorgada a un personaje en cada temporada de la serie de TV Power Rangers. El Blue Ranger es usualmente el Segundo A Bordo, y también reciben las poderosas. El arma principal del Blue… … Wikipedia Español
Blue Danube Radio — Allgemeine Informationen Empfang analog terrestrisch … Deutsch Wikipedia
alpha stocks — Classifications used by the London Stock Exchange (LSE) based on how actively the shares were dealt in. Alpha stocks were usually those of large companies whose shares were dealt in most frequently (most of these shares relate to blue chip… … Law dictionary
Blue Holocaust — (Buio Omega) est un film italien réalisé par Joe D Amato, sorti en 1979. Sommaire 1 Synopsis 2 Fiche technique 3 Distribution 4 Autour du film … Wikipédia en Français
DeFi-токен Alpha Finance подорожал почти в 200 раз за 4 месяца
DeFi-токен компании Alpha Finance Lab за последние 4 месяца подорожал почти в 200 раз. Его рост ускорился после того, как 7 января 2021 года актив преодолел исторический максимум стоимости. Стремительное повышение спроса на токен произошло на фоне поддержки известного разработчика Андре Кронье, который летом 2020го выпустил токен YFI, подорожавший за первые 1,5 месяца на 130 000%.
«Было приятно сотрудничать с командой Alpha. Мы рады, что экосистема @iearnfinance будет работать с @AlphaFinanceLab над проектом AlphaHomoraV2. Тесная интеграция Alpha, Cream и Sushi позволяет много заработать, чтобы расширяться и масштабироваться гораздо сильнее!» — сообщил Кронье в своем Twitter-аккаунте.
Alpha Finance — не первая монета, чей курс взлетал на авторитете Андре Кронье. В декабре 2020 года, когда стало известно, что он инвестировал в монету CORN, за несколько минут ее цена взлетела на 950%, правда, потому рухнула на 87%.
Что такое Alpha Finance Lab, ALPHA, Alpha Homora и Alpha Lending?
Alpha Finance Lab — это платформа DeFi, сфокусированная на создании экосистемы, внутри которой проекты будут взаимодействовать друг с другом. Это даст возможность максимизировать доход и предоставлять пользователям доступ к оптимальной альфа-версии на различных блокчейнах, начиная с Binance Smart Chain (BSC) и Ethereum.
В Alpha Finance Lab есть собственный токен ALPHA, он нужен для получения ликвидности, голосования и участия в управлении блокчейном. Экосистема Alpha Homora работает по принципу, аналогичному финансовому протоколу. Его цель — облегчить использование инвестиционных стратегий для увеличения доходов инвесторов.
Больше новостей о криптовалютах вы найдете в нашем телеграм-канале РБК-Крипто.
Альфа, бета, гамма, дельта: Какие варианты коронавируса выделены и чем они отличаются
Третья волна пандемии ковида в России неразрывно связана с так называемым «индийским штаммом», он же дельта-вариант. Что в нём особенного и чем он отличается от других, разбирался «Царьград Новосибирск»
Пандемия коронавируса продолжается уже около полутора лет. За это время человечество изобрело вакцины и разработало эффективные методики противостояния болезни. Но и вирус не стоит на месте, а постоянно мутирует, адаптируясь к новым условиям и меняя свои свойства от варианта к варианту.
В начале июля гендиректор вирусологического центра «Вектор» Ринат Максютов заявил о том, что в России на сегодняшний день гуляет около 16 тыс. различных мутаций коронавируса. Правда большинство из них мало отличается друг от друга, и разница представляет интерес только для учёных.
По-настоящему важно знать о вариантах вируса, иногда ошибочно именуемых штаммами. ВОЗ выделяет четыре наиболее опасных на сегодняшний день варианта коронавируса, распространённые по всему миру. Все они появились много позже начала пандемии и отличаются куда большей агрессивностью, а в некоторых случаях и смертоносностью.
Альфа-вариант (Британский)
Впервые был выявлен в графстве Кент (Великобритания) в сентябре 2020 года. Примерно на 90% заразнее исходного коронавируса, пришедшего из Китая. Является одним из самых распространённых в странах Европы вариантов коронавируса, а вот в России представлен гораздо слабее. Первый случай был зарегистрирован в январе 2021 года у пассажира самолёта. При этом до появления дельта-варианта именно с британским вариантом связывал свои самые сильные опасения Роспотребнадзор.
Вызываемый альфа-вариантом ковид, как и во всех остальных вариантах, проявляется высокой температурой, сухим кашлем и потерей вкуса. При этом врачи отмечают, что кашель от альфа-варианта, а также боль в горле случаются на 30% чаще, чем у заразившихся исходным коронавирусом. С другой стороны, вкус и обоняние такие пациенты теряют на 39% реже. Кроме того, учёные выяснили, что заразившиеся альфа-вариантом на 64% чаще нуждаются в госпитализации, а вероятность смертельного исхода у них гораздо выше.
Тем не менее, против альфа-варианта эффективны все существующие вакцины.
Бета-вариант (Южноафриканский)
Выявлен в октябре 2020 года в столичном муниципалитете Нельсона Манделы (ЮАР) и именно в странах Африки пока что имеет наибольшую распространённость. В России на июнь 2021 года бета-вариант выявлен лишь в 6%. С другой стороны исследования показали, что именно этот вариант больше других тяготеет к молодым людям, поскольку лучше умеет прикрепляться к клеткам организма.
От обычного коронавируса отличается большей заразностью и живучестью – благодаря мутациям этот вариант умеет «ускользать» от нейтрализующих антител. Тем не менее, вакцина «Спутник V», по данным исследователей из США и Аргентины, всё ещё эффективна против него, хотя и не настолько, как против оригинального варианта.
Гамма-вариант (Бразильский)
Этот вариант открыли 6 января 2021 года, а первыми заболевшими стали четыре японца, отдыхавшие в бразильском штате Амазонас. Именно гамма-вариант стал причиной второй волны коронавируса в столице штата, городе Манаус. Что немало говорит о его заразности – около 70% жителей города ранее переболели оригинальным вариантом коронавируса и имело антитела.
Вызываемая им болезнь имеет стандартные симптомы ковида, но сам вирус минимум втрое заразнее исходного варианта, к тому же умеет преодолевать естественный иммунитет у переболевших. Также установлено, что гамма-вариант сильнее бьёт по молодёжи и особенно по беременным.
В России гамма-вариант пока представлен единичными случаями. Как заявили 22 июля представители центра «Вектор», во всей стране выявлено всего несколько случаев гамма-варианта. Зато этот вариант на сегодняшний день стал самым популярным в США, об этом заявил американский Центр по контролю и профилактике заболеваний.
Также гамма-вариант сильно распространён на своей родине, в Бразилии. Этому немало поспособствовал президент страны Жаир Болсонару, открытый антипрививочник и ковид-диссидент. В результате на пике заболеваемости рухнула национальная система здравоохранения, а кладбища быстро оказались переполненными.
Дельта-вариант (Индийский)
Главный отрицательный герой новостной повестки лета 2021 года. Впервые выявленный весной 2021 года, он быстро добрался до других стран, в том числе до России. Глава Роспотребнадзора Анна Попова даже заявляла, что именно дельта-вариант стал самым распространённым вариантом коронавируса в мире. ВОЗ рекомендовала государствам вновь закрыть авиасообщение, но для России и ещё 63 стран было уже слишком поздно.
Интересно, что некоторые индийские СМИ заявили, что на самом деле дельта-вариант пришёл в Индию из Великобритании, а не наоборот, как гласит официальная версия.
От оригинального коронавируса дельта-вариант отличают чудовищные темпы распространения. По данным открытого российского консорциума по секвенированию геномов SARS-CoV-2, в мае 2021 года дельта-вариант был причиной ковида в 52% выявленных в стране случаев. А в середине июля его доля выросла до 90%.
Вариация ковида, вызываемая дельта-вариантом, от изначальной болезни также отличается симптомами. При течении средней тяжести врачи выделяют боли в суставах и животе, желудочные расстройства, сопровождаемые тошнотой и рвотой, высокую температуру, озноб с лихорадкой, потерю слуха, спутанность сознания и даже гангрену.
У пациентов, болеющих ковидом от дельта-варианта в лёгкой форме, медики наблюдают головные боли, боли в горле, высокую температуру, кашель и насморк. Крепкие здоровьем граждане и вовсе путали такой ковид с простудой.
От исходного коронавируса дельта-вариант отличается тем, что с ним не теряется обоняние. Но на смену ему пришла потеря слуха, а в самых плохих исходах – потеря конечностей. Всё из-за резко увеличивающегося риска возникновения тромбов.
Впрочем, для иностранцев самой страшной новостью стало то, что против дельта-варианта могут оказаться бесполезны вакцины производства AstraZeneca и Bharat Biotech. А медицинский журнал The Lancet пишет, что и препарат Pfizer может быть неэффективен.
Отечественные вакцины, в свою очередь, с дельта-вариантом справляются. Во всяком случае так заявили их разработчики. В защиту русских вакцин говорит и статистика – при огромной распространённости дельта-варианта в России, число заболевших среди вакцинированных составляет не более процента, что укладывается в приемлемые показатели эффективности вакцин.
AlphaGo Zero совсем на пальцах
Завтра искусственный интеллект поработит Землю и станет использовать человеков в качестве смешных батареек, поддерживающих функционирование его систем, а сегодня мы запасаемся попкорном и смотрим, с чего он начинает.
19 октября 2017 года команда Deepmind опубликовала в Nature статью, краткая суть которой сводится к тому, что их новая модель AlphaGo Zero не только разгромно обыгрывает прошлые версии сети, но ещё и не требует никакого человеческого участия в процессе тренировки. Естественно, это заявление произвело в AI-коммьюнити эффект разорвавшейся бомбы, и всем тут же стало интересно, за счёт чего удалось добиться такого успеха.
По мотивам материалов, находящихся в открытом доступе, Семён sim0nsays записал отличный стрим:
А для тех, кому проще два раза прочитать, чем один раз увидеть, я сейчас попробую объяснить всё это буквами.
Сразу хочу отметить, что стрим и статья собирались в значительной степени по мотивам дискуссий на closedcircles.com, отсюда и спектр рассмотренных вопросов, и специфическая манера повествования.
Что такое го?
Го — это древняя (по разным оценкам, ей от 2 до 5 тысяч лет) настольная стратегическая игра. Есть поле, расчерченное перпендикулярными линиями. Есть два игрока, у одного в мешочке белые камни, у другого — чёрные. Игроки по очереди выставляют камни на пересечение линий. Камни одного цвета, окружённые по четырём направлениям камнями другого цвета, снимаются с доски:
Выигрывает тот, кто к концу партии «окружит» большую по площади территорию. Там есть ещё несколько тонкостей, но базово это всё — человеку, который видит го первый раз в жизни, вполне реально объяснить правила за пять минут.
И почему это считается сложным?
Окей, давай попробуем сравнить несколько настольных игр.
Начнём с шашек. В шашках у игрока есть примерно 10 вариантов того, какой сделать ход. В 1994 году чемпион мира по шашкам был обыгран программой, написанной исследователями из университета Альберты.
Дальше шахматы. В шахматах игрок выбирает в среднем из 20 допустимых ходов и делает такой выбор приблизительно 50 раз за игру. В 1997 году Deep Blue, созданная командой IBM программа, обыграла чемпиона мира по шахматам Гарри Каспарова.
Теперь го. Профессионалы играют в го на поле размера 19х19, что даёт 361 вариант того, куда можно поставить камень. Отсекая откровенно проигрышные ходы и точки, занятые другими камнями, мы всё равно получаем выбор из более чем 200 опций, который требуется совершить в среднем 50-70 раз за партию. Ситуация осложняется тем, что камни взаимодействуют между собой, образуя построения, и в результате камень, поставленный на 35 ходу, может принести пользу только на 115. А может не принести. А чаще всего вообще трудно понять, помог нам этот ход или помешал. Тем не менее, в 2016 году программа AlphaGo обыграла сильнейшего (по меньшей мере, одного из сильнейших) игрока в мире Ли Седоля в серии из пяти игр со счётом 4:1.
Почему на победу в го потребовалось столько времени? Там так много вариантов?
Грубо говоря, да. И в шашках, и в шахматах, и в го общий принцип, по которому работают алгоритмы, один и тот же. Все эти игры попадают в категорию игр с полной информацией, значит, мы можем построить дерево всех возможных состояний игры. Поэтому мы банально строим такое дерево, а дальше просто идём по ветке, которая приводит к победе. Тонкость в том, что для го дерево получается ну очень большим из-за лютого фактора ветвления и впечатляющей глубины, и ни построить, ни обойти его за адекватное время не представлялось возможным. Именно эту проблему смогли решить ребята из DeepMind.
И как они победили?
Тут начинается интересное.
Сначала давай поговорим о том, как работали алгоритмы игры в го до AlphaGo. Все они показывали не самые впечатляющие результаты и успешно играли примерно на уровне среднего любителя, и все опирались на метод под названием Monte Carlo Tree Search — MCTS. Идея в чём (с этим важно разобраться).
У тебя есть дерево состояний — ходов. Из данной конкретной ситуации ты идёшь по какой-то из веток этого дерева, пока она не закончится. Когда ветка заканчивается, добавляешь в неё новый узел (ноду), тем самым инкрементально это дерево достраивая. А потом добавленную ноду оцениваешь, чтобы в дальнейшем определять, стоит ходить по данной ветке или не стоит, не раскрывая само дерево.
Чуть детальнее, это работает следующим образом:
Шаг первый, Selection: у нас есть дерево позиций, и мы каждый раз совершаем ход, выбирая наилучший дочерний узел для текущей позиции.
Шаг второй, Expansion: допустим, мы дошли до конца дерева, но это ещё не конец игры. Просто создаём новую дочернюю ноду и идём в неё.
Шаг третий, Simulation: хорошо, появилась новая нода, фактически, игровая ситуация, в которой мы оказались впервые. Теперь надо её оценить, то есть понять, в хорошей мы оказались ситуации или не очень. Как это сделать? В базовой концепции — используя так называемый rollout: просто сыграть партию (или много партий) из текущей позиции и посмотреть, выиграли мы или проиграли. Получившийся результат и считаем оценкой узла.
Шаг четвёртый, Backpropagation: идём вверх по дереву и увеличиваем или уменьшаем веса всех родительских нод в зависимости от того, хороша новая нода или плоха. Пока важно понять общий принцип, мы ещё успеем рассмотреть данный этап в деталях.
В каждой ноде сохраняем два значения: оценку (value) текущей ноды и количество раз, которое мы по ней пробегали. И повторяем цикл из этих четырёх шагов много-много раз.
Как мы выбираем дочернюю ноду на первом шаге?
В самом простом варианте — берём ноду, у которой будет наивысший показатель Upper Confidence Bounds (UCB):
Здесь v — это value нашей ноды, n — сколько раз мы в этой ноде были, N — сколько раз были в родительской ноде, а C — просто некоторый коэффициент.
В не самом простом варианте можно усложнять формулу, чтобы получить более точные результаты, или вообще использовать какую-то другую эвристику, например, нейросеть. Об этом подходе мы тоже ещё поговорим.
Если смотреть чуть шире, перед нами классическая multi-armed bandit problem. Задача — найти такую функцию выбора узла, которая обеспечит оптимальный баланс между использованием лучших из имеющихся вариантов и исследованием новых возможностей.
Почему это работает?
Потому что с MCTS дерево решений растёт асимметрично: более интересные ноды посещаются чаще, менее интересные — реже, а оценить отдельно взятую ноду становится возможным без раскрытия всего дерева.
Это имеет какое-то отношение к AlphaGo?
В общем и целом, AlphaGo опирается на те же самые принципы. Ключевое отличие — когда на втором этапе мы добавляем новую ноду, для того, чтобы определить, насколько она хорошая, вместо rollout’ов используем нейросеть. Как мы это делаем.
(Я совсем в двух словах расскажу про прошлую версию AlphaGo, хотя на самом деле в ней хватает интересных нюансов; кто хочет подробностей — вэлком в видео в начале, там они хорошо объясняются, или в соответствующий пост на хабре, там они хорошо расписаны).
Во-первых, тренируем две сети, каждая из которых получает на вход состояние доски и говорит, какой бы ход в этой ситуации сделал человек. Почему две? Потому что одна — медленная, но работает хорошо (57% верных предсказаний, и каждый дополнительный процент даёт очень солидный бонус к итоговому результату), а вторая обладает намного меньшей точностью, зато быстрая.
Обе эти сети, медленную и быструю, мы тренируем на человеческих ходах — банально идём на сервер го, забираем партии игроков хорошего уровня, парсим и скармливаем для обучения.
Во-вторых, берём две эти натренированные «на людях» сети и начинаем играть ими сами с собой, чтобы их прокачать.
Таким образом, у нас есть одна медленная и точная функция, которая говорит, куда надо ходить (из шага 2), одна быстрая функция, которая делает то же самое, хоть и не так хорошо (опять же из шага 2), и третья функция, которая, глядя на доску, говорит, проиграешь ты или выиграешь, если окажешься в этой ситуации (из шага 3). Всё, теперь мы играем по MCTS и используем первую, чтобы посмотреть, в какие ноды следует соваться из текущей, вторую — чтобы очень быстро просимулировать rollout из текущей позиции, а третью — чтобы напрямую без rollout’а оценить, насколько хороша нода, в которую мы сунулись. Для итоговой value значения, выданные второй и третьей сетями, просто складываются. В результате мы и очень сильно урезаем фактор ветвления, и можем для оценки узла не лезть вниз по дереву (а если лезем, то быстро-быстро).
И это работает прям сильно лучше, чем вариант без нейросетей?
Да, внезапно этого оказывается достаточно.
В октябре 2015 AlphaGo играет с трёхкратным чемпионом Европы Fan Hui и обыгрывает его со счётом 5:0. Событие, с одной стороны, большое, потому что впервые компьютер выигрывает у профессионала в равных условиях, а с другой — не очень, потому что в мире го чемпион Европы — это примерно чемпион водокачки, и тот же Fan Hui обладает всего лишь вторым профессиональным даном (из девяти возможных). Версия AlphaGo, которая играла в этом матче, получила внутреннее название AlphaGo Fan.
А вот в марте 2016 новая версия AlphaGo играет пять партий уже с одним из лучших игроков мира Lee Sedol и выигрывает со счётом 4:1. Забавно, но сразу после игр в медиа к Ли Седолю стали относиться как к первому топ-игроку, проигравшему ИИ, хотя время расставило всё по местам и на сегодня Седоль остаётся (и, вероятно, останется навсегда) последним человеком, обыгравшим компьютер. Но я забегаю вперёд. Эта версия AlphaGo в дальнейшем стала обозначаться AlphaGo Lee.
Хорошая попытка, Ли, но нет.
После этого, в конце 2016 и начале 2017, уже следующая версия AlphaGo (AlphaGo Master) играет 60 матчей в онлайне с игроками из топовых позиций мирового рейтинга и выигрывает с общим счётом 60:0. В мае AlphaGo Master играет с топ-1 мирового рейтинга Ke Jie и обыгрывает его со счётом 3:0. Собственно, всё, противостояние человека и компьютера в го завершено.
Рейтинг ELO. GnuGo, Pachi и CrazyStone — боты, написанные без использования нейросетей.
Но раз они и так всех обыграли, зачем понадобилась ещё одна сеть?
Если коротко — для красоты. У сообщества были три относительно большие претензии к AlphaGo:
1) Для стартового обучения используются игры людей. Получается, что без человеческого интеллекта искусственный интеллект не работает.
2) Много заинженеренных фич. Я опустил этот момент в своём пересказе, но в видео и в посте про AlphaGo Lee ему уделяется достаточно внимания, — обе используемые сети получают на вход значительное количество фич, придуманных людьми. Сами по себе эти фичи никакой новой информации не несут и могут быть вычислены, исходя из положения камней на доске, но вот без них сети не справляются. Например, сеть, которая определяет следующий ход, помимо непосредственно стейта получает следующее:
3) Нужен здоровый кластер, чтобы всё это запустить.
И вот буквально месяц назад Deepmind представили новую версию алгоритма, AlphaGo Zero, в котором все эти проблемы устранены — модель учится с нуля, играя исключительно сама с собой и используя случайные веса нейросети в качестве стартовых; использует только положение камней на доске, чтобы принять решение; и сильно проще по требованиям к железу. Приятным бонусом она обыгрывает AlphaGo Lee в противостоянии из ста партий с общим счётом 100:0.
Так, и что для этого пришлось сделать?
Во-первых, объединить две сети из прошлых версий AlphaGo в одну. Она получает состояние доски с небольшим количеством фич (я расскажу о них чуть позже), прогоняет всё это добро через свои слои, и в конце два её выхода выдают два результата: policy-выход выдаёт массив 19х19, который показывает, насколько вероятен каждый из ходов из данной позиции, а value выдаёт одно число — вероятность выиграть партию, опять же из данной позиции.
Во-вторых, поменять сам RL-алгоритм. Если раньше непосредственно MCTS использовался только во время игры, то теперь он используется сразу при тренировке. Как это работает.
В каждой ноде дерева состояний хранится четыре значения — N (сколько раз мы ходили по этой ноде), V (value этой ноды), Q (усреднённое value всех дочерних нод этой ноды) и P (вероятность, что из всех допустимых на данном ходу нод мы выберем именно эту). Когда сеть играет сама с собой, во время каждого хода она производит следующие симуляции:
Практика показывает, что такая симуляция выдаёт намного более сильные предсказания, нежели базовая нейросеть.
А дальше ход, который сеть действительно сделает, выбирается одним из двух способов:
— Если это реальная игра, идём туда, где больше N (выяснилось, что такая метрика оказывается самой надёжной);
— Если просто тренировка, выбираем ход из распределения Pi
N ^ (1/T), где T — просто некоторая температура для контроля баланса между исследованием и эффективностью.
То, что и policy, и value предсказываются одной общей сетью, даёт возможность крайне эффективно всё это запускать. Мы один раз оказались в какой-то ноде, отдали эту ноду в нашу сеть, получили некоторый результат V, все P запомнили, как изначальные веса на дочерних нодах, и всё, больше для этой ноды сеть не задействуем, сколько бы раз через неё ни ходили, а rollout’ов не запускаем вообще, считая, что предсказанный результат и так достаточно точен. Красота.
Как тренировать сеть, которая должна предсказывать и policy, и value?
Тренируется всё это дело, используя вот такой лосс:
Формула состоит из трёх частей.
В первой части мы говорим, что сеть должна уметь предсказать результат, то есть z (то, с каким результатом закончилась партия) не должно отличаться от v (того value, которое она предсказала).
Во второй части в качестве лейблов для policy используем наши улучшенные вероятности. Это как reward в supervised learning’е — мы хотим как можно точнее предсказать те вероятности, которые получим, пробегаясь по дереву; очень похоже на cross-entropy loss.
Третья часть, c в конце формулы — просто регуляризатор.
И ты ещё обещал рассказать про фичи, которые подаются на вход.
Ага, было такое. Итак, на вход подаётся поле 19х19, каждый пиксель которого имеет 17 каналов, итого получаем 19х19х17. 17 слоёв нужны для следующего.
Первый говорит, находится ли в данной точке твой камень или нет (1 — стоит, 0 — отсутствует), а дальнейшие семь — находился ли он тут в какой-то из предыдущих семи ходов.
Дело в том, что в го запрещены повторения — в ряде случаев ты не можешь поставить камень туда, где он уже стоял. Как на картинке:
Не знаю, почему, но хабр иногда отказывается проигрывать эту гифку. Если так и произошло и ты не видишь анимации — просто кликни на неё.
Белые делают ход в точку a и забирают камень чёрных. Чёрные делают ход в точку b и забирают камень белых. Без запрета повторений оппоненты могли бы сидеть и играть последовательность a—b до бесконечности. В реальности же белые не могут сразу повторно сходить в позицию a и должны выбрать другой ход (а вот уже после какого-то иного хода сходить в позицию a разрешено). Именно для того, чтобы сеть могла научиться этому правилу, ей и передают историю. Вторая причина — в АМА на реддите разработчики рассказывали, что когда сеть видит, где в последнее время была активность, она лучше учится. По мысли это чем-то похоже на attention.
Следующие восемь слоёв — то же самое, но для камней оппонента.
Последний, семнадцатый, слой забит единицами, если ты играешь чёрными, и нулями, если играешь белыми. Это нужно, потому что при финальном подсчёте очков белые получают небольшой бонус за то, что ходят вторыми.
Вот и всё, по факту сеть действительно видит только состояние доски, но с информацией о том, камнями какого цвета она играет, и историей на восемь ходов.
А что с архитектурой?
Convolutional layer, потом 40 residual layer’ов, в конце два выхода — value head и policy head. Я не хочу останавливаться на этом подробно, кому важно — посмотрит сам, а всем остальным конкретные слои вряд ли интересны. Если резюмировать, по сравнению с версией Lee сеть стала больше, добавили batch normalization и появились residual connection. Нововведения очень стандартные, очень мейнстримовые, какого-то отдельного rocket science здесь нет.
И всё это чтобы что?
И всё это привело вот к таким результатам.
За три дня AlphaGo Zero учится обыгрывать версию Lee, за 21 — Master, а дальше отправляется в космос. После 40 дней тренировки она обыгрывает версию Lee со счётом 100:0 и версию Master со счётом 89:11. В этом свете интересно отметить, что у Master и Zero идентичный алгоритм тренировки, идентичная архитектура, а все отличия заключаются в фичах, подаваемых на вход, и том, что Zero не тренируется на играх людей. И выигрывает.
То есть всё, компьютер умнее, у человечества шансов нет?
В го — похоже, что да, мы официально в хурме. В общем случае, нет. У го есть несколько особенностей, крайне важных для текущих методов обучения:
А следующий бастион какой?
В играх — Starcraft и DotA. В обоих направлениях ведётся активная работа, но пока без прорывов сравнимого масштаба. Ждём.
Ух! Кажется, немножко понятно. Что ещё можно посмотреть по теме?
Во-первых, посмотри видео в начале этого поста, оно крутое и охватывает многие вопросы, которые я скипнул.
Во-вторых, почитай пост Семёна про AlphaGo Lee.
В-третьих, приходи в канал #data на closedcircles.com, мы там активно всё это обсуждаем.
В-четвёртых, всё, что я сейчас рассказал про AGZ, есть на одной картинке.
И давай финалочку.
Я закончу этот пост последним параграфом оригинального пейпера:
Просто подумай об этом.
Спасибо всем, у кого хватило терпения доскроллить до этого места. Отдельная благодарность пользователям sim0nsays за контент и комментарии и buriy за помощь в вычитке.






