Глухи и слепы здесь вы как правило, залив шары очередной бутылью вина начинаете вспоминать про макак баранов и прочие радости посещения зоопарка в детстве.
Никаких внятных и разумных аргументов зачем гуглу тратить "астрономические суммы" на пеар еще вы не сформулировали.
Потому что у него нет других критериев оценки кроме вероятности если я правильно понял. Она же не считает там материал, или свободные поля итд. Она просто тупо гоняет партии своим умным монте карло (параметры которого как раз и получены нейросетями, которые в свою очередь учитывают в своих весах материальные соображения) и эмпирически оценивает эту самую вероятность для каждого возможного хода.
Это кажется очень странным, потому что постоянно должны происходить тактические ошибки. А AlphaZero демонстрирует очень точный счет
Вместо счета АльфаЗеро гоняет симуляции, но симуляции очень умные, что позволяет каким то образом исключить зевок с очень высокой вероятностью. Вот что пишут авторы в секции методы
For at least four decades the strongest computer chess programs have used alpha-beta search (18, 23). AlphaZero uses a markedly different approach that averages over the position evaluations within a subtree, rather than computing the minimax evaluation of that subtree. However, chess programs using traditional MCTS were much weaker than alpha-beta search programs, (4, 24); while alpha-beta programs based on neural networks have previously been unable to compete with faster, handcrafted evaluation functions. AlphaZero evaluates positions using non-linear function approximation based on a deep neural network, rather than the linear function approximation used in typical chess programs. This provides a much more powerful representation, but may also introduce spurious approximation
errors. MCTS averages over these approximation errors, which therefore tend to cancel out when evaluating a large subtree. In contrast, alpha-beta search computes an explicit minimax, which propagates the biggest approximation errors to the root of the subtree. Using MCTS may allow AlphaZero to effectively combine its neural network representations with a powerful, domain-independent search
Глухи и слепы здесь вы как правило, залив шары очередной бутылью вина начинаете вспоминать про макак баранов и прочие радости посещения зоопарка в детстве.
Понеслась. Ну надоело уже. Что за непреодолимое желание устраивать срач во всех ветках?
Магнусу вполне может быть интересно поиграть с монстром
Зачем? Он особо никогда с прогой не стремился играть. В шахматы играть интресно только тогда, когда шанс победить реален. Только мазохисты играют без шансов на победу. Магнус не похож на мазохиста.
Глухи и слепы здесь вы как правило, залив шары очередной бутылью вина начинаете вспоминать про макак баранов и прочие радости посещения зоопарка в детстве.
Понеслась. Ну надоело уже. Что за непреодолимое желание устраивать срач во всех ветках?
Вот и не начинайте про глухоту и слепоту. Я ваши религиозные чувства задел - извинился, вы не оценили.
А какие проблемы потянуть. Оценку позиции ситуации на дороге делает компонента, которая находится прямо в машине очевидно. А сеть получает инфу с автомобилей и продолжает подкручивать параметры. Потом например раз в день автомобиль получает апдейт параметров. Собственно это уже очень близко к внедрению есть примеры от нескольких компаний.
А какие проблемы потянуть. Оценку позиции ситуации на дороге делает компонента, которая находится прямо в машине очевидно.
Надо наверное не только оценивать но еще и реагировать. И минуту на ход никто не даст. Надо принимать решения за секунды, причем "сотни тысяч" решений. Если она в шахматах всего 80К/сек позиций только, смотрит, то принимать 200-300 тысяч решений на дороге вряд ли сможет. Это посложнее чем позиция. Или реагировать тоже будет автномная нейросеть внутри машины? А хватит ей объемов машины для железа? И сколько оно будет стоить включая вложенные в них человеко-часы разработки?
Вы, Шипов и Свидлер специалисты по вопросам машинного обучения? У Шипова и Свидлера кстати хватило ума не высказывать необоснованных обвинений в адрес гугла.
К сожалению умные Шипов со Свидлером с вами общаться не хотят, приходится вам с таким недоумком как я общаться. Сочувствую.
Я вообще думаю, что недалек тот день, когда белковым водителям запретят ездить, для начала в крупных городах. Слишком высокая угроза для окружающих, а у роботов будет практически нулевая аварийность
Наверняка наступит такой день, но пока нулевой аварийности нет
Надо наверное не только оценивать но еще и реагировать. И минуту на ход никто не даст. Надо принимать решения за секунды, причем "сотни тысяч" решений.
Надо, и даже большую многоуровневую нейросеть со всеми ее параметрами можно быстро оценивать на специализированном железе. Я не знаю откуда Вы взяли сотни тысяч решений в секунду, у водителя в Москве наверное очень сложная ситуация на дороге, но оценивать надо действительно быстро. К счастью и число возможных вариантов значительно меньше чем в шахматах - снизить скорость, изменить маршрут, поменять линию.Ruslan73 wrote:
Или реагировать тоже будет автномная нейросеть внутри машины?
Естественно. Неужели Вам пришло в голову, что реагировать может какая то отдаленная глобальная нейросеть? Отдаленная и глобальная только тренируется, а реагирует локальная и автономная естественно.
Ну вот так наука развивается, люди делают предположения, а потом проверяют их экспериментом. Многим это занятие интересно. Есть такое предположение, что Магнус лучше всех из людей понимает шахматы. Я лично вполне допускаю, что ему самому будет интересно проверить сможет ли он усилить игру Стокфиша своим пониманием и победить малопонятную Альфу. Очень сожалею, что вызвал своим предположением агрессию с Вашей стороны.
P.S.
Если Вы посмотрите график силы игры Альфы от числа тренировок, то увидите, что сила выходит на асимптоту которая не сильно выше силы Стока. Вполне допускаю, что Магнус своей гениальной интуицией может добавить Стоку 100 пунктов например, чтобы не загонять ферзя в тупик на поле h8 например.
Нет никакой агрессии. Только удивление. Это просто очень примитивно-топорная цепочка рассуждений построенная человеком очевидно очень далеким от шахмат в том числе компьютерных. Она не выдерживает никакой критики в ней неверно практически всё, начиная от первого звена до всех переходов.
Кстати, в идеале лучше вообще людям запретить выходить на улицу. Для их же безопасности, разумеется. А зачем им выходить, собственно? Все покупки будут доставлять дроны, работать все будут из квартиры удаленно. Свежим воздухом подышать? Не смешите, домашний, пропущенный через систему очистки воздух будет стократно чище, чем уличный смог. Кстати, да, окна тоже не будут открываться. И не нужно, и вывалиться можно.
С чего было решено, что Карлсен лучше понимает шахматы чем Каспаров или Карпов, например, это первое что непонятно.
С чего было взято что именно те аспекты понимания, которые особенно необходимы Стокфишу наиболее сильны именно у Карлсена - это второе, что непонятно.
Откуда было взято что достаточно интуиции для того чтобы страховать Стокфиш ошибок и не нужно никакого опыта серьезного адванса?
Что не ход в вашей цепочке, то вопросы и удивление . Вполне может оказаться что в паре человек+Стокфиш самый сильный - какой-нить Бологан или Пономарев.
Никто не проводил таких состязаний, а механически складывать рейтинги - это вообще нонсенс запредельный.
С чего было решено, что Карлсен лучше понимает шахматы чем Каспаров или Карпов, например, это первое что непонятно.
С чего было взято что именно те аспекты понимания, которые особенно необходимы Стокфишу наиболее сильны именно у Карлсена - это второе, что непонятно.
Но вот я же говорю, у Вас аллергия, вызывающая немотивированную агрессию. Почитайте мой пост еще один раз, потом сделайте три вдоха и выдоха.
PP wrote:
Гата уже не актуален. Для PR, гораздо лучшей кандидатурой был бы Магнус или кстати Каспаров. Гата гуглу не интересен, а исход такого матча предопределен.
И Вы это замечание раздули до черт знает каких пропорций. Ну не согласны, пусть Гата играет, мне это не очень интересно. Мне гораздо интересней понять принципы алгоритма обеспечившие такое феноменальное превосходство (ни одного поражения!) над превосходным счетом Стока.
Если Вы посмотрите график силы игры Альфы от числа тренировок, то увидите
Что он дает больше вопросов чем ответов. Любой кто видел формулу расчета рейтинга, знает, что у играющего с самим собой рейтинг измениться не может. По определению. Если же Альфа в эти n часов обучения периодически и довольно часто (для гладкости графика) играла с прогами для переоценки своего рейтинга, то логично предположить, что проги использовали дебютную книгу (иначе непонятно как определить рейтинг самой проги- спарринга, во всех чемпионатах проги играют с книжкой). А если так, то тезис о не использовании человеческих знаний трещит по швам. Наверняка альфа эти партии тоже перерабатывала и достижения человеческой теории вместе с ними.
Что он дает больше вопросов чем ответов. Любой кто видел формулу расчета рейтинга, знает, что у играющего с самим собой рейтинг измениться не может. Если же Альфа в эти n часов периодически и довольно часто (для гладкости графика) играла с прогами для переоценки своего рейтинга
Вы статью хоть прочитали? Там же в методах все описано.
Elo ratings were computed from the results of a 1 second per move tournament between iterations of AlphaZero during training, and also a baseline player: either Stockfish, Elmo or AlphaGo Lee respectively. The Elo rating of the baseline players was anchored to publicly available values (29).
думаю, что Альфа не прочь проиграть 2 партии, если удасться НЕ проиграть 200, скажем; из-за этих, иначе малых вероятностей сплоховать, подхода в его чистом виде нельзя полностью использовать для вождения машин, где 100% надёжность и безопасность являются обязательными
Нейросеть самостоятельно научилась играть в Супер Марио при помощи своего любопытства. Как же моделируется любопытство? Это похоже на обучение с подкреплением, только наоборот. При обучении с подкреплением система получает плюшки за правильные действия, и по попе за неправильные. А тут наоборот — чем хуже система предсказывает результат своего действия, тем чаще старается его совершать. И это внутреннее подкрепление, а не внешнее — система сама себе начисляет плюшки.
Например, нейросеть очень быстро перестала нажимать кнопку "вниз", потому что уже заранее знает, что при нажатии ничего не происходит. С кнопками "вверх" и "вправо" наоборот — все время происходит что–то новое, часто неожиданное. Она плохо предсказывает что, поэтому жмет на них снова и снова. Интересно, что она сама научилась не умирать, так как это дает больше пищи ее любопытству. Правда дальше середины первого уровня пока пройти не может, потому что там требуется очень сложная последовательность четких действий. В результате система отлично предсказывает, что в этом месте она умирает, и ей перестало быть интересным идти дальше. science.d3.ru/tri-novosti-pro-neiroseti-1452657/?sorting=rating