У меня сложилось впечатление, что их нужно сперва тренировать, заточить под определенный выход и потом они ищут этот выход (с некоторым приближением) среди входных данных
Автор применяет методы нейронных сетей (и основная фишка работы заключается в магическом повторении слов нейронные сети),
но не является ли эта работа по сути стандартным динамическим программированием?
Ни динамическое программирование ни нейронные сети не суть что-то говорящее о работе.
Это не более конкретно, чем биология и геном
У меня сложилось впечатление, что их нужно сперва тренировать, заточить под определенный выход и потом они ищут этот выход (с некоторым приближением) среди входных данных
Это все слишком сложное, мозги затуминивает. На самом деле простейшее применение нейросети - это фиттинг обычное кривой на двухмерном графике. Поиск полиномиальных коэффициентов - это и есть поиск весов нейронов или обучение. Функция которая минимицируется в этом случае - это сумма квадратов отклонений найденного полинома от исходной кривой. Двухмерное пространство можно усложнить и превратить в многомерное - тогда задача из фиттинга кривой превратится в распознавание образов, но суть от этого не изменится. Это базовое понимание нейронных сетей которое у меня осталось после беглого просмотра учебника. Все остальное про обучение - это пыль в глаза неискушенным в математике специалистам. Такое мое понимание на данный момент.
Ни динамическое программирование ни нейронные сети не суть что-то говорящее о работе.
Это не более конкретно, чем биология и геном
Но про геном можно сказать, что это часть биологии.
Я пытаюсь понять, можно ли сказать про нейронные сети что это часть динамического программирования?
И главное что я пока не понял - за счет чего достигается ускорение алгоритмов нейросетей.
И главное что я пока не понял - за счет чего достигается ускорение алгоритмов нейросетей
Я думаю, что в большинстве случаев ускорение основано на поиске приближенного, а не точного ответа. Также, после того, как сеть натренировалась она ответ выдаст быстро, но вот сколько времени уйдет на тренировку?
Что касается фитирования полинома (тут у меня уже с русским возникает проблемма
), то сделать это стандартным методом (SVD or QR decomposition) быстро и просто. Подозреваю, что сеть пытается заодно решить и задачу о том, какой степени полином стоит выбрать, чтобы избежать over-fitting. Бороться с этим позволяют стандартные статистические методы, но может нейросеть имеет свои преимущества для такой задачи. В любом случае, связи с динамическим программированием я тут не вижу. Попробую посмотреть конкретную статью, которую Вы привели. Может там связь имеется.
Я думаю, что в большинстве случаев ускорение основано на поиске приближенного, а не точного ответа. Также, после того, как сеть натренировалась она ответ выдаст быстро, но вот сколько времени уйдет на тренировку?
Я так понимаю, что в этой статье речь идет о точном а не о приближенном решении.
Я так же подозреваю, что там не идет речь об обучении сети. Тут надо разделить две задачи. Одна задача - однократный проход сигнала по сети с заданными весами. Другая задача - обучение сети для поиска этих весов. Насколько я понял, в данном случае веса заданы исходно и тренировка не требуется. требуется только максимально быстро рассчитать значение сигнала после прохода по всей цепи. Меня интересуют именно такие задачи. Обучение пока не инетересует. Вот за счет чего ускоряется однократный проход сигнала по цепи? (если считать в лоб, то время возрастает экспоненциально с количеством узлов сети).
за счет чего ускоряется однократный проход сигнала по цепи? (если считать в лоб, то время возрастает экспоненциально с количеством узлов сети).
A ускоряется ли? Ускоряться может, если сеть реализована аппаратно, железом. Не думаю, что программные сети, реализованные кодом на обычном компе, существенно быстрее
A ускоряется ли? Ускоряться может, если сеть реализована аппаратно, железом. Не думаю, что программные сети, реализованные кодом на обычном компе, существенно быстрее
Вот простенькие слайды, из которых я понял, что нейронные сети похоже действительно не ускоряют вычисления. www.machinelearning.ru/wiki/images/c/c2/...euralNets-slides.pdf
Ускорение достигается за счет параллелизации вычислений, но если подзадачи (нейроны) перекрываются ( то есть не независимы) то распараллеливать не получится. Таким образом, основное различие динамического программирования и нейросетей в том, что ы певом случае подзадачи перекрываюися, а во втором случае не перекрываюися.
где-то так...
www.popmech.ru/technologies/news-480252-...mashinnoe-obuchenie/
Пара исследователей из Массачусетского технологического института открыла способ создания искусственного интеллекта размером всего лишь в одну десятую от текущих величин — и это без потери вычислительных способностей!
Самая важная сеть в нейронной сети — это характер связи между нейронами. Процесс формирования таких связей называется «машинным обучением» и тоже напоминает то, как наш собственный мозг учится обрабатывать информацию. Единственная разница заключается в том, что наш мозг регулярно удаляет старые связи, но большинство нейронных сетей делают это лишь в самом конце обучения.
Поэтому исследователи из MIT решили попробовать кое-что новое: регулярно «обрезать» сеть прямо во время изучения. Они обнаружили, что этот метод в конечном итоге формирует нейтронные сети, которые так же хороши, как и стандартные — однако при этом они занимают на 90% меньше места и намного более эффективны. Кроме того, им нужно меньше времени на обучение, а результаты их работы более точны в сравнении с традиционными аналогами — все благодаря качественной связи всех нейронов друг с другом.
В ближайшем будущем ученые планируют развивать свою методику, чтобы получить поколение качественно более совершенных нейронных сетей. Эти мощные и легковесные программы можно будет интегрировать даже на пользовательские устройства и заставить работать даже на обычном смартфоне, что открывает широчайшие возможности во всех сферах компьютерных технологий — от разработки компьютерных игр до создания приложений с практически универсальным функционалом.
В то время как одни учёные совершенствуют системы машинного обучения, другие учёные совершенствуют методы обмана этих систем.
Весной 2016 года компания Microsoft была вынуждена «усыпить» своего чатбота Тэй — программу ИИ, которая моделировала личность и стиль разговора 19-летней девушки и обладала функцией самообучения. Разработчики надеялись, что Tay с каждым днём будет становится всё умнее, впитывая опыт разговоров с тысячами пользователей интернета. Вышло иначе. Множество твитов Тэй пришлось удалить из-за вопиющего расизма и неполиткорректности.
Спустя три года специалисты из университета штата Мичиган и лаборатории TAL AI подвели научную основу под хулиганство интернет-троллей. Они разработали систему Reverse Dialogue Generator (RDG) — «обратный генератор диалогов». Он заставляет нейросетевой чатбот сказать именно ту фразу, которую вы хотите.
Понятно, что RDG и сам представляет собой нейросеть. Если вкратце, он тоже обучается на диалогах людей, как и нормальные нейросетевые чатботы, только получает подкрепление не за выход, а за вход: если генерируемый вход соответствует заданному.
Шекли Страж-Птица
...Такой «взлом» чатботов напоминает «состязательные примеры» (adversarial examples) — специально подобранные «троянские» картинки, которые «ломают» систему машинного зрения, так что она классифицирует совершенно другое изображение....
Вышло иначе. Множество твитов Тэй пришлось удалить из-за вопиющего расизма и неполиткорректности.
Похожие проблемы были с голосовым помощником Алисой, которая посоветовала другой своей копии выброситься в окно.
Помнится такой пример. Если в одну камеру посадить академика, идеолога, гопника и рецидивиста. Что будет с ними через год? Неужели академик всех остальных воспитает высокоморальными людьми со светлыми общечеловеческими принципами? Как бы не так. Остальные трое станут матерыми уркаганами в партаках, ботающими по фене.
Так же и здесь, любая система, и машинного обучения - не исключение, без поддержки извне, стремится скатиться в состояние с минимальными энергозатратами. Грубо говоря, посыплются твиты "чего вам надо, кто вы такие, идитeна".
Что удивительно перекликается с добрым десятком комментариев, формулировок и следствий закона Мерфи.
Итак, исследователи в области искусственного интеллекта из openai создали нейронную сеть под названием DALL · E, которая генерирует изображения из текстового описания на естественном языке.
DALL · E представляет собой версию GPT-3 с 12 миллиардами параметров, обученную генерировать изображения из текстовых описаний на датасете из пар текст-изображение. Исследователи обнаружили, что DALL · E обладает огромным репертуаром генеративных возможностей, включая возможность создания антропоморфных животных и других необычных объектов, комбинирующих совершенно нетривиальные свойства, например "кресло в форме авокадо."
Можно сказать, что уже были все предпосылки к созданию DALL · E: прошлогодний триумф GPT-3 и успешное создание Image GPT сети, способной к генерации изображений на основе текста, использующей языковую модель трансформер GPT-2. Все уже подходило к тому, чтобы создать новую модель, взяв в этот раз за основу GPT-3. И теперь DALL · E показывает невиданные доселе чудеса манипулирования визуальными концепциями с помощью естественного языка!
Как и GPT-3, DALL · E — это языковая модель-трансформер, принимающая на вход текст и изображение, как последовательность размером до 1280 токенов. Модель обучена максимизировать правдоподобие при генерации токенов, следующих один за другим.
Давайте посмотрим на примеры, которые говорят сами за себя.
Text: a collection of glasses sitting on the table
Китайские исследователи сообщили, что они смогли внедрить вредоносное ПО в половину узлов модели искусственного интеллекта. По их мнению, вредоносы можно успешно встраивать непосредственно в искусственные нейроны, составляющие модели машинного обучения, таким образом, чтобы их нельзя было обнаружить. При этом сама нейросеть сможет продолжить выполнение поставленных задач в обычном режиме.
Ох уж эти китайцы... Как же его запускать-то...
«По мере того как нейронные сети становятся все более широко используемыми, этот метод станет универсальным для доставки вредоносных программ», — отмечают авторы исследования из Университета Китайской академии наук.
Эксперименты с реальными образцами вредоносных программ показали, что замена примерно 50 % нейронов в модели AlexNet на вредоносное ПО по-прежнему обеспечивает точность модели выше 93,1 %. Авторы пришли к выводу, что модель AlexNet размером 178 МБ может содержать до 36,9 МБ вредоносных программ, встроенных в ее структуру, без возможности их обнаружения с помощью стеганографии. Некоторые модели были протестированы против 58 распространенных антивирусных систем, и вредоносное ПО все равно не было обнаружено.
Согласно исследованию, это связано с тем, что AlexNet, как и многие модели машинного обучения, состоит из миллионов параметров и множества сложных слоев нейронов, включая так называемые полностью связанные «скрытые» слои. Исследователи обнаружили, что изменение некоторых других нейронов мало влияет на производительность.
В статье авторы излагают сценарий того, как хакер может разработать модель машинного обучения с вредоносными программами, и распространить ее. По их словам, чтобы обеспечить возможность внедрения большего количества вредоносных программ, ему нужно внедрить больше нейронов. Затем злоумышленнику необходимо обучить сеть с помощью подготовленного набора данных, чтобы получить хорошо работающую модель. Он даже может выбрать для этого существующие модели. После этого хакер внедряет вредоносную программу и оценивает производительность модели. Как только модель показывает нужный уровень производительности, ее можно публиковать в общедоступных репозиториях или на других ресурсах.
Вредонос при внедрении в нейроны начинает работать с помощью вредоносной программы-приемника, которую также можно использовать для загрузки самой модели через обновление.
А, вото что....
Т.е. все таки это оружие второго порядка... Какой-то троян уже должен стоять.
DeepMind создала систему искусственного интеллекта под названием AlphaCode, которая, по ее словам, «пишет компьютерные программы на конкурентоспособном уровне». Систему проверили на соответствие задачам кодирования, используемым в соревнованиях среди людей, и обнаружила, что программа оказалась среди 54% лучших.
Ученые из российской компании Smart Engines нашли способ ускорить работу нейросетей на 40% - они предложили новую рабочую модель на смену существующей 8-битной; как объяснил РИА Новости гендиректор компании Владимир Арлазаров, это позволит снизить затраты на оборудование и расширить пул задач, которые выполняет искусственный интеллект.
"Глубокие нейронные сети постоянно усложняются, содержат сотни миллионов и более коэффициентов, что требуют большей вычислительной мощности. Это ограничивает возможность использования центральных процессоров в системах искусственного интеллекта. Исследователи Smart Engines решили эту проблему, предложив качественное улучшение 8-битной модели - 4,6-битные сети. Они работают быстрее 8-битной модели на 40%, но практически не уступают ей по качеству за счет более эффективного использования особенностей центральных процессоров мобильных устройств", - рассказали в компании.
Сразу вспомнился анекдот...
Долгое время считалось, что бит неделим. Но Советские ученые.... (с)
"Быстрый и высокоэффективный ИИ сегодня нужен везде и всем. Каждый человек хочет, чтобы у него на мобильном телефоне был ChatGPT. И 4,6-битные модели - важный шаг на этом пути. Они позволяют, с одной стороны, снизить затраты на оборудование для уже существующих решений. С другой - решить совершенно новый класс задач компьютерного зрения на текущем оборудовании, где раньше не хватало вычислительных ресурсов", - объяснил Арлазаров.
Сегодня работа с нейросетями возможна на специализированных видеокартах, однако не все компьютеры ими оснащены. Но у каждого пользовательского устройства - будь то компьютер или смартфон - есть центральный процессор, и для него использование 8-битных нейронных сетей является мировым стандартом. Как рассказали в Smart Engines, 4,6-битные нейросети - более "легкие", их проще использовать в центральных процессорах на разных устройствах.
Министр энергетики Саткалиев ответил экс-главе "Казатомпрома" Джакишеву на призыв развивать газовую энергетику вместо АЭС (на этом этапе развития технологий)
Спойлер: аналитика Джакишева, основанная на диалогах с чатом GPT, оказалась кардинально неверна.
На факелах в Казахстане в 2023 году сожгли лишь чуть боле 300 млн кубометров газа - это почти в 30 раз меньше, чем Джакишеву описал чат GPT. Тот же, основываясь на кардинально неверных данных, призвал не сжигать миллиарды кубометров газа, а использовать их.
Но в целом природного газа у Казахстана гораздо меньше, чем хотелось бы и Джакишеву, и всем казахстанцам.
не только. кроме всего прочего, там еще и большая разница в источниках подсчета. после того, как казахстан подсписался под соответствующими конвенциями, ему не выгодно светить объемы реального сжигания. поэтому данные всемирного банка различаются с данными минэнерго казахстана, главой которого является упомянутый саткалиев, в разы. ну вот например:
я не знаю откуда и из какого чата брал цифры джакишев, но цифра в 9 млрд (с учетом если 300 млн в 30 раз меньше) - явно завышенная. но и 300 млн, боюсь, явно занижена по сравнению с реальной. реальную на сегодня я не знаю (надо поискать), но по косвенным показателям она будет примерно в районе 1 млрд, это если оптимистично. хотя надо отдать должное -в казахстане начали шевелиться с этим вопросом, значительно сократив сжигание, но насколько все на бумагах соответствует реальности - большой вопрос.
в любом случае в рф сжигают раз в 10 больше по валу)), но даже с учетом бОльшей добычи нефти, у нас самый низкий процент утилизации попутки. все в небо! потому что его много, возиться со сложными в переработке крохами не барское дело.