какие две темы наиболее популярны при внедрении ai ml решений
Методы и технологии, основанные на работе с данными/Вопросы тестов
Методы и технологии, основанные на работе с данными
Содержание
Что не является трендом в области ГосТех? [ править ]
вариант 1 [ править ]
Мультиканальное вовлечение граждан
Повсеместное использование аналитики
Создание множества независимых систем по учету трудовых ресурсов в каждом регионе
Цифровая идентификация граждан +
вариант 2 [ править ]
Мультиканальное вовлечение граждан
Рабочая сила в цифровом формате
Уменьшение количества использования аналитических отчетах на всех этапах государственного управления
Цифровая идентификация граждан +
вариант 3 [ править ]
Мультиканальное вовлечение граждан
Повсеместное использование аналитики
Рабочая сила в цифровом формате
Создание неизменяющегося подхода для противодействия киберугрозам
Цифровая идентификация граждан +
Какие типичные типы задач решаются с помощью NLP (Natural Language Processing, Обработка Естественного Языка)? [ править ]
Всё из перечисленного +
Что является примером временного ряда? [ править ]
вариант 1 [ править ]
История в медицинской карточке +
вариант 2 [ править ]
Стоимость биржевых инструментов +
Что важно при обработке данных при цифровой трансформации? [ править ]
вариант 1 [ править ]
Обновить техническое обеспечение компании, используя самую современную технику
Обучить всех сотрудников использовать Excel для обработки данных
Обучить всех сотрудников языкам программирования, способных запускать нейронные сети
Сильная внутренняя экспертиза команды в области подхода управления с помощью данных +
Хранить данные в бумажном виде в архиве
вариант 2 [ править ]
Обновить техническое обеспечение компании, используя самую современную технику
Обучить всех сотрудников использовать Excel для обработки данных
Обучить всех сотрудников языкам программирования, способных запускать нейронные сети
Понимать, какой информацией располагает компания, а чего не хватает +
Хранить данные в бумажном виде в архиве
вариант 3 [ править ]
Обновить техническое обеспечение компании, используя самую современную технику
Обучить всех сотрудников использовать Excel для обработки данных
Обучить всех сотрудников языкам программирования, способных запускать нейронные сети
Определить методы сбора, анализа и интерпретации результатов +
Хранить данные в бумажном виде в архиве
Что является одной из основных проблем цифровой трансформации? [ править ]
вариант 1 [ править ]
Достаточные знания и компетенции
Профицит квалифицированных кадров
вариант 2 [ править ]
Дефицит квалифицированных кадров +
Достаточные знания и компетенции
вариант 3 [ править ]
Достаточные знания и компетенции
Профицит квалифицированных кадров
Задачи, которые касаются жизни каждого гражданина, наболевшие проблемы общества и вопросы о том, как их решать это [ править ]
Задачи цифровой трансформации общества
Социально значимые задачи +
Основной независимый ресурс наборов открытых государственных данных, на котором собраны и структурированы существующие на сегодня в России наборы данных.+
Открытый ресурс, в который выгружают персональные данные граждан с целью продажи и передачи третьим лицам
В терминологии специалистов – историческое событие, после которого было открыто, что можно использовать данные в управлении процессами (продажи, менеджмент и т.д.)
Аналитическая панель, наглядное представление информации о бизнес-процессах, трендах, зависимостях и других метриках в компактном виде, которое позволяет увидеть значения конкретных показателей и динамику их изменений
Способ защиты данных с помощью визуальных решений
Основные функции сбора данных включают [ править ]
Создание информационных систем, создание отчетов, обеспечение финансирования
Накопление данных, анализ данных, первичную обработку данных
Поиск источников данных, извлечение данных, преобразование данных +
Постановку и решение задач, построение графиков, визуализацию
Поиск аномалий, классификацию, восстановление регрессии
Что такое искусственные нейронные сети? [ править ]
Математическая модель, построенная по принципу сигнальной системы живых организмов.
Приложения, помогающие обучаться, создавать образы и обобщать информацию.
Математическая модель, построенная по принципу организации колоний общественных насекомых.
Всемирная система объединённых компьютерных сетей для хранения, обработки и передачи информации
Математическая модель, а также её программное или аппаратное воплощение, построенная по принципу организации и функционирования биологических нейронных сетей — сетей нервных клеток живого организма. +
Что является ключевым показателем города при построении модели цифрового двойника города? [ править ]
Что такое суперсервисы? [ править ]
Мобильные приложения крупных компаний
Платформы, которые охватывают все сферы жизни человека и помогают ему получать услуги от бизнеса и государства дистанционно +
Сайты органов государственной власти
Сервисы, запущенные на современных суперкомпьютерах.
Платформы, построенные по принципу организации и функционирования биологических нейронных сетей — сетей нервных клеток живого организма.
В чем отличия и связь «Искусственного интеллекта» и «Машинного обучения»? [ править ]
Машинное обучение – одно из направлений Искусственного Интеллекта. Данное направление состоит из методов, которые позволяют делать выводы на основе данных.
Искусственный интеллект – одно из направлений Машинного Обучения. Данное направление занимается имитированием поведения человека.
Искусственный Интеллект и Машинное Обучение – это направления Глубокого обучения нейронных сетей.
Искусственный Интеллект занимается задачами имитации деятельности мозга человека. Машинное обучение – это процесс, в ходе которого обучается Искусственный Интеллект. +
Существует ли в России аналог «закона о забвении» США (закон, позволяющий гражданам настаивать на удалении своих персональных данных из сети). [ править ]
Существует и позволяет удалять из сети любые персональные данные
Не существует, но законопроект находится в стадии обсуждения
Существует, но распространяется только на данные в поисковых системах +
RAIF-Challenge 2017: онлайн-чемпионат по искусственному интеллекту. Применяем ML/AI на практике
• работа с реальными данными крупных российских компаний
• отраслевое разнообразие и возможность выбора от 1 до 3 номинаций:
1) AI в банках
2) AI в ритейле
3) AI в страховании
• свобода в определении бизнес-задачи и ее решении — организатор не ставит жестких ограничений
• опытные наставники, они же члены Экспертного жюри
• денежное вознаграждение 350 000 рублей для каждой из трех команд-победителей
• возможность дальнейшей реализации своих наработок в реальных проектах для крупного бизнеса
Банк накапливает информацию об активности клиентов и регулярно проводит мероприятия по привлечению новых и удержанию действующих клиентов. Участникам конкурса предлагается сфокусироваться на второй задаче: удержании действующих клиентов, а именно, на борьбе с оттоком. На основании данных о клиентах, их договорах, картах и активности необходимо:
Интеллектуальные CPaaS: новинки индустрии и что ей дали AI/ML
Успех CPaaS
CPaaS – это быстрорастущий бизнес. Почему? У успеха концепции CPaaS есть несколько причин.
Во-первых, расцвет CPaaS случился во многом благодаря расцвету «нового энтерпрайза» – когда свою жизнеспособность доказали компании вроде Uber и Lyft, всем вдруг стало понятно, что все эти вчерашние стартапы используют облачные коммуникационные платформы. Когда рынок начал это понимать, спрос на CPaaS стал расти, так как облачные решения позволяют собирать на своей основе готовые «коробочные решения» очень быстро, чтобы начинать зарабатывать деньги.
Во-вторых, надо помнить, что CPaaS-платформы всегда были нацелены на разработчиков. А у каждого современного стартапа всегда есть разработчики, для которых не составляет труда использовать CPaaS.
В-третьих, облака – есть облака, что означает доступность к сервису по всему миру, масштабируемость и увеличение мощностей по запросу. И все это без головной боли для того, кто использует CPaaS.
И, наконец, большинство платформ предлагают принцип оплаты pay-as-you-go, когда надо платить только за то, что используешь: есть распознавание речи и перевод ее в текст – эти функции биллятся, а нет распознавания – ну, вы поняли. Это весьма гибко и прозрачно.
Новое в индустрии
Тут первым делом надо упомянуть про Serverless, который поднял удобство CPaaS на новый уровень. Однажды мы уже подробно писали на эту тему, сейчас же ограничимся главным тезисом: Serverless означает не отсутствие серверов вообще, а их отсутствие на стороне клиента. С точки зрения используемых вычислительных ресурсов это такой же pay-as-you-go, потому что плата взимается сообразно нагрузке на computing provider’а. Другой важный момент serverless – это то, что клиентам можно давать доступ к райнтайму платформы, а это ведет к снижению задержек и увеличению надежности.
Другой тренд – WYSIWYG-редакторы. Это один из шагов навстречу бизнес-аудитории, которая (чаще всего) не умеет кодить, но при этом может собрать логику бота/колл-центра в визуальном редакторе. Подходы к реализации немного разнятся (см. Smartcalls от Voximplant, Studio от Twilio, FlowBuilder от MessageBird и т.д.), но суть схожая – пользователь использует не код, а визуальные блоки, варьируя их расположение и связи между ними. Кстати, некоторые такие редакторы все же позволяют использовать код в качестве продвинутой возможности, например, наш Smartcalls, но уже немного другая история.
Наконец, облачные IDE. Конечно, пока они едва ли могут сравниться с условной IDEA, но вот с VS Code – легко. Если CPaaS дает разработчику мощный инструмент для работы с кодом, то такой разработчик будет, скорее всего, очень доволен. Нормальный отладчик, умный автокомплит, подсветка кода, кастомные стили, вкладки и т.д. – когда это есть в веб-интерфейсе и быстро работает, то платформа получает дополнительные очки в карму за свою гибкость.
Но наша радость была бы не полной…
… если бы не AI. Машинное обучение дает новые степени свободы коммуникационным платформам, а именно:
Распознавание
Распознавание и синтез речи – кто-то разрабатывает их самостоятельно, но это весьма трудоемко. Можно обратиться за этим к крупным игрокам вроде Google, Amazon, Яндекс – их модели уже очень хорошо распознают человеческую речь, равно как и имитируют ее (кивок в сторону WaveNet).
Автоматизация NLU/NLP
Natural Language Understanding (Processing) – обработка естественного языка – сейчас самая горячая тема в мире коммуникаций. И если бизнес-решение опирается на NLU, то, как вариант, там происходит синтез речи, потом человек что-то отвечает, его речь транслитерируется, этот текст отдается обратно роботу и он, чтобы среагировать, подбирает текст ответа, которые опять-таки надо синтезировать. Звучит не как rocket science, но все же здесь разумно использовать автоматизацию – Google Dialogflow, IBM Watson, Amazon Lex и пр.
Усиление операторов
Когда оператор колл-центра общается с клиентом, можно фоново анализировать речь и давать оператору дополнительную информацию, чтобы он не тратил свое время. Например, клиент может спросить, где ближайший банкомат – система распознает вопрос и выведет ответ на экран оператора; последний просто зачитает ответ, вместо того чтобы просить клиента подождать.
Анализ эмоций
В этом заинтересованы примерно все, но это самое трудное направление в CPaaS на данный момент, потому что люди склонны подавать одну и ту же информацию по-разному, а также довольно часто использовать культурные отсылки в речи. Сейчас многие компании анализируют эмоции, используя текст. Сейчас существуют решения в этом направлении, но нельзя сказать, чтобы они были удачными, так как на анализе только лишь текста далеко не уедешь; очевидно, что эмоции – это не только ЧТО именно сказано, но и КАК. Поэтому убедительный анализ эмоций в реальном времени – это вопрос (ближайшего?) будущего.
Улучшение аудио/видео
Все знают про noise reduction – когда вы говорите по телефону, обученная модель «убирает» фоновые шумы, чтобы собеседник слышал только вас. Иногда при этом страдает голос самого говорящего, так как модели не всегда могут успешно различать, какие частоты относятся к фону, а какие – к голосу. Но в целом это работает уже довольно хорошо. Говоря о картинке, мы знаем, как современные смартфоны делают боке (размывают фон) с помощью AI. Такой подход, но уже в рамках видеозвонков тоже будет востребован – представьте, что вам не надо искать идеальный фон, потому что AI размоет любое окружение за вашей спиной. Хотя почему «представьте» – Skype уже имеет такую функциональность.
Анализ видео
Анализ видеопотока либо видеозаписей помогает понять, что находится в кадре. Пока что это весьма ресурсоемкая задача, поэтому сегодня с ней лучше всех справляются те, у кого очень много вычислительных мощностей – Google, Microsoft и другие крупные игроки.
Аналитика звонков
Сюда относится не только классификация и сегментация данных. Представьте, что у вас есть десятки тысяч записей звонков, и их можно перевести в текст, а потом делать по нему поиск. Но гораздо эффективнее, если AI пройдется по этим записям и распределит их на группы (это звонки о продажах, а это – гарантийные), выявит, где оператор колл-центра вел себя корректно, а где – не очень (плюс можно выявить, как именно вел себя человек, каковы были эмоции), здесь клиент спрашивал только про покупку автомобиля, а здесь – и про автомобиль, и про страховку, и про тест драйв. Можно выудить сколько угодно информации из такого массива данных с помощью machine learning.
Определение автоответчика
Особый случай, но тоже является хорошим примером: в своей платформе мы реализовали определение автоответчика. Сейчас платформа умеет распознавать автоответчики на русском языке – мы обучили модель на множестве звонков, теперь она умеет отличать живого человека от записанного сообщения. Обычные способы определения не очень эффективны (например, по звуковому сигналу), но AI помог нам добиться точности до 99%, при этом на распознавание уходит всего 2 секунды.
Трудности
Машинное обучение требует много ресурсов. И речь не только про вычислительные мощности, но и про людей со специальными навыками – data scientists, которые создают и настраивают модели обучения, а также знают, какие данные нужны. Таких людей непросто найти и их труд дорого стоит. Также на них большой спрос среди крупных игроков, а конкурировать с условным Google в плане найма – это тяжко, хотя и возможно. Поэтому вместо соперничества лучше выбрать сотрудничество с гигантами – большинство CPaaS-игроков используют наработки крупных компаний, и это нормально. С другой стороны, это приводит к тому, что гигант-партнер управляет расходами других игроков – устанавливает/меняет расценки на распознавание и синтез речи (вспоминаем WaveNet от Google). То есть, если вы пользуетесь решениями гиганта, а он вдруг решает изменить расценки, то вы вынуждены сделать то же самое, что может не очень обрадовать ваших пользователей. Добавим сюда то, что вы будете отправлять данные этому гиганту – для некоторых бизнесов это проблема. Однако всегда можно не зависеть только от одного партнера, пользоваться решениями нескольких гигантов со схожей функциональностью. Наконец, такое сотрудничество удобно и выгодно для CPaaS-игроков.
Вместо заключения
Грядут новые технологии, которые повлияют на коммуникации так же, как в свое время повлиял WebRTC – это 5G и AV1.
5G призван воплотить в жизнь принцип «всегда онлайн» – это конечная цель, но ясно, что это случится не в один день. С приходом этой технологии у CPaaS появится больше возможностей, потому что даже те, кто раньше не пользовался мобильной передачей данных, начнут это делать. Инфраструктура коммуникаций изменится, а вместе с ней изменятся и привычные телекоммуникационные бизнесы.
Видеокодек AV1 тоже будет полезен для CPaaS, так как он бесплатен, а значит не надо будет заботиться о лицензиях. Бесплатный кодек, который эффективнее чем H.265 и будет доступен всем, тоже изменит мир коммуникаций.
Будущее происходит на наших глазах, и Voximplant не только следит за происходящим, но и участвует в этом процессе.
Задачи и инструменты ML и их практическое применение
Машинное обучение – распространившийся термин, но не все понимают его верно. В этом материале эксперты направления аналитических решений ГК «КОРУС Консалтинг» Алена Гайбатова и Екатерина Степанова расскажут, что же на самом деле такое machine learning (ML), в каких случаях эту технологию стоит использовать в проектах, а также где машинное обучение активно применяется на практике.
Как работают с данными
Уже давно на встречах с заказчиками мы стали замечать, что все путают машинное обучение, искусственный интеллект (ИИ), большие данные и другие термины из этой области.
Итак, общее название технологии – искусственный интеллект. Он бывает двух типов – сильный (он же общий) и слабый. Мы не будем особенно обсуждать сильный ИИ, так как это решения уровня Терминатора. Мы к нему потихонечку приближаемся, но до сих пор он существует только в виде собранных вместе фрагментов слабого ИИ (как, например, в «умных» колонках).
Намного интереснее поговорить о слабом искусственном интеллекте. Он тоже делится на два типа. Первый – экспертные системы, алгоритмы, запрограммированные вручную (например, запрограммированный группой лингвистом алгоритм перевода слов из одного языка в другой).
Второй – так называемые data-driven системы, которые извлекают логику работы из каких-то исторических данных. У этого типа есть много терминов-синонимов, которые возникали с течением времени:
модные в 90-е и нулевые data mining и knowledge discovery from database (KDD),
data science, вошедший в обиход ближе к 2010-м,
big data популярная ныне. Единственное исключение, точнее дополнение, которое привносит именно этот термин – наличие огромного количества сложноструктурированных данных.
Для разных задач – разные алгоритмы
В соответствии с двумя типами слабого ИИ выводы из данных мы можем сделать вручную (при экспертных системах) и с помощью машинного обучения. Оно же в свою очередь подразделяется на два типа: классический ML и deep learning (с использованием глубоких нейронных сетей с большим количеством слоев).
В проектах на базе ML используются модели. Прежде всего, прогнозные, которые отвечают на базовые вопросы: к какой группе относится объект, какое числовое значение у него будет и так далее. В зависимости от того, на какой вопрос мы отвечаем, это могут быть модель классификатора или регресcии.
Классификаторы
Классификатор — это процесс, позволяющий сказать, к какой группе будет относиться тот или иной объект. Например, у кошек есть разные характеристики: длина хвоста, цвет шерсти, масса тела и другие параметры. По ним мы можем определить, к какой породе относится кошка. Если мы решаем эту задачу с помощью алгоритма, то этот алгоритм будет называться классификатором.
Алгоритм, часто применяемый для классификации — дерево принятия решений. Если мы хотим построить дерево условий для распределения котов по породам, на моменте обучения алгоритм строит дерево условий, задавая первый вопрос.
Рыжая ли у кота шерсть? Да: мы относим его сразу к классу персидских котов, все персидские коты оказываются в одной ветке. Нет: у нас возникает следующее условие — весит ли кот меньше 3 кг. Дерево условий создается в момент обучения алгоритма, а все новые элементы проходят по нему и оказываться в той или иной группе.
Этот алгоритм удобен с точки зрения бизнес-интерпретации результатов, так как мы не всегда можем сразу определить, по каким свойствам у нас разделились группы.
Регрессоры
Регрессор – это алгоритм, который не относит предмет исследования к определенному классу, а присваивает ему определенное число. Пример — алгоритм кредитного скоринга: у нас есть возраст заемщика, трудовой стаж, зарплата — и требуется рассчитать, через какое время клиент сможет выплатить кредит.
Кластеризация
Кластеризация отвечает на вопросы о том, как разбить исследуемые объекты на группы и чем объекты внутри одной группы похожи.
Самый популярный алгоритм кластеризации – метод ближайших соседей. Cнова к кошкам. Мы хотим разбить наших зверей на 4 группы. Наши объекты – снова точки на плоскости. Мы выбираем случайным образом центры наших групп, затем смотрим расстояние от центра группы до точек, ближайших к этому центру группы. После мы смещаем центры таким образом, чтобы расстояние до точек своей группы оказывалось меньше, чем до точек другой группы. Через нескольких итераций у нас получатся хорошо разделенные группы.
Cложность этого алгоритма заключается в том, что объекты не всегда хорошо делятся на группы — в связи с этим трудно оценить корректность результата даже с помощью специальной оценки.
Нейронные сети
Первая нейронная сеть появилась еще в 1950-х гг. Сейчас при помощи нейронных сетей можно ответить на любой вопрос, но лишь с одной оговоркой: ответ не всегда можно интерпретировать.
При работе с нейросетью на вход подается большой объем данных в виде числовых значений, у каждого из которых есть определенный вес. Мы суммируем эти значения и к этой сумме применяем операцию активации, после этого получаем некий прогноз. Так как нейросети используют большое количество скрытых слоев, операции активаций и сумм может быть много. В связи с тем, что этим алгоритмом можно обрабатывать большие объемы данных, модель хорошо работает с текстом, изображением и звуком.
Дополнительно в проектах ML используются оптимизационные методы для минимизации ошибок. В условиях ограничений они стараются найти лучшее решение задачи с помощью нахождения экстремумов функции и применения статистических методов.
Обучение с подкреплением
Это и есть тот самый сильный искусственный интеллект, о котором мы уже говорили выше. К примеру, по этому принципу работают беспилотные автомобили.
Система состоит из агента и среды. Для агента задано конечное число операций (на примере машины – максимальная скорость, торможение, поворот направо или налево и так далее). После совершения действия агент получает либо вознаграждение, если его действие приводит к правильному выполнению задачи, либо наказание, если действие, наоборот, отдаляет его от выполнения задания.
Мы также пользуемся алгоритмами Uplift, нейролингвистического программирования и рекомендательными моделями. Uplift позволяет понять, нужно ли коммуницировать с объектом, НЛП использует алгоритмы для анализа текста (к примеру, на этом принципе работает функция подсказки слов в смартфоне), а рекмодели могут быть персонализированными и не персонализированными.
Теория – на практике
Посмотрим, как эти модели используются на для решения реальных задач. Мы сформулировали предпосылки для использования ML в проектах. Безусловно, они не гарантируют стопроцентного успеха, но на старте могут значительно снизить риски.
Экономический эффект, который может принести оптимизация бизнес-процесса в несколько процентов;
Регулярный технический или бизнесовый процесс, при оптимизации которого регулярное принятие решений на среднем уровне и/или действия по заданному алгоритму могут значительно улучшиться;
Наличие данных, при которых может быть осуществлена оптимизация, за счет их анализа и обработки.
Одна из самых успешных отраслей в плане применения машинного обучения – это розничная торговля. Cвязано это с тем, что в ней много регулярных процессов
Например, категорийные менеджеры ежедневно занимаются управлением ассортиментом, промоакциями, ценообразованием, прогнозированием спроса, управлением логистикой. Оптимизация на доли процентов даже одного такого бизнес-процесса в масштабе торговой сети приобретает существенный эффект.
Задачи, которые решает ML в ритейле, включают в себя предсказание оттока клиентов, анализ продуктовых корзин, прогнозирование товаров в следующем чеке, распознавание ценников и товаров, прогноз закупок и спроса, оптимизация закупок и логистики, планирование промо, цен и ассортимента — или это лишь малая часть.
Ритейл не испытывает недостатка как в наличия разных данных, так и в их глубине истории. У ритейлеров есть история продаж, статистика поведения клиентов, история промоакций, исторический ассортимент, параметры товаров и магазинов, изображения ценников и товаров, история доставок и поступления товаров и многое другое. Оцифровка всего этого, чаще всего, не требуется.
Похуже с данными в сфере промышленности — хотя и там они есть. Это и исторические данные с датчиков о производительности, поломках, работе бригад, данные по расходу и поставкам сырья, отгрузкам и доставкам. Для производств каждый процент простоя – это существенные потери, поэтому именно способы его сокращения, как и сокращение запасов, становятся основными задачами для оптимизации. Поэтому в числе главных задач для ML здесь — предсказание поломок оборудования, маркировка похожих поломок, выявление закономерностей поломок, выявление факторов на снижения производительности, оптимизация расхода сырья в производстве, оптимизация заказов и времени поставок сырья, прогноз скорости доставки.
Еще две отрасли, в которых распространены проекты на базе искусственного интеллекта, это банки и телекоммуникации. Это и управление клиентскими рисками (кредитный скоринг), и оптимизация регулярных рассылок клиентам. Задачи, стоящие в этих проектах, разношерстны – от предсказания оттока клиентов до маркировки клиентов, от кросс-сейл кредитов и депозитов до предсказания крупных транзакций.
Cреди данных, которыми обладают подобные компании, статистика по поведению клиентов, их реакция на прошлую коммуникацию, история получения и возвратов кредитов, анкеты клиентов, параметры сотрудников, история эффективности работы персонала и другое.
Количество примеров проектов, реализуемых на базе машинного обучения, множество, и успешные кейсы будут появляться все чаще. Но главное усвоить базовые знания о том, что в действительности используют специалисты по машинному обучению, и заранее просчитать, будет ли от вашего будущего ML-проекта бизнес-эффект.
В настоящее время крупные компании вкладывают большие средства в машинное обучение, потому что данная технология не только окупается, но и помогает найти новые подходы к реализации рутинных задач. Действительно, ИИ занимает все более значимое место на рынке, но это не значит, что машины нас заменят. Мы успешно расширяем наши способности за счет машин, именно для этого и существует машинное обучение.