Требуются аннотаторы для анализа эмоций. Уфф…

Наши коллеги из Neurodata Lab прислали статью, прочитать и понять которую можно лишь обложившись сверху до низу словарями и справочниками. Или став чемпионом мира по гуглению. Кто-то скажет, что сложный язык — еще не показатель качества. И будет прав. Все можно объяснить гораздо проще. Но мы решили оставить все, как есть. Пусть станет жарко котикам!

И про аннотаторов. Это такие люди, который смотрят фото и видео и ставят теги, в какой момент времени какая эмоция была. И все заносят в специальную систему. А затем на базе тегов Emotion Ai будет учиться распознавать эмоции.

Слово Игорю Левину:

инвестиционный директор венчурного фонда Envirtue Capital LLC

Игорь Левин, инвестиционный директор венчурного фонда Envirtue Capital LLC

Эмоциональные вычисления (affective computing) и системы детекции и распознавания эмоций (EDRS – Emotion detection and recognition systems) представляют собой составную и немаловажную часть глобальной индустрии больших данных и технологий искусственного интеллекта.

Речь идет о достаточно молодой суботрасли, развивающейся значительными темпами и постепенно формирующей собственную экосистему теоретических воззрений и инновационных продуктов – Emotion AI (эмоциональный искусственный интеллект). В ней к настоящему моменту уже задействованы как корпорации (Facebook, Apple, Microsoft, IBM и др.), так и частные компании – «старые» игроки, вышедшие на рынок в начале 2010-х гг. и до сих пор задающие его ритм (Affectiva, Noldus, Sightcorp).

По мнению влиятельного агентства MarketsandMarkets™, глобальный объем рынка эмоций в 2016 г. составил $6,72 млрд., и предполагается его увеличение до порядка $36,07 млрд. к началу-середине 2020-х гг., с ежегодным ростом в 39,9% и стабильным прогнозом.

Мы говорим о направлении чрезвычайно ресурсо- и наукоемком, сосредоточенном на анализе эмоций, физиологических параметров и поведенческих паттернов, причем как в статическом режиме (путем анализа изображений – фотографий, фреймов и пр.), так и динамически (аудио-видеопоток в различных его формах – от скайпа и youtube до телевизионного и сетевого контента и роликов, снимаемых на обычные камеры смартфонов).

Соответственно, чтобы собрать гигантские объемы неструктурированной, необработанной, «сырой» информации, а затем кластеризовать её, извлечь требуемые признаки (features), пригодные для обучения нейросетей и классификаторов, без обращения к краудсорсинговым инструментам и коммьюнити привлеченных дистанционных сотрудников не обойтись.

К сегодняшнему дню мы прошли две последовательные стадии:
— во-первых, собрали оффлайновые датасеты на выборке до ста человек, включая небольшой постановочный эксперимент на актерах ВГИКа (RAMAS — The Russian Acted Multimodal Affective Set), отыгравших эмоционально заточенные этюды (т.н. опыт «игровых» эмоций и симуляций). Это позволило нам проверить ряд гипотез и получить неплохие и вполне «чистые» лабораторные данные, создав крепкий фундамент для дальнейшей работы:

Студенты ВГИКа играют этюды, а искусственный интеллект пытается понять их эмоции

Студенты ВГИКа играют этюды, а искусственный интеллект пытается понять их эмоции

  • во-вторых, внимательно изучив все имеющиеся площадки для микротаскинга и обработки данных (включая широко известные платформы Amazon Mechanical Turk и Openspace) и придя к выводу о том, что их имеющийся функционал не вполне нас удовлетворяет, мы приняли решение реализовать собственный проект и создать сайт Emotion Miner. О нем стоит рассказать подробнее в оптике краудсорсинга.

Итак, что такое Emotion Miner? Это гибкая, в перспективе многофункциональная платформа, которая позволяет:

  1. Размещать аудио-видео файлы, предварительно извлеченные из доступного контента (ток-шоу, дебаты, интервью, выступления и т.д.), отсортированные, нарезанные и разбитые на короткие сцены (хронометраж — до 5 сек) штатными профессиональными аннотаторами, либо «подцеплять» более длительные оригинальные записи из сторонних каналов и источников;
  2. Осуществлять множественную разметку (multiple annotation) упомянутых видеофрагментов руками сотен и тысяч сторонних аннотаторов, каждому из которых, как правило, не только интересно принять участие в инициативе такого рода с финансовой точки зрения (участие оплачивается), но и хочется «прокачать» свои естественные навыки по распознаванию эмоций. Структурно и стилистически работа такого типа оптимально адаптируется даже не столько к привычным формам фриланса/краудсорсинга, сколько к контексту и психологии digital nomads – «цифровых кочевников» XXI века, чей повседневный труд неотделим от мобильности, причем не только физической, но и интеллектуальной.

Цель проекта на первом этапе – сбор и многоступенчатый анализ больших объемов мультимодальных данных (human data), аннотируемых по нескольким классификационным сеткам:
— базовые эмоции и сложные эмоциональные состояния;
— ментальные состояния и поведенческие паттерны и др.;
— физиология (тут требуются более изощренные механизмы, опирающиеся на технологии компьютерного зрения и машинного обучения):

В нашем проекте в роли временного аннотатора может выступить любой совершеннолетний пользователь, владеющий английским языком, при условии его соответствия критериям участия, а также условиям и правилам, изложенным в оферте, которая опубликована на сайте. Надо сказать, что география уже зарегистрированных пользователей впечатляет: тут и Россия, и Европа, и страны Северной и Южной Америки, и Азия. Мы собираем всю доступную статистику, чтобы сайт в финальной конфигурации соответствовал ожиданиям и потребностям «дистанционных сотрудников», кем бы они ни были и откуда бы к нам ни пришли. В каналах для привлечения тоже нет недостатка: от групп в Facebook и специализированных форумов до сайтов по поиску удаленной работы и точечной рекламы.

Проект предполагает эффективную модель обучения (туториалы и возможность просмотра записей целиком, их контекстуализация), тестирования (обязательный для прохождения тест на знание английского языка), выполнения участниками задач разного уровня сложности (заложена лестница тасков с усложнением от шага к шагу), что влечет за собой интерактивный контроль процессов, коммуникации с аннотаторами в режиме реального времени и отлаженный менеджмент качества (команда проекта оказывает практическую поддержку аннотаторам, у нас англоязычная support team).

Наш сайт в ПК-версии сейчас на этапе бета-тестирования, мобильная версия и приложение тоже пока остаются «под сукном» и будут представлены до конца текущего календарного года. В долгосрочном ключе (к началу 2018 г.) платформа превратится в полноценный продукт и будет применяться для решения многих иных задач в области «эмоциональных технологий и данных эмоциональной природы», в том числе для проведения онлайн-хакатонов и конкурсов, ориентированных в том числе на IT-экспертов, психологов, биологов, лингвистов и т.д. У нас довольно много идей, которые хочется воплотить в жизнь.

Разумеется, проект, интерактивный по своей сути, будет масштабироваться при наличии поддержки, активного участия и энтузиазма внешнего сообщества, разделяющего с нами важнейший постулат: общий искусственный интеллект (AGI, Artificial General Intelligence), о котором так много говорят в последние годы, едва ли состоится в полноценном виде без искусственного интеллекта эмоционального (Emotion AI), по крайней мере пока главной движущей и инициирующей силой мира повседневности, бизнеса и технологий остается человек. Homo Sentiens as is.