Alibaba совместно с научными сотрудниками трех ведущих вузов Китая создала авторскую модель для распознавания эмоций emotion2vec. Для сравнения производительности и метрик зарубежные коллеги включили в исследование и использовали сравнительный набор данных Russian dataset of emotional speech dialogues (RESD), подготовленный для открытой библиотеки Aniemore командой ООО «Социальный код».
При разработке искусственного интеллекта важно иметь наборы данных (датасеты) для сравнения производительности модели с уже существующими моделями. Для этого используются хорошо известные и проверенные датасеты, имеющие определенное качество, описание и содержание.
«Инженеры университетов Китая и Alibaba взяли RESD, как одну из метрик на которой тестировали свою разработку и определяли качество ее работы. Приятно, что для этих целей, они воспользовались именно нашей базой, не включая в тесты даже такие известные датасеты, как Dusha (Сбер). Это победа и международное признание нашей работы» – прокомментировал публикацию Артем Аментес, лидер разработки библиотеки Aniemore.
Набор данных Russian Emotional Speech Dialogues содержит более 3000 аудиофрагментов от 200 различных людей, а модель способна распознавать эмоции в зашумленных аудиофайлах длительностью до 3х секунд. В датасете также содержатся реальные диалоги высокого качества и разного эмоционального окраса. Для подготовки этих материалов «Социальный код» привлек к работе профессиональных актеров, чтобы выборка была максимально приближена к реальности.
Библиотека Aniemore разработана в 2023 году коллективом авторов на базе ООО «Социальный код» при поддержке Фонда содействия инновациям по конкурсу «КОД-ИИ».
Источник: https://www.it-world.ru/news-company/releases/213665.html