наш блог

Американцы представили «расистский» алгоритм, который способен воссоздать внешность человека по его голосу

Американские ученые из Массачусетского технологического института представили созданную ими ML-модель «Speech2Face», алгоритм которой по спектрограмме человеческой речи способен генерировать портреты людей. Она анализирует пол и возраст. А также акцент, что позволяет определять этническую принадлежность владельца голоса. Впрочем, из-за недоработок американскую модель ML-модель интернет-комментаторы уже успели прозвать расистской.

Эксплуатация «Speech2Face» основана на использовании информационной базы, содержащей обширный набор коротких видеороликов. Видеодорожки и их аудиоряд заранее разделен. В наборе не менее миллиона файлов, принадлежащих почти 100 000 людей.

Получая очередной видеоролик, одна часть алгоритма начинает генерировать на основе его кадров внешность человека. Портрет строится так, чтобы лицо было в анфас с абсолютно нейтральным выражением. Вторая часть алгоритма с помощью нейросети обрабатывает голос, воссоздавая особенности внешности.

Впрочем, американская разработка успешно справляется с определением пола, но не способна правильно вычислять возраст. Ее погрешность колеблется в диапазоне от семи до десяти лет. А расисткой ML-модель «Speech2Face» прозвали из-за странного перекоса. Система более-менее успешно справляется с прорисовкой внешности исключительно людей европейского и азиатского происхождения. 

В оправдание ученые Массачусетского технологического института пообещали исправить недочет, уточнив, что перекос якобы произошел из-за неравномерного распределения рас в обучающей подборке файлов.