Потерять слух в детстве и найти работу в Google: история советского математика

Дмитрий Каневский с детства преодолевает обстоятельства. Несмотря на потерю слуха он научился читать по губам и ходил в обычную школу. В старших классах мальчик увлекся математикой — точная наука нравилась ему тем, что оставляла наедине с решаемой проблемой. Это мотивировало юношу поступить в МГУ в 1969 году, а позднее стать кандидатом наук.

В университете Дмитрий встретил будущую жену и переехал за ней в Израиль. Там он столкнулся с новой проблемой: понимать иврит по губам было гораздо труднее. Тогда математик разработал аппарат, который конвертировал звуки в вибрации так, что их можно было чувствовать кожей. Местный врач оценил изобретение, и они открыли компанию SensorAid.

kanevskiy
Фото: IBM

Аппарат получил популярность, потому что превосходил схожую разработку Cohler: устройство Каневского стоило значительно меньше 25 тысяч долларов и не требовало хирургической операции — оно легко скрывалось под одеждой. Со временем права на изобретение выкупила американская компания Spectro, а Каневский перешел на работу в IBM.

В Америке Дмитрий сфокусировался на проблеме распознавания речи у людей с особенностями слуха. Он создал алгоритм оцифровки звука в последовательность чисел, который обрабатывает около 50 миллионов переменных, и усовершенствовал технологию распознавания. После появления массового интернета Каневский запустил первые онлайн-сервисы перевода устной речи в текст. Параллельно советский ученый работал над другими проектами: системой идентификации голоса клиента для банков, а также технологией Artificial Passenger, которая контролировала состояние водителей и помогала им не уснуть за рулем.

Kanevskiy2
Фото: Google

С 2014 года Дмитрий продолжил работу над распознаванием речи в Google. Он занялся улучшением алгоритмов Closed Caption в YouTube, которые автоматически создают субтитры для видео. Команда Каневского обучала систему, загружая в нее тексты, их звуковые версии и тысячи часов данных от пользователей. Все это сделало технологию более совершенной, и в 2016 году разработка была завершена.

Другой проект команды Каневского — приложение Live Transcribe, которое тоже конвертирует речь в текст. Но оно распознает и другие звуки: лай, плач, смех и даже стук в дверь. Идею для сервиса подкинул другой исследователь Google Чет Гнеги, который хотел помочь Дмитрию лучше ориентироваться в звуках и создал прототип, ставший отдельным продуктом.

Сейчас математик работает над новыми проектами. Один из них — приложение Euphonia — помогает людям с дефектами речи переводить искаженные слова в корректный текст на экране. Для обучения алгоритма требуются записи людей с разными особенностями речи от заикания до последствий инсульта и БАС. Другой — распознаватель языка жестов. Сложность в том, что каждое движение в этом языке — не буква, а слово или даже предложение. Поэтому команде Каневского требуется новый алгоритм для обработки визуальной информации и долгие часы работы.

Поделиться с друзьями