Ошибки сервиса Google Translate — результат применения самообучающихся алгоритмов для перевода

В последнее время в СМИ часто появлялись сообщения о забавных ошибках в переводе текстов с помощью сервиса Google Translate. Так, журналисты обнаружили, что предложение «Путин ехал на желтой «Калине»» сервис переводит на английский язык следующим образом: Putin went on yellow Mazda. Почему возникают такие ошибки? Развернутый ответ на этот вопрос дал менеджер по развитию бизнеса компании Google Чуи Тревелла (Chewy Trewhella) в интервью «АиФ».

Как пояснил Тревелла, сервис Google Translate осуществляет машинный перевод с использованием самых современных технологий. В отличии от большинства систем машинного перевода, существующих сегодня, Google Translate не основывается на понимании правил какого-либо языка, что требует масштабной дополнительной работы со словарями и грамматическими справочниками лингвистов и IT-специалистов. Система Google Translate создает базу из миллионов слов, складывающихся в тексты на определенном языке с примерами переводов этих текстов, которые были сделаны ранее людьми. Имея в наличии множество образцов фраз и их переводов, Google Translate применяет самообучающийся статистический анализ для создания моделей перевода. Именно этот самообучающийся алгоритм и может приводить иногда к возникновению ошибок в переводе, как, например, в случае с маркой автомобиля, на которой ехал российский президент Владимир Путин.

База слов на различных языках и их переводов формируется из различных источников от блогов до официальной документации. По словам Тревеллы, документы правительственных организаций, таких как Европейский Союз и ООН, являются одними из лучших источников словарной базы для сервиса Google Translate. Их основное преимущество заключается в том, что они имеют качественный перевод и доступны на многих языках. Например, Европейский Союз переводит свои документы на 23 языка. Для небольших государств (например, Литвы), язык которых не очень популярен в сети, большую часть необходимой информации Google Translate получает именно из официальных бумаг. Книги — еще один важный ресурс для развития сервиса.

Чуи Тревелла говорит, что Google постоянно работает над развитием и совершенствованием своей системы перевода и, вероятно, в скором времени появятся такие сервисы, которые еще несколько лет назад казались фантастикой.