ipmisa

Categories:

Машинный перевод и нейронные сети

Компания PROMT выпускает в этом году Neural Translation Server 20 и обещает: «В наши дни машинный перевод демонстрирует беспрецедентную скорость и столь же беспрецедентное качество. С помощью современных лингвистических решений за считанные секунды можно получить связный, гладкий и абсолютно точный текст на другом языке, не требующий редактирования человеком. Эту возможность нам дает применение нейронных сетей». К сожалению, пробная версия или какие-либо примеры работы недоступны, поэтому для обсуждения нейронных сетей в машинном переводе лучше обратиться к опыту Google.

Однако гуманитарии вообще не представляют, как работает компьютер. По сути, это очень быстрый арифмометр, который не способен даже на вычитание в столбик, поскольку перенос из старшего разряда для него слишком сложная операции. Поэтому вычитание заменяется сложением с дополнительной величиной, а деление и умножение выполняется последовательными операциями сложения и сдвига. Всё, что мы видим на экране или распечатке, — это не более, чем наша интерпретация нулей и единиц в памяти ПК, а выполняемая компьютером работа — просто сложения и сдвиги чисел из единиц и нулей. 

Способна ли эта машина на перевод? Легко и намного лучше многих переводчиков-людей благодаря огромной памяти и огромной скорости операций сложения. Человеку переводить большие объемы без систем CAT (перевод с помощью компьютера) не имеет никакого смысла. Типовая CAT-система (Trados, memoQ,...) хранит и предлагает на редактирование переводчику-человеку сегменты (предложения) при высоком уровне совпадения, а также ведет словарь терминов. Это обеспечивает единообразие преобразования текста между языками. Для сильно формализованных текстов, подобных вороху практически идентичных инструкций по эксплуатации, можно получить вполне приличные переводы без участия человека, например на сайте поддержки Microsoft многие публикации предваряет сообщение «Мы хотим предоставлять вам актуальное содержимое справки на вашем языке как можно быстрее. Эта страница переведена автоматически и может содержать грамматические ошибки или неточности». Это как раз и есть машинный перевод. 

Обычно принято подразделять машинный перевод на RBMT (Rule-Based MT, "по правилам", т.е. по словарям и правописанию, без учета смысла — совсем как технический перевод от гуманитариев), Statistical MT (статистический, т.е. как в CAT, где ведется база данных сопоставлений предложений на двух языках) и Neural MT (нейронные сети). Каждый из этих способов не заменяет собой предыдущий, но расширяет его. Например, в PROMT  первый и последний способы используются совместно, а в Google применяются сразу три: второй в виде Residual Connections, а первый — вообще как редактируемые человеком переводы (символ «галочки» на щите, как при переводе Привет > Hello или Hello > 你好, причем с указанием внизу частотности вариантов перевода по статистике общедоступных документов). 

Нейронные сети NN (Neural Network) в целом и нейронный машинный перевод NMT (Neural Machine Translation) в частности известны уже полвека, поэтому понаписано об этом немало, но мало что изменились относительно тех книжек, что я читал в детстве. Та же глупая аналогия с клетками головного мозга (если бы мы сами знали, как они работают) и те же математические формулы в качестве доказательств (о малой связи математики с жизнью можно узнать по поисковой фразе «основания математики»). В любом случае, берется несколько входных вариантов, граф и несколько выходных вариантов. Для каждого полученного пути можно вычислить вероятность, на основе которой выбрать «лучший» путь и, соответственно, лучший выходной вариант. «Обучение» проводиться за счет известного априори лучшего пути с выхода на вход, что позволяет «настраивать» алгоритм вычисления вероятности любого пути (точнее: весовых коэффициентов в формулах расчета). 

Компания  Google использует сразу три NN: декодирующую, кодирующую и принятия решения, причем первые две из них многоуровневые. Более того, как уже отмечено выше, применяются обычные базы данных переводов TM (Translation Memory). NMT от Google на практике отлично справляется с декомпозицией предложений (в английском на подлежащее, сказуемое,..., либо на «слова» из 1-4 иероглифов в китайском). Принятие решений о соответствии примерно на уровне «гадания по словарю» гуманитария при переводе технического текста, смысла которого он не понимает. Композиция перевода — скажем «так себе», редактирование требуется всегда, кроме случаев заимствования из TM с уровнем совпадения выше 85%.

И да, для тупых гуманитариев: отличительной особенностью NMT от Google является нечеткое пословное соответствие, т.е. часто теряются слова из источника и появляются лишние в переводе, поэтому не нужно таким способом показывать, что ваш перевод лучше, чем у Google.

Для примера возьмем тест WMT (выпуск 2014 года) для пары EN>RU:

"The reason Boeing are doing this is to cram more seats in to make their plane more competitive with our products," said Kevin Keniston, head of passenger comfort at Europe’s Airbus. / «Причина, по которой Boeing делает это, заключается в том, чтобы посадить больше мест, чтобы сделать их самолет более конкурентоспособным с нашими продуктами», - сказал Кевин Кенистон, глава отдела комфорта пассажиров Airbus в Европе.

When asked about this, an official of the American administration replied: "The United States is not conducting electronic surveillance aimed at offices of the World Bank and IMF in Washington." / Когда его спросили об этом, представитель американской администрации ответил: «Соединенные Штаты не проводят электронное наблюдение за офисами Всемирного банка и МВФ в Вашингтоне».

Martin told CNN that he asked Daley whether his then-boss knew about the potential shuffle. / Мартин сказал CNN, что он спросил Дейли, знал ли его тогдашний босс о потенциальной перестановке.

Для пары CN>RU приведем также в конце человеческий (но не носителем, судя по всему) перевод газеты "Жэньминь Жибао":

华为将开发自动驾驶雷达 / Huawei разработает автономный водительский радар / Компания Huawei разрабатывает лазерный дальномер для автономного вождения

徐直军称,华为的最大优势是AI和云的能力,所以华为将以其昇腾芯片为基础打造一个智能驾驶平台 / Сюй Чжицзюнь сказал, что самое большое преимущество Huawei - это возможности искусственного интеллекта и облачных вычислений, поэтому Huawei создаст интеллектуальную платформу для вождения на основе своего растущего чипа / Сюй Чжицзюнь отметил, что самым большим преимуществом компании являются искусственный интеллект и облачные способности, поэтому Huawei создаст интеллектуальную платформу для вождения на базе собственных микросхем / Как технический переводчик-редактор считаю необходимым заменить «облачные способности» на «облачные вычисления» и еще немного по мелочам.

在传感器方面,徐直军称,华为不仅提供智能驾驶平台给其他厂商,同时也将自行开发激光雷达和毫米波雷达两项产品,以解决其当前的成本问题和性能问题 / Что касается датчиков, то Сюй Чжицзюнь сказал, что Huawei не только предоставит интеллектуальные платформы для вождения другим производителям, но также разработает собственные лидарные и миллиметровые радиолокационные продукты для решения текущих проблем с затратами и производительностью / Что касается датчиков, Сюй Чжицзюнь заявил, что Huawei не только представит умную платформу вождения для других производителей, но и лазерный дальномер и радар миллиметрового диапазона с целью решения проблем с себестоимостью и производительностью.

Короче: мою работу переводчик Google не отберет, но гуманитариям в техническом переводе стоит подумать о новой профессии.

 

Error

default userpic

Your reply will be screened

When you submit the form an invisible reCAPTCHA check will be performed.
You must follow the Privacy Policy and Google Terms of use.