Хочу поделиться соображениями на тему машинного перевода, когда он заменит человеческий, когда он уместен, и почему не все умеют им правильно пользоваться.
Что хорошо получается у машин? Автоматизированные действия по заранее заданной инструкции. Такие, где нет простора для творчества, нет права на ошибку, где все варианты развития предусмотрены, и каждый набор входных данных даёт один и только один результат. То, что называют детерминированным алгоритмом.
Человеческий язык, в той части, которая нам здесь интересна, совершенно не таков. Слова имеют более одного значения, смысл передаётся не только словами, но и тем, как они сказаны (интонация, порядок слов, расстановка пауз…), а в правилах самого языка полно исключений. Есть языки, которые лишены этих недостатков. Они называются «языки программирования», люди пишут на них программы, но обычно не разговаривают на них и не пишут на них фантастику.
Так с чем же пока не справляется машинный перевод? Приведу несколько примеров. Буду сравнивать человеческий перевод с Google Translate, т.к. пока DeepL, Reverso и переводчик Яндекса до него не дотягивают.
Машина не понимает культурных и исторических отсылок.
Для примера возьмём абзац из рассказа «Что видно с самолёта-разведчика»:
All very hush-hush, Secret Squirrel bullshit — more so than the rest of what the CIA jackoffs get up to. More so than the rest of the U2 program, for that matter. These ladies were capital-S Special. I'm talking about the Special Talents, the 388th Company; fuckin' Superman and Captain Marvel too, and every other half baked idea off Jack Kirby's desk. The parascientific combat team — same jokers responsible for the stalemate on the Yalu and the whole Inchon mess.
Гугл справляется с этим так:
Все очень секретно, чушь секретной белки — больше, чем остальная часть того, к чему придираются ЦРУ. Более того, чем остальная часть программы U2. Эти дамы были особенными. Я говорю об особых талантах, 388-й роте; офигенный Супермен и капитан Марвел, и все остальные наполовину выдуманные идеи со стола Джека Кирби. Паранаучная боевая команда — те же шутники, которые ответственны за безвыходное положение на Ялу и весь беспредел Инчона
А вот как этот же текст выглядит в человеческом переводе:
И всё втихаря, сплошные тайны Мадридского двора — круче даже, чем обычные цэрэушные метóды. Если уж на то пошло, то и круче, чем вся остальная программа U2. Эти дамочки были особенные с большой буквы «О». Это уже уровня Особых Талантов, 388й Опергруппы, уровня, язви его, Супермена с Капитаном Марвелом и всего того, что может выдавить на лист Джек Кёрби в своём угаре. Паранаучная боевая группа — те же клоуны, стараниями которых мы получили патовую ситуацию при Ялуцзяне и весь тот Инчхонский бардак.
Как видно, машина транслитерировала имя Kirby, которое принято писать как «Кёрби». Машина не знает, что в статье речь идёт о Корейской войне, не пойдёт на википедию смотреть статьи «Аллея МиГов» и «Инчхонская десантная операция», не говоря уж о том, чтобы правильно написать название «Инчхон».
Здесь, кстати, кроется ловушка и для переводчика. Человек вспомнит недавний фильм «Капитан Марвел» и решит, что речь идёт об этом супергерое. И напишет его в женском роде, т.к. в фильме это женщина. Более дотошный переводчик поищет в источниках, какой именно Капитан Марвел был в комиксах в то время, которое описывается в рассказе. И выяснит, что тогда это был персонаж мужского пола и писать о нём следует в мужском роде.
Отдельного упоминания здесь заслуживает и «секретная белка». Да, в рамках статьи это анахронизм, но речь идёт про белку-шпиона из мультфильма. Русскому читателю он неизвестен. Можно было бы заменить на майора Пронина, но тогда читатель удивится, откуда этого персонажа знает американский лётчик. Поэтому выражение про тайные делишки приходится менять на что-то культурно-нейтральное.
И конечно, машинный перевод не будет как следует работать с цитатами. Машине безразлично, что в авторском тексте проскочила цитата из Библии или Шекспира.
К примеру, отрывок из Библии короля Иакова:
For thou shalt worship no other god: for the LORD, whose name is Jealous, is a jealous God.
В синодальном переводе выглядит так, и именно так живой переводчик будет его цитировать:
Ибо ты не должен поклоняться богу иному, кроме Господа; потому что имя Его — ревнитель; Он Бог ревнитель.
Гугл, видимо, поднатаскался в терминологии, и в его исполнении эта строфа выглядит даже похоже на оригинал:
Ибо не поклоняйся никакому другому богу; ибо Господь, имя которого ревнив, есть Бог ревнитель;
Это относится даже к названиям. К примеру, упомянутую в тексте книгу Франца Кафки «Процесс» машина переведёт как «Суд».
Не надо создавать читателю сложности. В лучшем случае он разберётся и найдёт оригинал, в худшем — у него в голове осядет неверный вариант.
Машина не передаёт манеру речи.
Машинный перевод передаёт смысл речи, но не её стиль. Профессор с кафедры языкознания и босяк возле пивной будут в машинном исполнении изъясняться почти одинаково.
Возьмём для примера абзац из речи SCP-049. Существо, которое и человеком назвать сложно, с архаичной манерой речи, склонное к патетике. Вот абзац из оригинала:
Do not jape with me, sir! You and your colleagues are like so many others, unable to look past minor setbacks to see the salvation taking place before your very eyes. Do you wait to remove rotten timbers until the hall collapses on top of you? No. You find them and you pull them out and replace them with those untouched by rot! And most of all, you do not simply mock the structure because it now looks different to you. It is strong! It is free of disease.
Гугл справляется с этим так:
Не шути со мной, сэр! Вы и ваши коллеги, как и многие другие, не в силах заглянуть за незначительные неудачи и увидеть, как спасение происходит на ваших глазах. Вы ждете, чтобы удалить гнилые пиломатериалы, пока зал не рухнет на вас? Нет. Вы находите их, вытаскиваете их и заменяете их нетронутыми гнилью! И самое главное, вы не просто издеваетесь над структурой, потому что теперь она выглядит иначе. Это сильно! Это без болезней.
А вот как этот же текст выглядит в человеческом переводе:
Не надо язвить со мной, сэр! Вы с вашими коллегами, подобно многим другим, не в силах увидеть избавление прямо перед собой, мелкие неурядицы застят вам взор. Или вы из тех, кто не уберёт прогнившие стропила, покуда крыша не свалится на голову? Нет. Вы их ищете, вы их извлекаете и ставите новые, не тронутые гнилью! И самое важное, вы не станете насмехаться над зданием лишь потому, что оно мнится вам другим. Оно крепкое! Оно избавлено от недуга.
Несколько мелких штрихов создают здесь эмоциональную окраску. «Язвить» вместо нейтрального «шутить» (тем более, «не шути со мной» выглядит как «не нарывайся на неприятности» вместо «брось свой неуместный юмор»). Слегка архаичное «застят взор» вместо машинного «не в силах заглянуть». «Пиломатериалы» были бы уместны, будь добрый доктор советским чиновником на небольшой должности. «Извлекаете» звучит более уместно в устах доктора, которому не привыкать извлекать инородные тела из пациентов. Архаичные «мнится» и «недуг» завершают картину.
Внимательный читатель, наверное, заметил, что гугл употребил «издеваться» вместо «насмехаться» и «структура» вместо «постройка». Это тоже неверно, но об этом дальше.
У слов бывает несколько значений.
Машина разбирает текст по одному предложению за раз. Она не видит в нём смысла, она вообще не рассматривает его как нечто цельное. Поэтому, когда ей попадается слово, имеющее несколько значений, она берёт первое подходящее.
К примеру, в конце SCP-2922 есть такое предложение:
Following PC-06, Operation Galahad is officially in effect
В машинном переводе оно выглядит так:
Следуя Проекту «Corbenic»-06, Операция-Галахад официально действительна.
В человеческом — так:
В свете записи ПК-06 объявлена активная фаза операции «Галахад».
То есть машина употребила «следуя» вместо «в дальнейшем, после, по результатам».
В другом переводе — «In the case of containment compromise» — машина употребляет «В случае компромисса с условиями содержания». Под «compromise» имеется в виду «поставить под угрозу, нарушить». И такие ошибки могут таиться даже в очевидных вещах. К примеру, «a school of salmon» гугл переводит как «школа лосося» вместо стаи или косяка. Переведённые в лоб «structure» (здание, безусловно, структурировано, но постройки так не называют) и «mock» (издеваться можно лишь над тем, у чего есть эмоции) относятся сюда же.
Оператор не участвует в процессе.
Когда человек переводит текст, он сомневается. Понимает, что его знаний может быть недостаточно. Поднимает источники, копается в словарях, ищет примеры употребления и разбирается в незнакомой теме, хотя бы и поверхностно. Его сомнения не всегда уместны и не всегда они появляются там, где должны, но уж свои слабые места переводчик узнаёт, когда сталкивается с ними.
Когда оператор скармливает машине кусок текста и получает результат, он не сомневается или сомневается недостаточно. Он просто не знает, где надо сомневаться. Если бы он сверял переведённый текст с английским и разбирал каждое предложение в меру своего понимания, он бы фактически выполнял перевод самостоятельно. Это не та задача, которую он себе ставит. В лучшем случае оператор пробежится по тексту и поправит наиболее явные смысловые ошибки. И результат будет прямо пропорционален вложенным усилиям.
Машина не умеет переводить стихи и юмор.
Разве в этом пункте нужны объяснения?
Машина не умеет нормально переводить идиомы, сленг и слова в переносном смысле.
Устоявшихся выражений полно что в русском, что в английском. И любой переводчик постоянно пополняет свой багаж, т.к. все эти тонкости невозможно просчитать, можно только запомнить. Пополняет его и гугл, но пока что его запас недостаточен.
Приведу несколько примеров, как из Фонда, так и из тренажёра по подобным выражениям.
Английский | Машинный перевод | Правильный перевод |
---|---|---|
This guy wrote the book on anomalous reconnaissance | Этот парень написал книгу об аномальной разведке | Этот парень на аномальной разведке собаку съел |
Gonna paint the town red | Собираюсь покрасить город в красный | Надо уйти в загул |
Hit that on the rebound | Ударить ее по отскоку | Подкатить к ней после недавнего расставания |
I'm gonna tan your hide for you | Я загараю твою шкуру для тебя | Я тебе шею намылю |
Alright, who cut the cheese? | Хорошо, кто нарезал сыр? | Колитесь, кто пёрнул? |
He is hairy at the heel | У него волосатые пятки | Он скользкий и ненадёжный тип |
I'll run the bath | Я буду управлять ванной | Я наберу ванну |
They're apples and oranges | Это яблоки и апельсины | Они совершенно друг на друга не похожи |
I'm trying to level with you | Я пытаюсь сравниться с тобой | Хочу быть с тобой откровенным |
Haven't seen hide nor hair of them since | С тех пор не видел ни шкуры, ни волос | С тех пор от них ни весточки нет |
Chinese whispers | Китайский шёпот | Испорченный телефон |
Стоит заметить, на таких моментах может ошибиться даже опытный переводчик. Тем не менее, это не повод поручать дело машине.
Остальные мелочи
Машина совершенно беспомощна, когда дело касается эрративов. Например, вот предложение из руководства «как говорить по-орочьи во вселенной WH40K»:
You really fink dis planz gonna werk? Dat useless grot ova dere dunt know wot end of 'iz choppa iz fer choppin!
Гуглу пока такое не по силам. В его понимании смысл здесь такой:
Ты действительно хочешь работать? Dat бесполезно грот ова дере дунт знаю, конец света из чоппа из чоппин
А человеку придётся сначала расшифровать смысл, потом перевести на русский и заново насытить эрративами на принятый в фэндоме манер:
Ты чё, щитаеш етот план стрельнет? Да эт' бизмозглый грот даж ни в курсе, за какой канец диржать рубилу!
Машина не любит расшифровывать сокращения. К примеру, вот предложение из SCP-2583:
Any personnel entering the chamber must wear BSL-4 biohazard suits
Гугл переводит это в лоб:
Любой персонал, входящий в камеру, должен носить костюмы биологической защиты BSL-4
Что такое BSL-4? Марка костюма? Что-то из внутренней терминологии? Переводчик задастся этим вопросом, полезет искать, найдёт уровни биологической безопасности. И напишет:
Любой сотрудник, входящий внутрь контейнера, должен быть одет в костюм максимальной биологической защиты
Машина не ведёт глоссарий и список имён. То, что у нас учреждение Фонда Area принято именовать «участок», машина не знает. Будет называть его «областью» или как сочтёт нужным.
Машина не знает, какого пола персонаж. Хорошо, если пол указан явно. Но женщине по имени Саша в машинном переводе будет постоянно грозить непрошеная смена пола.
Машина не различает обращения на «ты» и на «вы». Доктор может обращаться на «ты» к начальнику и на «вы» к коллеге, с которым давно дружит. Если в разговоре будет момент перехода с «вы» на «ты», то, скорее всего, он будет потерян.
Машина не видит контекста. Если переводится рассказ из цикла, и речь пойдёт о чем-то, известном читателю, машина об этом знать не будет. В отличие от переводчика, который для начала ознакомится с материалом.
Выводы
Машинный перевод постепенно совершенствуется. Если 20 лет назад он представлял собой буквальный перевод по слову за раз, то сейчас гугл уже знает многие идиомы и имена собственные, и не так часто попадается на ложных друзьях переводчика. Тем не менее, для художественного перевода он пока не годится. Даже с учётом сухого, около-научного стиля Фонда, который не так насыщен переносными смыслами и стилевыми выкрутасами. Машина пока просто не способна обеспечить нужное качество. И прежде чем поручать ей очередной перевод, подумайте — способны ли вы довести его до ума? И если способны — почему тогда вам нужна машина в помощь?