Компьютерный перевод - Computer-assisted translation

Компьютерный перевод (КОТ), также называемый машинный перевод (МАТ) или машинный перевод, выполняемый человеком (MAHT), это использование программного обеспечения помочь переводчику-человеку в перевод обработать. Перевод создается человеком, а некоторые аспекты процесса выполняются с помощью программного обеспечения; это в отличие от машинный перевод (MT), в котором перевод создается компьютером, возможно, с некоторым вмешательством человека (например, до редактирования и после редактирования).^[1]

Под CAT-программами обычно понимаются программы, которые специально облегчают сам процесс перевода. Большинство CAT-программ имеют (а) возможность переводить различные источники форматы файлов в единой среде редактирования без необходимости использования программного обеспечения, связанного с форматом файла, для большей части или всего процесса перевода, (b) памяти переводов и (c) интеграции различных утилит или процессов, которые повышают производительность и согласованность перевода.

Ассортимент инструментов

Компьютерный перевод - это широкий и неточный термин, охватывающий целый ряд инструментов. Они могут включать:

Память переводов инструменты (инструменты TM), состоящие из база данных текстовых сегментов на исходном языке и их переводы на один или несколько целевых языков.^[2]
Проверка орфографии, либо встроены в обработка текста программное обеспечение, или доступно как дополнительные программы
Проверка грамматики, либо встроены в программное обеспечение для обработки текстов, либо доступны как дополнительные программы.
Терминология менеджеры, которые позволяют переводчикам самостоятельно управлять банк терминологии в электронном виде. Это может быть простая таблица, созданная в текстовом редакторе переводчика или электронная таблица, или база данных, созданная в такой программе, как FileMaker Pro или, для более надежных (и более дорогих) решений, специализированные программные пакеты, такие как SDL MultiTerm, LogiTerm, Termex, TermWeb и др.
Электронные словари, одноязычные или двуязычные
Терминологические базы данных, расположенные на главном компьютере или доступные через Интернет, например ТЕРМИУМ Плюс или Большой словарь терминологии от Офис québécois de la langue française
Инструменты полнотекстового поиска (или индексаторы), которые позволяют пользователю запрашивать уже переведенные тексты или справочные документы различного типа. Некоторые из таких индексаторов Программное обеспечение ISYS Search, dtSearch Desktop и Naturel
Конкордансеры, которые представляют собой программы, которые извлекают экземпляры слова или выражения и их соответствующий контекст в одноязычном, двуязычном или многоязычном корпусе, таком как битекст или память переводов.
Bitext выравниватели: инструменты, выравнивающие исходный текст и его перевод, которые затем могут быть проанализированы с помощью инструмент полнотекстового поиска или конкордант
ПО для управления проектами который позволяет лингвистам структурировать сложные переводческие проекты в виде цепочки задач (часто называемой «рабочий процесс»), назначать различные задачи разным людям и отслеживать ход выполнения каждой из этих задач.

Концепции

Программное обеспечение памяти переводов

Память переводов программы хранят ранее переведенные исходные тексты и их эквивалентные целевые тексты в базе данных и извлекают связанные сегменты во время перевода новых текстов.^[3]

Такие программы разбивают исходный текст на управляемые единицы, известные как «сегменты». Предложение исходного текста или подобная предложению единица (заголовки, заголовки или элементы в списке) могут считаться сегментом. Тексты также могут быть разделены на более крупные блоки, такие как абзацы, или небольшие, например, статьи. По мере того, как переводчик работает с документом, программа отображает каждый исходный сегмент по очереди и предоставляет предыдущий перевод для повторного использования, если он находит соответствующий исходный сегмент в своей базе данных. Если это не так, программа позволяет переводчику ввести перевод для нового сегмента. После завершения перевода сегмента программа сохраняет новый перевод и переходит к следующему сегменту. В доминирующей парадигме память переводов, в принципе, представляет собой простую базу данных полей, содержащих сегмент исходного языка, перевод сегмента и другую информацию, такую как дата создания сегмента, последний доступ, имя переводчика и так далее. Другой подход к памяти переводов не предполагает создания базы данных, вместо этого полагаясь на согласованные справочные документы.^[4]

Некоторые программы памяти переводов работают как автономный среды, в то время как другие функционируют как добавить или макрос для имеющихся в продаже программ для обработки текстов или других программ для бизнеса. Дополнительные программы позволяют использовать исходные документы из других форматов, например файлы настольных издательских систем, электронные таблицы, или HTML код, который будет обрабатываться с помощью программы TM.

ПО для языковых поисковых систем

Новое в переводческая отрасль Программное обеспечение языковой поисковой системы обычно представляет собой систему на базе Интернета, которая работает аналогично поисковым машинам в Интернете. Однако вместо того, чтобы искать в Интернете, языковая поисковая машина выполняет поиск в большом хранилище памяти переводов, чтобы найти ранее переведенные фрагменты предложений, фразы, целые предложения, даже полные абзацы, которые соответствуют сегментам исходного документа.

Поисковые системы по языку разработаны для использования современных поисковых технологий для выполнения поиска на основе исходных слов в контексте, чтобы гарантировать, что результаты поиска соответствуют значению исходных сегментов. Подобно традиционным инструментам TM, ценность языковой поисковой системы в значительной степени зависит от репозитория памяти переводов, в котором она выполняет поиск.

Программное обеспечение для управления терминологией

Терминология Управляющее программное обеспечение предоставляет переводчику средства автоматического поиска терминов, встречающихся в документе, в данной терминологической базе данных либо путем автоматического отображения терминов в окне интерфейса программного обеспечения памяти переводов, либо с помощью горячих клавиш для просмотра записи в терминологической базе данных. В некоторых программах есть другие комбинации горячих клавиш, позволяющие переводчику добавлять новые терминологические пары в терминологическую базу данных на лету во время перевода. Некоторые из более продвинутых систем позволяют переводчикам проверять в интерактивном или пакетный режим, если правильная комбинация исходного и целевого терминов была использована внутри и между сегментами памяти переводов в данном проекте. Также существуют независимые системы управления терминологией, которые могут обеспечивать функциональность рабочего процесса, визуальную таксономию, работать как тип средства проверки терминов (аналогично проверке орфографии, термины, которые использовались неправильно, помечаются) и могут поддерживать другие типы многоязычных классификаций аспектов терминов, такие как изображения, видео или звук.^[5]^[3]

Программное обеспечение для центровки

Программы выравнивания берут завершенные переводы, разделяют исходный и целевой текст на сегменты и пытаются определить, какие сегменты принадлежат друг другу, чтобы построить память переводов или другой справочный ресурс с содержанием. Многие программы выравнивания позволяют переводчикам вручную выравнивать несовпадающие сегменты. Полученный битекст (также известный как параллельный текст ) выравнивание можно затем импортировать в программу памяти переводов для будущих переводов или использовать в качестве справочного документа.

Интерактивный машинный перевод

Интерактивный машинный перевод - это парадигма, в которой автоматическая система пытается предсказать перевод, который собирается произвести человек-переводчик, предлагая гипотезы перевода. Эти гипотезы могут быть либо полным предложением, либо частью предложения, которое еще предстоит перевести.

Дополненный перевод

Расширенный перевод - это форма перевода, выполняемого человеком в интегрированной технологической среде, которая предоставляет переводчикам доступ к адаптивным подсегментам. машинный перевод (MT) и память переводов (TM), поиск терминологии (CAT) и автоматическое обогащение контента (ACE) для облегчения их работы, что автоматизирует управление проектами, обработку файлов и другие вспомогательные задачи.^[6]^[7]

На основе концепции дополненная реальность, расширенный перевод стремится сделать переводчиков более продуктивными, предоставляя им актуальную информацию по мере необходимости. Эта информация адаптируется к привычкам и стилю отдельных переводчиков, чтобы ускорить их работу и повысить производительность. Он отличается от классического размещение МТ, который заставляет лингвистов проверять целые тексты, переведенные машинами, поскольку он предоставляет машинный перевод и информацию в виде предложений, которые могут быть приняты полностью, отредактированы или проигнорированы, в зависимости от ситуации.^[6]

Расширенный перевод расширяет принципы, впервые разработанные в 1980-х годах, которые вошли в CAT-инструменты. Однако он объединяет несколько функций, которые ранее были дискретными, в одной среде. Например, переводчикам исторически приходилось покидать свои переводческие среды, чтобы проводить исследования терминологии, но в расширенной среде компонент ACE автоматически предоставлял бы ссылки на информацию о терминах и концепциях, встречающихся в тексте, непосредственно в среде.

По состоянию на май 2017 года не существует полной реализации расширенной среды перевода, хотя отдельные разработчики создали частичные системы.

Смотрите также

использованная литература

^ 2010, «Компьютерный перевод», Линн Боукер и Дес Фишер, в «Справочнике по переводческим исследованиям», отредактированный Gambier & Doorslaer, стр. 70.
^ Кристенсен, Тина Полсен; Schjoldager, Энн. "Исследование памяти переводов (TM): что мы знаем и как мы это знаем?" (PDF). Гермес. 44.
^ ^а ^б «Терминологический менеджмент и МП» (PDF). Схема. 117.
^ "CAT Tools против машинного перевода: какой метод лучше?". Азиатский Абсолют. Получено 29 января 2017.
^ «Архивная копия» (PDF). Архивировано из оригинал (PDF) на 2012-04-25. Получено 2011-10-03.CS1 maint: заархивированная копия как заголовок (ссылка на сайт)
^ ^а ^б ДеПальма, Дональд А. и Арль Ломмель (15 февраля 2017 г.). «Расширенный перевод расширяет возможности языковых служб». Консультации по здравому смыслу. Получено 2017-05-19.
^ Эггерс, Уильям Д., Дэвид Шацки и доктор Питер Вехницки (26 апреля 2017 г.). «Правительство с расширенным искусственным интеллектом: использование когнитивных технологий для изменения структуры работы государственного сектора». Издательство Deloitte University Press. Получено 2017-05-19.

внешние ссылки

[1] 2010, «Компьютерный перевод», Линн Боукер и Дес Фишер, в «Справочнике по переводческим исследованиям», отредактированный Gambier & Doorslaer, стр. 70.

[2] Кристенсен, Тина Полсен; Schjoldager, Энн. "Исследование памяти переводов (TM): что мы знаем и как мы это знаем?" (PDF). Гермес. 44.

[:0-3] а ^б «Терминологический менеджмент и МП» (PDF). Схема. 117.

[4] "CAT Tools против машинного перевода: какой метод лучше?". Азиатский Абсолют. Получено 29 января 2017.

[5] «Архивная копия» (PDF). Архивировано из оригинал (PDF) на 2012-04-25. Получено 2011-10-03.CS1 maint: заархивированная копия как заголовок (ссылка на сайт)

[depalma-lommel_2017-6] а ^б ДеПальма, Дональд А. и Арль Ломмель (15 февраля 2017 г.). «Расширенный перевод расширяет возможности языковых служб». Консультации по здравому смыслу. Получено 2017-05-19.

[7] Эггерс, Уильям Д., Дэвид Шацки и доктор Питер Вехницки (26 апреля 2017 г.). «Правительство с расширенным искусственным интеллектом: использование когнитивных технологий для изменения структуры работы государственного сектора». Издательство Deloitte University Press. Получено 2017-05-19.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Обработка естественного языка
Общие условия	AI-полный Мешок слов н-грамм Биграмма Триграмма Понимание естественного языка Речевой корпус Stopwords Текстовый корпус
Анализ текста	Извлечение словосочетаний Концепция майнинга Обработка сложных терминов Разрешение Coreference Лемматизация Признание именной организации Обучение онтологии Парсинг Пометка части речи Семантическое сходство Анализ настроений Стемминг Извлечение терминологии Фрагменты текста Сегментация текста Сегментация предложения Сегментация слов Текстовое следствие Truecasing Устранение смысловой неоднозначности
Автоматическое суммирование	Резюме из нескольких документов Извлечение приговора Упрощение текста
Машинный перевод	Компьютерная На основе примера Основанный на правилах Нейронный
Автоматическая идентификация и сбор данных	Распознавание речи Сегментация речи Синтез речи Генерация естественного языка Оптическое распознавание символов
Тематическая модель	Скрытое размещение Дирихле Скрытый семантический анализ Распределение патинко
Компьютерная обзор	Автоматическая оценка эссе Конкордансер Проверка грамматики Предсказуемый текст Программа проверки орфографии Подбор синтаксиса
Естественный язык пользовательский интерфейс	Чат-бот Интерактивная фантастика Ответ на вопрос Виртуальный помощник Голосовой пользовательский интерфейс