Клингонский язык — искусственный язык, разработанный лингвистом Марком Окрандом по заказу Paramount Studios для одной из инопланетных рас в вымышленной вселенной сериала «Звёздный путь». На клингонском языке говорят несколько сотен человек, проживающие в 37 странах мира. [источник не указан 1316 дней] В отличие от многих языков, созданных для кинематографа, клингонский язык имеет детально разработанную грамматику, синтаксис и словарь, а также регулирующую организацию — Институт клингонского языка, публикующий переводы классических литературных произведений на клингонский язык и научный журнал, развивающий язык.
Содержание
Источники
Традиционно, Марк Окранд отрицал какие-либо источники для создания языка, говоря о свободном творчестве.
По одной из версий, первые слова и звуки клингонского языка ввёл в сериал Джеймс Духан в первом фильме Звёздный путь (1979). Привлечённый к работе над фильмом позже Марк Окранд сохранил эти слова и звуки, изобретая язык.
При создании языка Марк Окранд свободно объединил элементы знакомых ему по университету языков индейцев Северной Америки и санскрита. Найдено значительное количество соответствий ему в языке американских индейцев мутсун (язык утийской группы), последний носитель которого умер в 1930. [3] Фонетика языка использует ряд затрудняющих носителя индоевропейских языков звуков, в том числе гортанной смычки и других, экспортированных из разных языков индейцев для создания подчёркнуто «чуждого» звучания.
Письменность
Буквы пикада (pIqaD)
Кириллический эквивалент
МФА
a
А, а
ɑ
b
Б, б
b
ch
Ч, ч
t͡ʃ
D
Д, д
ɖ
e
Э, э
ɛ
gh
Г, г
ɣ
H
Х, х
x
I
Ы, ы (И, и)
ɪ
j
Дж, дж
d͡ʒ
l
Л, л
l
m
М, м
m
n
Н, н
n
ng
Нг, нг
ŋ
o
О, о
o
p
П, п
pʰ
q
К, к
qʰ
Q
Кх, кх
q͡χ
r
Р, р
r ( ɹ )
S
Ш, ш
ʂ
t
Т, т
tʰ
tlh
Тл, тл
t͡ɬ
u
У, у
u
v
В, в
v
w
У, у (В, в)
w
y
Й, й
j
‘
—
ʔ
Бытование
Потомки
На основе клингонского языка был разработан эзотерический язык программирования Var’aq.
Интересные факты
Ссылки
См. также
Примечания
Искусственные языки ( список )
Естественный язык • Искусственный язык • Плановый язык • Социализованный язык • Международный вспомогательный язык • Априорный язык • Апостериорный язык • Гипосхематические языки • Гиперсхематические языки • Универсальный язык • Схематизм Интерлингвистика
Смотреть что такое «Клингонский язык» в других словарях:
Язык синтетический — Искусственные языки специальные языки, которые, в отличие от естественных, сконструированы целенаправленно. Таких языков существует уже более тысячи, и постоянно создаются всё новые и новые. Классификация Различают следующие виды искусственных… … Википедия
Искусственный язык — Искусственные языки специальные языки, которые, в отличие от естественных, сконструированы целенаправленно. Таких языков существует уже более тысячи, и постоянно создаются всё новые и новые. Классификация Различают следующие виды искусственных… … Википедия
Вспомогательный язык — Искусственные языки специальные языки, которые, в отличие от естественных, сконструированы целенаправленно. Таких языков существует уже более тысячи, и постоянно создаются всё новые и новые. Классификация Различают следующие виды искусственных… … Википедия
Баджорский язык — Пример письменности … Википедия
Клингон — Клингонский язык Самоназвание: tlhIngan Hol /ˈt͡ɬɪŋɑn xol/ Создан: Окранд, Марк Регулирующая организация: Klingon Lan … Википедия
Клингоны — Клингонская Империя Дата основания: 900 год н. э. Император: Кахлес II (2369) Канцлер … Википедия
Клингонская Империя — Дата основания: 900 год н. э. Император: Кахлес II (2369) Канцлер: Марток (2375) Столица: Ко’ноС (англ. Qo noS) … Википедия
Языки мира — У этого термина существуют и другие значения, см. Языки мира (значения). Ниже представлен полный список статей по языкам и их группам, которые уже есть в Википедии или обязательно должны быть. Включены только человеческие языки (включая… … Википедия
Окранд — Окранд, Марк Марк Окранд Marc Okrand Дата рождения: 1948 год( … Википедия
Окранд, Марк — Марк Окранд Marc Okrand Дата рождени … Википедия
Учим клингонский, пока не поздно
Пока все предлагают вам выучить на карантине английский, испанский или китайский, мы нашли язык для настоящих путешественников — клингонский!
Клингоны — воинственный народ родом с планеты Кронос ( Qo’noS ). Не самое популярное место во Вселенной, но для настоящих космических туристов нет границ.
К тому же, Кронос ещё не вошёл в состав Федерации планет, так что если вы не любите мейнстримные направления, то сможете посмотреть на знаменитые вулканы и изучить спутник Праксис без толп с фотоаппаратами.
Где учить клингонский
Есть и онлайн-ресурсы, которые помогут изучать клингонский из любой точки Вселенной:
Клингонский для путешественников
nuqneH — [нукнех] — приветствие
Дословно эта фраза переводится как «Что тебе нужно?».
Ещё один вариант — vjIjatlh (произносится как [вджиджатих]), дословно значит «говори». Как вы понимаете, клингоны предпочитают не тратить время на вежливые расшаркивания и сразу переходят к делу.
pe’vIl mu’qaDmey [пе вилл мукхад мей] — пожелание хорошего дня
Дословный перевод — «Хороших проклятий!». Клингоны могут прожить до 150 лет, но многие мужчины погибают в бою молодыми — отсюда и общий воинственный настрой.
HIja/ghobe’ — [хихджа]/[гхобе] — да/нет
Но только в качестве восклицания или ответа на вопрос. Если вам нужно добавить согласие или отрицание в предложение, используйте lu’ ([лю]) и Qo’ ([кхо]).
Какое путешествие без новых знакомств? Узнать, как обращаться к вашему новому другу (если вы сможете подружиться с кем-то из клингонцев, конечно) и представиться самому помогут эти фразы. А там и до межгалактического союза недалеко!
Если вы упустите возможность рассказать жителям другой планеты о красотах Казахстана, Родина вас не простит. Начать лиричный монолог можно с этой фразы. А вот клингонов спрашивать о происхождении не обязательно — их внешний вид сам по себе является ответом.
nuqDaq ‘oH…? — [нукдак ох] — где находится?
Например, nuqDaq ‘oH puch ([нукдак ох пуч]) — где туалет? Или nuqDaq ‘oH tach ([нукдак ох тач]) — где бар?
quSDaq ba’lu’’a’ — [кущ дак ба лу а] — это место занято?
Если вы всё-таки добрались до бара, то перед тем, как занять место, лучше уточнить, свободно ли оно — иначе рискуете кого-то ненароком обидеть и ввязаться в драку, из которой вряд ли выйдете победителем.
Dochvetlh vIneH — [дочветк винех] — хочу вот это
Никаких спасибо и пожалуйста — если хотите пива (или другого алкоголя, для большинства из его типов у клингонцев одно слово), просто говорите Dochvetlh vIneH HIq ([дочветк винех хек]).
Huch ‘ar DaneH? — [хуч ар даанех] — сколько стоит?
Полезная фраза, которая пригодится вам не только в баре, но и в магазине сувениров. Советуем заранее уточнить правила перевозки антикварных мечей и черепов врагов — некоторые космические перевозчики заставят вас сдать их в багаж.
‘IwlIj jachjaj — [иулидж чаччаадж] — на здоровье!
Традиционный тост на клингонском, который дословно переводится как «Пускай твоя кровь кричит!». Это связано не только с боевым настроем местных жителей, но и с крепостью их алкоголя — так что на утро у вас будет кричать не только кровь, но и внутренние органы.
mamI’ DaneH’a’? — [маами данеха] — потанцуем?
Клингоны не самая чувствительная раса, но пригласить понравившегося представителя потанцевать можно (особенно после пары кружек HIq ). На всякий случай запомните ещё фразу qamuSHa’ ([камушкха]) — дословно она переводится как «Я тебя не ненавижу» и может выступать как признание в симпатии.
nuqjatlh — [нук чак] — что ты сказал?
Эта фраза может использоваться как наезд или как обычный вопрос — если вы, например, не расслышали собеседника. Всё зависит от враждебности интонации.
qaStaH nuq jay’ — [каш тах нук джай] — что вообще происходит?!
Крайняя степень удивления и непонимания — jay’ в конце добавляет всей фразе нецензурности. Если вы в приличном обществе и просто не очень понимаете происходящие события, то от jay’ можно отказаться.
naDevvo’ yIghoS!/naDevvo’ peghoS! — [надевво иигхош/надевво пегхош] — оставь/оставьте меня в покое!
Если вы устали от новой компании, то можно попросить их оставить вас в покое — настоящих воинов не смутит эта фраза и они не обидятся. Это же можно сказать навязчивому продавцу или официанту.
Отличительная особенность клингонцев — остроконечный лоб, поэтому это очень, очень грубое оскорбление (ещё и про маму). Не используйте это выражение просто так и сохраните его только на случай крайней необходимости.
HIQaH! — [хикхах] — помогите!
Самая нужная фраза после того, как вы посмеётесь над лбом мамы собеседника. Можете ещё попросить позвать стражу: для этого как можно громче кричите — ‘avwI’ tIghuHmoH ([авве тигхухмох]).
Клингонский
Искусственный язык, изобретенный лингвистом Марком Окрандом для вселенной сериала «Star Trek». На нем говорят представители инопланетной цивилизации клингонов — правда, даже в разговорах между собой они нередко используют английский как более престижный язык.
В клингонском не очень много звуков — 21 согласный и 5 гласных. Однако язык специально создавался для того, чтобы производить непривычное впечатление, поэтому многие из этих звуков не так часто встречаются в человеческих языках: например, Q — очень глубокое [кх], S — ретрофлексное (то есть произносимое с загнутым назад кончиком языка) [ш]; зато отсутствуют обычные звуки, например [д], [с], [к], [г]. Еще один из звуков этого языка, который звучит странно для носителей английского, — это tlh, который произносится примерно как русское [тль]. Английские слова не могут начинаться на tl-, поэтому название tlhingan передается на английский через Kl-, так что получается Klingon: если бы мы заимствовали название языка в русский язык напрямую от инопланетян, то называли бы его тлинганским.
Самая необычная грамматическая особенность клингонского языка — порядок слов «дополнение — сказуемое — подлежащее». Так, puq legh yaS — это буквально «ребенок видеть офицер», а переводится эта фраза как «офицер видит ребенка». Такой порядок слов встречается менее чем в 1 % языков мира.
Если подлежащим и дополнением являются местоимения, их комбинации выражаются с помощью специальных приставок: например, qa- значит «я тебя», а qamuSHa — «я тебя люблю». Однако слова «любить» в клингонском языке нет, поэтому muSHa’ на самом деле состоит из корня muS («ненавидеть») и отрицательного суффикса Ha’.
Для клингонского языка разработан алфавит, который называется pIqaD. Cлово Qapla’ («Удачи!») с его помощью записывается так:
Самоучитель клингонского
Пару лет назад мы рассказали о том, как в системе Антиплагиат устроен поиск русского перевода английских статей. Естественно, без машинного переводчика в алгоритме не обойтись. В основе машинного переводчика, конечно, лежит машинное обучение, которое, в свою очередь, требует весьма значительного количества «параллельных предложений», т.е. одинаковых по смыслу предложений, написанных на двух языках. Значительное количество — это миллионы предложений, и чем больше, тем лучше. Понятно, что для русско-английской пары найти такую базу (в том числе и в открытом доступе) реально. А что делать с теми языковыми парами, для которых параллельных предложений принципиально не может быть слишком много?
Казалось бы, не имея в распоряжении большого объема обучающих примеров, обучить систему машинного перевода невозможно. Но на помощь приходит идеология Unsupervised Learning, или «обучение без учителя». Ну а чтобы задача была действительно интересной (особенно порадует она фанатов вселенной Стартрека), мы будем обучать наш машинный переводчик для пары языков «английский – клингонский».
Источник картинки: Собственное творчество от команды Антиплагиата
А самым подходящим девизом к дальнейшему рассказу о применении Unsupervised Learning будет знаменитая выдержка из Инструкции клингонского почетного караула «Если не можешь контролировать себя, тебе не дано командовать другими».
Для тех, кто еще не стал фанатом Стартрека, клингонский язык – это искусственно созданный язык, на котором говорят клингоны в популярной американской киновселенной «Звездный путь». Для этого языка существует несколько систем письма, мы возьмем наиболее простую для нашей задачи систему на основе латиницы. Вообще, создавать свои языки для вымышленных миров – это довольно популярная тема. Вспомнить хотя бы Толкиена, который создал синдарин – язык эльфов в фантастическом мире «Властелин колец». Более свежие примеры – это дотракийский из «Игры престолов» или на’ви из «Аватара». Впрочем, для нашей задачи конкретный выбор языка не так уж важен, главное, чтобы в какой-нибудь библиотеке не лежало пару тысяч томов текста на этом языке – иначе станет неинтересно.
Концепция «Unsupervised Learning» подразумевает обучение моделей (математических, поручик, математических 🙂 ) без использования размеченных данных. В нашем случае это обучение системы машинного перевода без корпуса параллельных предложений (или с очень маленьким объемом). Применять обучение без учителя для задачи перевода стали не так давно. Здесь и здесь есть статьи, в которых впервые был описан одними один из самых популярных на сегодня методов решения нашей задачи. Этот метод мы и постараемся сегодня применить.
Сразу оговорим тот факт, что для построения переводчика мы все же будем использовать параллельный корпус, но только для побочных задач: построения словаря и дообучения модели. Дообучение модели опционально, его можно и не делать, а вместо построения словаря из параллельных предложений можно воспользоваться готовым (разумеется, если он есть). В любом случае, при подходе, описанном ниже, нам понадобится намного меньший корпус параллельных предложений, чем при обучении переводчика «в лоб», это будет видно в конце статьи.
Основной алгоритм построения модели переводчика без параллельных предложений можно описать следующим образом:
Далее поговорим о каждом пункте.
Векторизация слов
Элементарная смысловая составляющая языка – это слово. Если человек начинает учить незнакомый язык, то, как правило, он старается запомнить самые частые слова. Подобный принцип лежит в основе модели машинного перевода: на самом нижнем уровне оперируем словами (хотя это не всегда правда, но про BPE сегодня говорить не будем). С точки зрения компьютера слово – это только последовательность кодов символов. Никакого дополнительного смысла эта последовательность не несет. Поэтому слова надо каким-то образом «оцифровывать». Проще говоря, надо переводить слово в некоторый уникальный вектор или эмбеддинг. Построение такого преобразования само по себе очень большая и интересная задача, которая до сих пор актуальна. Причем решается эта задача чаще всего как раз с помощью Unsupervised Learning. Почитать о примерах реализации можно, например, здесь. Нам же важно, что такие модели существуют и обладают одним очень важным свойством: они подчиняются дистрибутивной гипотезе. Это значит, что слова, которые часто встречаются в одном контексте, в этом векторном пространстве будут располагаться ближе друг к другу. А слова, которые редко или вообще не встречаются в одном контексте, будут в этом векторном пространстве разнесены далеко. Таким образом, векторы слов образуют некоторую структуру в этом построенном пространстве.
Выравнивание векторных пространств
Можно предположить, что в идеальном случае такие структуры будут очень похожи для разных языков. На этом предположении и строится идея выравнивания эмбеддингов для разных языков. Имея два векторных пространства слов для разных языков, мы пытаемся максимально совместить их, чтобы сопоставить слова из разных языков друг с другом. Можно посмотреть наглядную иллюстрацию из статьи.
Самое логичное в данной задаче – использовать словари, которые, по сути, являются естественным отображением слов одного языка в слова другого языка. Если же словаря под рукой нет, можно получить его из небольшого набора параллельных предложений. В нашем эксперименте мы воспользуемся утилитой fast_align. Здесь надо сказать, что методы выравнивания векторных пространств на основе словарей работают неплохо, но порой с ними возникают проблемы. Во-первых, одному слову в словаре всегда соответствует несколько значений из другого языка – не всегда понятно, как работать с такой избыточной информацией. Во-вторых, пытаясь совместить векторные пространства по словарям, мы можем потерпеть неудачу, потому что словари составлены по совершенно другой структуре. Ну и наконец, бывают экзотические случаи, когда языковая пара, для которой мы хотим построить перевод настолько редка, что нет ни словаря, ни параллельного корпуса. Для таких случаев существуют методы выравнивания векторных пространства слов без использования информации из словарей. Про оба метода, как со словарем, так и без словаря, можно почитать, например, здесь.
Обучение переводчика
Итак, мы умеем переводить слово в вектор, а по вектору восстанавливать наиболее похожее слово из целевого языка. И уже теперь мы можем построить простейший переводчик. А именно: мы можем переводить предложения по отдельным словам. Конечно, это очень слабая модель перевода, но для начальной инициализации подойдет и такая. Теперь, имея простейшую модель перевода, мы можем сами порождать параллельные предложения. Конечно же, полученные параллельные предложения окажутся очень плохого качества – в них никак не будет учитываться грамматика языка. Самое время вспомнить о принципе обучения автокодировщиков для текстов.
Совсем недавно мы рассказывали, как модели автокодировщиков учатся восстанавливать зашумленный вход, чтобы настраивать свои параметры. В данном случае, полученный нами «плохой» параллельный корпус можно рассматривать как «зашумленную» версию перевода. И, пользуясь тем же способом, что и автокодировщики, мы можем учить модель восстанавливать истинный перевод. Для нашей пары «английский-клингонский» алгоритм выглядит следующим образом:
Стоит подчеркнуть, при данном подходе довольно логично обучать сразу две модели машинного перевода: с исходного языка на целевой и наоборот. Действительно, после некоторого числа итераций машинный переводчик достигнет качества пословного перевода (в теории) и больше не сможет улучшаться, так как корпус параллельных предложений так и остался «зашумленным». Поэтому в процессе обучения сгенерированный параллельный корпус надо периодически обновлять, переводя предложения более качественным обученным переводчиком. Казалось бы, пошагово улучшая переводчик на каждом шаге, мы в итоге должны получить идеальную модель. Если бы все было так просто! Мы не можем внести в модель больше информации, чем содержится в самом корпусе предложений изначально. К тому же, методы обучения машинного перевода, которые мы здесь рассматриваем, базируются на довольно сильных предположениях, которые на практике не совсем верны.
Модели перевода
То, какую модель перевода выбрать – отдельный вопрос. Глобально все модели можно разделить на два семейства: нейросетевые и статистические. Большим прорывом в области нейросетевого перевода стала архитектура трансформера, про который можно почитать в этой статье. У таких моделей есть большой недостаток: они требуют большого объема обучающей выборки. Причем данные в этой выборке должны быть достаточно хорошего качества. Статистические модели более просты и требуют гораздо меньшего объема данных для настройки параметров. Конечно, качество перевода у них, соответственно, будет ниже, но, как мы говорили в предыдущих статьях, нам не обязателен идеальный «читаемый» перевод. Достаточно, чтобы качества перевода хватало для дальнейших этапов работы.
Эксперименты
Продемонстрируем все теоретические выкладки на примере. Сразу оговоримся, что эксперименты несут чисто демонстративный характер и всего лишь иллюстрируют примерный ход экспериментов при построении модели.
Самое важное при построении новой модели машинного перевода – сбор данных. В случае с редкими языками вопрос сбора данных стоит особо остро, так как данных для таких языков не так много. Для клингонского языка мы подобрали несколько ресурсов, на которых можно было найти как параллельные данные (клингонский-английский), так и моноязыковые данные (предложения только на клингонском). В первую очередь, это сайт с открытыми параллельными корпусами, а также аналог Википедии на клингонском. С моноязыковыми данными для английского языка проблем, разумеется, нет, но мы ограничили размер выборки, чтобы сохранить баланс обучающих данных.
Что ж, у нас есть изложенный выше план, будем его придерживаться. Сначала надо обучить две модели векторизации слов для каждого языка по отдельности. Процедура эта довольно стандартная, и интересного в ней нет ничего.
Имея в распоряжении два векторных пространства слов, попробуем их выровнять друг относительно друга. Для этого будем использовать метод MUSE.
war
kill
noH
HoH
HoHlu’be’
pIHoHbe’
HoHlu’
muHoH
HoHlu’pu’
muHoHbe’
ghoHlu’
pIHoH
Носителей клингонского среди нас нет, поэтому оценить адекватность полученного перевода сложновато. Понадеемся на способности искусственного интеллекта и для проверки воспользуемся переводчиком Bing (разработчики которого, судя по плашке на странице переводчика, разработали перевод вместе с Институтом клингонского языка):
Видно, что хотя в топ-5 соседей к исходному слову «war» попал мусор (The unseen good old man), в целом нам удалось построить выравнивание.
А дальше следует непосредственно процесс обучения самой модели переводчика. Как мы говорили выше, для начальной инициализации создадим параллельный корпус, состоящий из пословного перевода предложений. На каждой следующей итерации будем обновлять этот корпус переводами нашей модели (которая, в теории, должна становиться лучше и лучше с каждой итерацией).
Посмотрим, как же работает наша модель после нескольких итераций обучения. Для оценки качества необходим истинный параллельный корпус. В качестве такого воспользуемся отрывком из Гамлета, который был переведен специалистами клингонского языка. Хотя клингонский канцлер Горкон уверен, что изначально перевод был сделан в другую сторону: «Вы никогда не поймете Шекспира, пока не прочитаете его в оригинале, на клингонском».
Обложка издания «Hamlet Prince of Denmark: The Restored Klingon Version», The Klingon Language Institute printed version, USA, 1996
continuous or not. now reference question. like, noted since nice primarily, severely respectively condition? or, crisis regulation battle bore condition, and, fought, sudden? died; sleeping
Qapla’! У нас даже есть одинаковые слова! Учитывая все допущения, которые мы сделали (чересчур маленький объем выборки, простая модель перевода и прочее), наличие хотя бы совпадающих слов уже является успехом.
При переводе текста модель статистического перевода учитывает несколько факторов (языковая модель, условные вероятности и пр.) с различными весами. Эти веса мы можем подкорректировать, дообучив модель на параллельном корпусе. В итоге перевод слегка улучшился:
be or not. now example question. like, noted since nice primarily, severely respectively condition? or, crisis regulation battle bore condition, and, fought, sudden? died; sleeping
Для сравнения, посмотрим, как бы выглядел перевод, если бы мы воспользовались обычным машинным переводчиком, обучающимся на нашем параллельном корпусе:
Может и норм, но для меня качество последнего перевода сопоставимо с дерьмом тарга.
Источник изображения: Кадр со съемочной площадки, снят во время производства 5 эпизода «Там, где никто не бывал», «Звездный путь: следующее поколение», 1987
Кроме того, в случае поиска переводных заимствований, как мы уже говорили, использование перевода по прямому назначению не предполагается. Полученный перевод далее используется модулем поиска заимствований, который не так требователен к качеству перевода. Однако это не отменяет того, что эту технику можно использовать и для построения модели, которая будет генерировать «читаемый» перевод. Об этом мы напишем в других статьях.
Большое спасибо Наталье Поповой за полезные консультации по вселенной Стартрека и моим коллегам за помощь в подготовке статьи.