Машина с языком и смыслом

Фото: Лана Абрамова
// Впервые в истории создана система, которая понимает тексты почти как человек
Ольга Андреева

В этом году российская компания ABBYY выпустила на рынок первые модули компьютерной системы Compreno. Программа понимает смысл текстов, а не просто ищет соответствия словам, как это делают обычные компьютерные переводчики и системы поиска. Для прикладной лингвистики это революция. Чтобы ее совершить, понадобилось почти 20 лет, 80 миллионов долларов и много-много вдохновения и интеллекта.

Одна стена зеленая, другая желтенькая, третья фиолетовая. На одной стене висит коллекция бумерангов, на другой маска лошади. В одном углу лежит сложенная байдарка, в другом стоит барабан.

За компьютером, сползши в кресле так, что видна только рыжая макушка, сидит лингвист. Я не могу определить, кто это: девушка или молодой человек. Из вторичных половых признаков в моем распоряжении только милые пушистые тапочки с помпоном, торчащие из-под стола. Тапочки надеты на худенькие загорелые ножки. На тапочках художественно вышит лейбл — ABBYY. Желтый шелк на красном искусственном мехе. Наверное, все-таки девушка.

Человек из ABBYY

Я гуляю по московскому офису ABBYY, разместившемуся в спальном районе Отрадное. Зеленые стены сменяют желтые, мелькают молодые лица. Все это похоже на гигантскую игровую комнату начальной школы для одаренных детей. Мой гид Анна Жаркова, заместитель гендиректора по развитию государственных и общественных программ, приводит меня в настоящую детскую игровую, где малыши ждут своих работающих родителей. Сходство со «взрослым» офисом налицо. Только вместо байдарок, барабанов и компьютеров по углам высятся замки из кубиков.

Молодая и веселая компания ABBYY — мировой лидер в части лингвистических технологий, потокового анализа данных, обработки и распознавания больших объемов информации. Ежегодный оборот компании давно исчисляется сотнями миллионов долларов. Такие же концептуальные разноцветные офисы открыты еще в 9 странах. Всего в компании работает около 1200 сотрудников и 900 аутсорсеров. Из них где-то 800 — в Москве.

— Кто такой человек из ABBYY? — переспрашивает Анна и задумывается. — Наверное, прежде всего умный. Такой концентрации умных людей я вообще нигде не видела. Когда ты слушаешь, о чем говорят в коридорах, то понимаешь, что находишься в эпицентре жизни интеллекта. Заметьте, не искусственного!

Фото: Лана Абрамова

Ни в одной отрасли современного знания, включая космические технологии, нет задач сложнее, чем в электронной лингвистике. Круче просто не бывает. Список требований, предъявляемых к потенциальному сотруднику ABBYY, огромен. Только несколько институтов в стране выпускает специалистов, соответствующих требованиям отрасли. И хотя ABBYY давно уже организовала три собственные кафедры (две в Физтехе и одну в РГГУ), это не особо спасает ситуацию. Ведь есть еще Яндекс, Гугл и иже с ними, которым тоже нужны сотрудники.

На рынок без кроссовок

Когда-то, еще в начале 90-х, ABBYY (тогда компания называлась BIT Software) прославилась своими словарями. Первый шедевр в линейке ABBYY-Lingvo был создан в 89-м. Внутрикорпоративная легенда гласит, что основатель компании Давид Ян, тогда студент 4-го курса Физтеха, хотел по-быстрому сделать простую программку, продать ее и купить кроссовки. Быстро не получилось, зато процесс оказался захватывающим. Подобралась хорошая команда, вскоре была создана компания. В суете стартапа про кроссовки забыли, а потом это уже было неважно — Давид работал по 24 часа в сутки. Какие кроссовки?! Первый же успех компании на рынке софта оказался равносилен финансовому краху.

— Когда словарь был готов, Давид попросил меня поехать в Ереван и установить его первым заказчикам, — рассказывает Арам Пахчанян, вице-президент и один из основателей ABBYY. — Я приехал, стал устанавливать Lingvo, но оказалось, что платформа тех компьютеров, на которых он создавался, не совпадает с платформой пользователей. Пришлось обходить защиту на глазах заказчиков, которые этот процесс, конечно, запомнили. В результате уже через пару месяцев весь Советский Союз был обеспечен взломанным словарем.

«Когда ты слушаешь, о чем говорят в коридорах, то понимаешь, что находишься в эпицентре жизни интеллекта. Заметьте, не искусственного!»

Первый продукт ABBYY завоевал пиратский рынок и похоронил идею быстрых и легких денег.

— Наш словарь тогда был установлен, наверно, на тысячах компьютеров, а платили нам с десятков, — без улыбки рассказывает Арам. — Когда мы стали пытаться его продавать, на нас разозлились: вы что, издеваетесь? Снег чукчам продаете. И еще не стыдитесь говорить, что это сделали вы? Нас принимали за спекулянтов, которые пытаются добро, которое и так у всех есть, продавать за деньги. Приходилось убеждать, что да, мы разработчики, и по закону воровать нельзя — надо деньги заплатить. Ну, иногда это удавалось.

Дальше — больше. В 1993 году компания, в которой тогда работало уже чуть ли не 20 сотрудников, выпустила на рынок распознаватель текста Finereader. Программа по тем временам была совершенно уникальной — она работала и с русским, и с английским текстом. Потом ABBYY решили заняться проблемой потокового ввода информации и снова выбились в лидеры отрасли. В общем, сложилась традиция: если это ABBYY, значит, только лучшее. 

29 октября 2014 года у ABBYY юбилей —  25-лет со дня рождения. За это время фирма стала ведущим в мире разработчиком технологий в области распознавания текстов и анализа информации. Ее программы и решения используют свыше 40 миллионов людей в 200 странах мира.

А к 2014 году ABBYY создала систему Compreno…

Это любовь

— Понимаете, мы же с самого начала Его хотели сделать, — говорит Аня, — ну а кто Его не хочет сделать? Конечно, это всеобщая мечта. Все Его делали. И мы тоже…

История создания ABBYY-Compreno, системы понимания и анализа текстов на естественных языках, — это история любви. Вечная любовь лингвиста-структуралиста к Переводчику, основанному на семантическом понимании текста. Примерно так Данте любил Беатриче, а Ассоль — капитана Грея.

Алан Тьюрингбританский ученый, отец-основатель информатики и искусственного  интеллекта. Он — автор знаменитого «теста Тьюринга», предполагающего, что компьютер «мыслит», если человек, взаимодействующий с ним, не сможет в процессе общения отличить компьютер от другого человека. В 1952 году Тьюринга обвинили в гомосексуализме: ему был предоставлен выбор между принудительной гормональной терапией и тюремным заключением. Спустя два года ученый покончил собой. Согласно легенде, он надкусил отравленное цианидом яблоко. Надкушенное яблоко компании Apple напоминает именно об этой истории.

Ноам Хомскийамериканский лингвист и общественный деятель левого толка. Еще с 50-х годов и по сей день Хомский ругает американский империализм и производит революции в формальной лингвистике.

Лингвисты любят Переводчик со времен Второй мировой войны, когда шифровали себя и взламывали шифры других. С тех пор они Его делают. А пока делали, из обломков идей и стратегий семантического анализа успели создать электронно-вычислительные машины размером с дом и уменьшить их до размера спичечного коробка, изобрести интернет, создать поисковые системы. За это время Алан Тьюринг успел съесть свое отравленное яблоко, Стив Джобс родился и умер, Ноам Хомский создал несколько теорий и сам же их опроверг — но все это было напрасно, потому что Переводчик так и не создали.

Начинали с самого простого уровня — лексического. В 1954 году в Нью-Йорке был проведен Джорджтаунский эксперимент, когда машина под вспышки фотокамер и при большом стечении народа бодро переводила простенькие предложения с русского на английский. Авторы эксперимента твердо пообещали, что через 3–4 года машина будет уже по-настоящему понимать человеческую речь, и убедили правительство в необходимости мощной финансовой поддержки. Все это было немножко фейком. Система работала на очень простом механизме пословных соответствий, которых было всего-то 250, и знала только шесть правил перевода. А предложения были составлены так, чтобы избежать нормальной для языка многозначности, смысловых пропусков и всего, что так мешает лингвистам и инженерам понять друг друга.

«Кондитер жарит хворост на раскаленной плите» — для компьютерного лингвиста эта фраза равносильна самоубийству.

Игорь Мельчук — создатель лингвистической теории «Смысл ↔ Текст». С 50-х годов работал в Институте языкознания АН СССР, где занимался проблемой машинного перевода. В конце 70-х выступал в поддержку советских диссидентов: Андрея Синявского, Юлия Даниэля, Андрея Сахарова и Сергея Ковалёва. После этого под давлением властей был вынужден уехать в Канаду, где живет до сих пор.

Юрий Апресян — академик РАН, крупнейший в России специалист по семантике, машинному переводу, лексикографии. Как и его друг Игорь Мельчук, в 70-е имел проблемы с советскими властями.

За 10 лет ничего существенного в машинном переводе не произошло, и правительство США практически закрыло все исследовательские программы в этой области.

В СССР работы шли параллельно с американскими. Наша история автоматического перевода полна кровавых увольнений, борьбы за политические и интеллектуальные свободы, полулегальных исследований и теоретических прорывов. Юрий Апресян, Игорь Мельчук — столпы современной теории перевода. Но теория теорией, а работающего продукта на выходе не получил никто.

Для того чтобы научить машину понимать текст, нужно было дать ей общее представление о мире, передать человеческий взгляд на то, как устроена жизнь на планете Земля. Это предполагало такое количество чисто ручной работы, что исследовательская группа в 5–7 человек должна была бы работать несколько столетий, чтобы довести дело до конца.

Разработчики ABBYY создавали эту систему 19 лет. Компания вложила в нее 80 миллионов долларов. Количество сотрудников в группе Compreno составляет 200 человек. Общие трудозатраты на сегодня исчисляются примерно 2000 человеко-годами.

Фото: Лана Абрамова

Семантика против статистики

Почему машина такая непонятливая? Потому что она может работать только с системой формальных признаков. А языку на признаки очень часто плевать. Возьмем простую фразу: «Кондитер жарит хворост на раскаленной плите» — обычный лингвист быстро опишет значения используемых слов, синтаксическую структуру, ввернет что-нибудь про многозначность и будет вполне доволен собой.

Но для компьютерного лингвиста эта фраза равносильна самоубийству. Потому что у слов «хворост» и «плита» есть как минимум по два значения и никаких формальных признаков, которые помогли бы машине выбрать одно из них. Компьютер легко «понял» бы эту фразу как историю про поджарку сухих веток на большом камне посреди леса.

— Представим себе двух человек, которые говорят на разных языках — допустим, китайском и русском, — говорит Юрий Корюкин, гендиректор ABBYY-Russia. — Понимаете, ведь это не только разные языки с разными грамматическими системами, это разные культуры, картины мира разные. Но, скажем, понятие «предмет, который мы используем для сидения» — оно для этих языков будет общее. Стул — это конкретное русское слово, которое описывает некую универсальную сущность. Правильно? Есть универсальное понятие мебели, в нем выделяется универсальное понятие приспособления для сидения, на него уже навешиваются все разновидности: стулья, кресла, табуретки… Так вот, мы описали не слово «стул», а понятие — предмет для сидения, то есть структуру сущего.

Фото: Лана Абрамова

Словарь машинного перевода

Прямой (пословный) перевод — одна из первых стратегий машинного перевода. Слово входного языка заменяется словарным эквивалентом выходного языка. Этот подход использовался в системах машинного перевода первого поколения с конца 40-х до середины 60-х годов прошлого века. Очень неэффективен.

Трансфер (Transfer machine translation) — модификация систем прямого перевода, появившаяся в 70-х годах. Моделирует грамматическую структуру предложения на входном языке и преобразует в грамматическую конструкцию на выходном языке. Первый шаг к пониманию текста.

Интерлингва (Interlingua machine translation) — стратегия, предложенная еще Уивером в конце Второй мировой войны. Идея в том, что между структурами входного и выходного языков стоит универсальный язык, описывающий смысл, а не грамматику.

Статистический перевод (Statistic machine-translation) — система накопления соответствий между текстами на разных языках. Допустим, есть тысячи книг на английском и тысячи тех же самых книг на русском. Система определяет, какой перевод используется чаще всего. Понятно, что в русско-английской паре, где текстов невероятное множество, статистика работает хорошо — это видно по Google-переводчику. С русско-суахильской парой дела обстоят хуже.

Онтология — в компьютерной лингвистике это попытка предельно формализованного описания той или иной области явлений, понятий, иерархий и связей между ними. Фактически построение картины миры, понятной компьютеру.

 Омонимия — самое противное для компьютерных лингвистов свойство языка. Попробуйте объяснить машине, чем рекламная акция отличается от привилегированной. Единственный способ решить проблему — научить компьютер понимать контекст.

Эллипсис — очевидный для говорящего пропуск слов. Например: «Мама мыла раму, а дочь — посуду». Почти непреодолимое препятствие для машинного перевода. Решается в интерлингве.

Анафорические связи — связи между словами и заменяющими их местоимениями. Например: «Избежать повтора слов можно с помощью местоимений, которые их заменяют». Большая проблема для машинного перевода. Решается в интерлингве.

То, о чем говорит Юрий, на языке лингвистов называется семантическим деревом. Эти семантические деревья можно вырастить над любой реальностью. Сначала растет ствол из самых общих понятий, потом он обрастает ветками конкретики. Все эти смысловые стволы и ветки сильно напоминают платоновские эйдосы — идеальные образы вещей. Чистые сущности, стерильно свободные от грамматики, падежей, родов, склонений.

— До сих пор переводчики были парные: русско-английские, англо-китайские. То есть для каждой пары языков разрабатывались свои алгоритмы соответствия. Но, имея такое вот семантическое дерево, мы можем этого не делать. Потому что сначала текст переводится на язык понятий, а с него уже на любой другой — без специальных соответствий, — продолжает Юрий.

Собственно говоря, сама идея ABBYY не принадлежит. Еще в 50-е годы прошлого века лингвисты заговорили о необходимости некоего метаязыка, который служил бы универсальным посредником при переводе. Но вот воплотить идею в работающий продукт не удалось никому. А между тем метаязык открывал невероятные возможности.

— Перевод не самая важная вещь на свете, — сияя глазами, говорит Юрий Корюкин. — Имея такую технологию, мы можем решать огромное множество куда более серьезных бизнес-задач в области классификации, анализа больших объемов информации, поиска. Например, полный и релевантный поиск — это то, что стандартными поисковиками делается плохо. Как работает обычный поисковик? Он индексирует множество запросов пользователей. Работает статистика кликов. Сами пользователи делают поиск более эффективным. Чем больше вариантов запроса, тем лучше результат. Но, например, у вас есть два запроса: «рекламная активность» и «маркетинговая кампания». В сущности, это почти одно и то же, но в стандартном поисковике результаты поиска пересекаться не будут.

Почему? Потому что нынешние поисковые системы не понимают текст, а только анализируют его статистически, опираясь на огромный массив данных. Чтобы добиться понимания, машина должна располагать аналитической моделью, по сложности сопоставимой с моделью самого языка. То есть должна не только различать слова и значения грамматических показателей, но и анализировать синтаксис и, главное, понимать смысл высказывания, накладывая его на культурную модель мира, принятую в конкретном языке. Есть разные уровни анализа: лексический, морфологический, синтаксический, семантический и прагматический. В реальных работающих поисковиках и текстовых анализаторах дальше синтаксического уровня дело не идет. Например, переводчик Гугла работает на чисто статистических алгоритмах. Принцип такой: берем корпус текстов на русском и корпус на английском. Перебираем множество вариантов и обнаруживаем соответствия. Но эти соответствия варьируются в зависимости от количества запросов и новых объемов данных. Если сегодня Гугл что-то перевел правильно, не факт, что завтра он сможет повторить подвиг. 

Как превратить кодиум в Аполлинария Карловича

После очередного интервью мы с Анной на минутку заходим в кабинет, который она делит с тремя коллегами. Опять разноцветные стены и куклы на рабочих столах.

— А это наш Аполлинарий Карлович, — широким жестом знакомит Анна.

В комнате мы одни. Только на столике в самом центре комнаты стоит дерево.
— ?
— Ну, мне ребята его на день рождения подарили. Как-то сразу стало понятно, что он не может быть просто деревом в горшке. Тем более если он… э-э (Анна вчитывается в мелкие буквы ботанической справки) кодиум. Посмотрели на него и поняли, что на самом деле это Аполлинарий Карлович.

Анна повторяет путь лингвистов, придумавших систему обнаружения смысла, свободную от языковых соответствий. Если на важный, пышный кодиум посмотреть онтологическим взглядом, направленным в самую суть вещей, он неизбежно превратится в Аполлинария Карловича.

Фото: Лана Абрамова

Краткая история ABBYY

1989 — получив четверку на экзамене по французскому, студент МФТИ Давид Ян шел в общагу и думал: «А хорошо бы сделать электронный словарь…»

1989 — Давид Ян основывает компанию BIT Software.

1990 — первый электронный словарь Lingvo 1.0.

1993 — выпушена система распознавания текстов FineReader 1.0.

1997 — принято решение о выходе на мировой рынок. Компания получает название ABBYY, буквально означающее «ясный глаз». Это реконструированная форма праязыка мяо-яо, гипотетического языка-предка групп мяо-яо, ну, хмун, хмонг и киммун. Название связано с деятельностью компании в области оптического распознавания текстов.

2001 — выпущена система FormReader для автоматического ввода документов, заполненных от руки (например, бланков ЕГЭ).

2002 — первая версия словаря Lingvo для мобильных устройств.

2004 — выходит система PDF Transformer, программа для конвертации PDF-файлов в редактируемые форматы.

2006 — ABBYY открывает  кафедру распознавания изображений и обработки текста в МФТИ.

2008 — система FineReader поставлялся с устройствами ведущих производителей, таких как Fujitsu, Panasonic и Xerox.

2012 — при поддержке ABBYY открыты кафедры компьютерной лингвистики в РГГУ и МФТИ.

2014 — первые решения на базе технологии Compreno, способной понимать смысл написанного.

О том, как устроен онтологический взгляд профессионального лингвиста, рассказывает Анатолий Старостин, руководитель группы семантического анализа ABBYY:

— Расклад такой — мы умеем анализировать естественный язык многослойно. Морфологический анализ можем делать, ну и синтаксический. Это то, чем сейчас никого не удивишь, это давно работает. Но дальше мы пытаемся, и достаточно успешно, сделать семантико-синтаксический анализ. Все слова в тексте надо привязать к неким классам универсальной семантической иерархии, которая была создана ручным трудом большого количества лингвистов. Если сказано, что «мама мыла раму», то системе надо понять, что «мама» — это семантический класс «mother», «мыла» — это семантический класс «to wash», «рама» — «frame». При этом мама является субъектом, а рама — объектом. Мы получаем модель ситуации. Эта иерархия претендует на некую полноту, в ней есть как бы все.

Но семантическая иерархия — это еще не чистый метаязык понятий. Здесь еще слишком много грамматики. Надо было выйти на следующий уровень — уровень чистого смысла.

— Мы до конца не знаем, что такое смысл текста, это неопределяемое понятие, — продолжает объяснять Старостин. — Мельчук называет смыслом то, что сохраняется при перефразировке. Если изменять форму, но сохранять содержание, то, что остается, и есть смысл. Но сколько предложений с одинаковым смыслом может быть отнесено к одному и тому же семантико-синтаксическому дереву? Оказывается, есть некоторый предел. Если сказать «дом строится рабочими» или «рабочие строят дом», то деревья в обоих случаях будут одинаковые. Но если вы скажете что-нибудь типа «люди, являющиеся рабочими, осуществляют строительство дома» — смысл тот же, а дерево будет другое. Здесь начинается функция онтологии. Поверх лингвистических описаний мы начинаем накладывать онтологии понятий реального мира, отстраненных от лингвистики как таковой. Если вы создадите модель мира, в которой будут два понятия —  «строитель» и «объект строительства» — и предикат «строить», вы вообще не будете думать о словах, вы просто опишете, что такое бывает, и сформируете таким образом онтологию. На этом уровне вы отделяетесь от слов и переходите к понятиям и смыслам. Мы создали онтологии только для некоторых сфер человеческой деятельности — банковской, страховой, нефтегазовой и некоторых других. На сегодня это последний этаж системы Compreno.

Онтологический этаж анализа и есть та картина мира, которая делает технологию Compreno уникальной, а ABBYY — победителем в многодесятилетнем соревновании лингвистов. Выход на этот этаж открывает возможности, говорить о которых до сих пор мог позволить себе только Голливуд и его сценаристы. Например, тот универсальный робот, который действовал в «Звездных войнах» и казался крутейшей выдумкой авторов фильма, по сути, может быть воссоздан в реальности на технологиях Compreno.

— Ну, у меня нет причин думать, что это невозможно, — скромно говорит Анатолий Старостин, — и даже есть, наверное, надежда, что такой компьютер появится именно в рамках нашей технологии. В каком-то смысле мы в эту сторону и движемся. Но это такой объем работы, который даже невозможно оценить. Может быть, при благоприятном стечении обстоятельств система в какой-то момент сама разовьется так, что появится иллюзия понимания. Но я считаю, что это все равно будет только иллюзия. Человек понимает в миллион раз больше. 

 

Опубликовано в журнале "Кот Шрёдингера" №2 (02) декабрь 2014 г.

Подписаться на «Кота Шрёдингера»