logo
3

8.5.3. Проблема понимания естественного языка

Обеспечение взаимодействия с ЭВМ на естественном языке (ЕЯ) является важнейшей задачей исследований по искусственному интеллекту (ИИ). Базы данных, пакеты прикладных программ и экспертные системы, основанные на ИИ, требуют оснащения их гибким интерфейсом для многочисленных пользователей, не желающих общаться с компьютером на искусственном языке. В то время как многие фундаментальные проблемы в области обработки ЕЯ (Language Processing, NLP) еще не решены, прикладные системы могут оснащаться интерфейсом, понимающем ЕЯ при определенных ограничениях.

Существуют два вида и, следовательно, две концепции обработки естественного языка:

  1. для отдельных предложений;

  2. для ведения интерактивного диалога.

Обработка естественного языка - это формулирование и исследование компьютерно-эффективных механизмов для обеспечения коммуникации с ЭВМ на ЕЯ. Объектами исследований являются:

  1. Собственно естественные языки.

  2. Использование ЕЯ как в коммуникации между людьми, так и в коммуникации человека с ЭВМ.

Задача исследований - создание компьютерно-эффективных моделей коммуникации на ЕЯ. Именно такая постановка задачи отличает NLP от задач традиционной лингвистики и других дисциплин, изучающих ЕЯ, и позволяет отнести ее к области ИИ. Проблемой NLP занимаются две дисциплины: лингвистика и когнитивная психология.

Традиционно лингвисты занимались созданием формальных, общих, структурных моделей ЕЯ, и поэтому отдавали предпочтение тем из них, которые позволяли извлекать как можно больше языковых закономерностей и делать обобщения. Практически никакого внимания не уделялось вопросу о пригодности моделей с точки зрения компьютерной эффективности их применения. Таким образом, оказалось, что лингвистические модели, характеризуя собственно язык, не рассматривали механизмы его порождения и распознавания. Хорошим примером тому служит порождающая грамматика Хомского, которая оказалась абсолютно непригодной на практике в качестве основы для компьютерного распознавания ЕЯ.

Задачей же когнитивной психологии является моделирование не структуры языка, а его использования. Специалисты в этой области также не придавали большого значения вопросу о компьютерной эффективности.

Различаются общая и прикладная NLP. Задачей общей NLP является разработка моделей использования языка человеком, являющихся при этом компьютерно-эффективными. Основой для этого является общее понимание текстов, как это подразумевается в работах Чарняка, Шенка, Карбонелла и др. Несомненно, общая NLP требует огромных знаний о реальном мире, и большая часть работ сосредоточена на представлении таких знаний и их применении при распознавании поступающего сообщения на ЕЯ. На сегодняшний день ИИ еще не достиг того уровня развития, когда для решения подобных задач в большом объеме использовались бы знания о реальном мире, и существующие системы можно называть лишь экспериментальными, поскольку они работают с ограниченным количеством тщательно отобранных шаблонов на ЕЯ.

Прикладная NLP занимается как правило не моделированием, а возможностью коммуникации человека с ЭВМ на ЕЯ. В этом случае не так важно, как введенная фраза будет понята с точки зрения знаний о реальном мире, а важно извлечение информации о том, чем и как ЭВМ может быть полезной пользователю (примером может служить интерфейс экспертных систем). Кроме понимания ЕЯ, в таких системах важно также и распознавание ошибок и их коррекция.

Основной проблемой обработки естественного языка является языковая неоднозначность. Главное затруднение использования в системах и сетях естественных языков связано с пониманием смысла сказанного либо написанного в рамках хотя бы одного предложения. Однако, часто, широта контекста, необходимого для понимания слова, выходит за рамки предложения. Применение для понимания естественного языка грамматического разбора по соответствующим правилам дало определенные результаты. Тем не менее, основанный на этом метод воспринимает понятия только лишь в очень узких областях знаний. Позже к указанному методу добавился способ декомпозиции предложения на фразы. В результате появились разработки, дающие возможность пользователям работать с прикладными процессами на естественных языках. Существуют разные виды неоднозначности:

  1. Синтаксическая (структурная) неоднозначность: во фразе Time flies like an arrow для ЭВМ неясно, идет ли речь о времени, которое летит, или о насекомых, т. е. является ли слово flies глаголом или существительным.

  2. Смысловая неоднозначность: во фразе The man went to the bank to get some money and jumped in слово bank может означать как банк, так и берег.

  3. Падежная неоднозначность: предлог in в предложениях He ran the mile in four minutes/He ran the mile in the Olympics обозначает либо время, либо место, то есть представлены различные отношения.

  4. Референциальная неоднозначность: для системы, не обладающей знаниями о реальном мире, будет затруднительно определить, с каким словом - table или cake - соотносится местоимение it во фразе I took the cake from the table and ate it.

Литерация (Literalness): в диалоге Can you open the door? - I feel cold ни просьба, ни ответ выражены нестандартным способом. В других обстоятельствах на вопрос может быть получен прямой ответ yes/no, но в данном случае в вопросе имплицитно выражена просьба открыть дверь.

Центральная проблема как для общей, так и для прикладной NLP - разрешение такого рода неоднозначностей - решается с помощью перевода внешнего представления на ЕЯ в некую внутреннюю структуру. Для общей NLP такое превращение требует набора знаний о реальном мире. Так, для анализа фразы Jack took the bread from the supermarket shelf, paid for it, and left и для корректного ответа на такие вопросы, как What did Jack pay for?, What did Jack leave? и Did Jack have the bread with him when he left? необходимы знания о супермаркетах, процессах покупки и продажи и некоторые другие.

Прикладные системы NLP имеют преимущество перед общими системами, так как работают в узких предметных областях. К примеру, системе, используемой продавцами в магазинах по продаже компьютеров, не нужно «раздумывать» над неоднозначностью слова terminals в вопросе How many terminals are there in the order?

Тем не менее, создание систем, имеющих возможность общения на ЕЯ в широких областях, возможно, хотя пока результаты неудовлетворительны.

Искусственным языком является набор символов, кодов и правил их комбинирования. Искусственные языки предназначены для обмена информацией между пользователями или прикладными процессами. Единицей языка является слово. Оно служит для наименования (обозначения) понятий, предметов, действий, состояний, признаков, связей и т.д. Слово представляется последовательностью символов или бит, рассматриваемой как единое целое.

Искусственные языки подразделяются на универсальные и специализированные. К первым относятся те, которые рассчитаны на широкий круг задач. Специализированные языки предназначены для узкой области применения. Среди универсальных языков следует особо выделить проблемно-ориентированные языки. Это - языки программирования, структура и символика которых однозначно определяют смысл требуемого. Рассматриваемые языки представляют особые удобства для наглядного описания процедурных шагов процесса обработки данных и передачи данных при решении широкого класса задач. Ряд международных организаций занимается стандартизацией языков высокого уровня. Важную роль в этом процессе играет организация, именуемая конференцией по языкам информационных систем. Для эффективного использования высокоуровневых языков создаются специальные интегральные схемы (ИС).