Информационные технологии в лингвистике направлены на получение, хранение, передачу, распространение и преобразование языковых данных при помощи современных компьютерных программ. Их внедрение началось еще в прошлом веке. Сейчас же их развитие идет большими шагами. Возможно, уже скоро компьютеры будут писать книги, а программы-переводчики станут обыденной частью повседневной жизни каждого человека.
Лингвистика и информационные технологии: особенности взаимодействия
Первое устройство,способное распознавать речь, появилось в 1952 году. Сейчас это направление значительно эволюционировало. Примером является применение голосовой навигации в поисковых системах. Следующим этапом будет распознавание разговорной речи с использованием большого словаря. То есть все, что сказано, дословно прибор переделывает в текст. Технология STT (speech to text) пока полностью не доработана, но она распознает речь с довольно высокой достоверностью, чего вполне хватает, чтобы применять ее на практике.
Развивается и поддержка ввода текста на электронные носители. Одними из первых приложений, разработанных для этих целей, были программы, автоматически переносящие слова и выполняющие орфографическую проверку текста (спеллеры). Сейчас уже возможно распознавание печатного и рукописного текста, автозавершение.
Первые программы пословного машинного перевода были созданы более полувека назад. Но просто переводить слова оказалось недостаточно. Хоть эта сфера и развивается, идею качественного перевода без человеческого участия воплотить в жизнь пока не удается.
Взаимодействие лингвистики и IT ярко выражено в таких отраслях, как:
- информационный поиск и индексирование документов;
- компрессия текстовых сообщений (реферирование и аннотирование);
- извлечение фактов и знаний (Information Extraction) на основе синтаксического анализа;
- распознавание заранее заданных сюжетных схем;
- языковое упрощение для специализированных баз данных;
- классификация и кластеризация текстов.
Последнее направление сейчас особенно актуально, его развитие направлено на распознавании спама, фейковой информации. Принцип кластеризации применяется при классификации SMS-сообщений в мобильных устройствах.
Основные задачи лингвистических информационных технологий
Во главе угла – создание лингвопроцессоров, то есть систем, автоматически анализирующих и синтезирующих текстовые сообщения, речь на естественном языке. Подобные анализаторы бывают трех видов:
- Морфологический (теггер). Определяет грамматические характеристики слова (часть речи и соответствующий ей набор граммем, к примеру, падеж, лицо,число, время и т. п.).
- Синтаксический. Учитывает семантику, синтаксис и лексику, словосочетания и т.п. Итогом становится создание древа зависимостей.
- Семантический.Используя правила синтаксического перефразирования выполняет переход к глубинной семантико-синтаксической структуре предложения. В итоге составляется семантическая сеть, которая автоматически сравнивается с базой данных инфосистем.
К важным задачам можно отнести совершенный машинный перевод с помощью искусственного интеллекта. В эту же сферу действий без человеческого участия входят автоматически составляемые словари и энциклопедии, используемые в поисковиках для машинного перевода.
Также компьютерная лингвистика развивает системы, автоматически анализирующие и синтезирующие речь, то есть разрабатывает естественно-языковой интерфейс. В этом случае для распознавания речи необходимо задействовать все уровни языка.