Влияние IT на лингвистику и языковые коммуникации

Информационные технологии в лингвистике направлены на получение, хранение, передачу, распространение и преобразование языковых данных при помощи современных компьютерных программ. Их внедрение началось еще в прошлом веке. Сейчас же их развитие идет большими шагами. Возможно, уже скоро компьютеры будут писать книги, а программы-переводчики станут обыденной частью повседневной жизни каждого человека.

Лингвистика и информационные технологии: особенности взаимодействия

Первое устройство,способное распознавать речь, появилось в 1952 году. Сейчас это направление значительно эволюционировало. Примером является применение голосовой навигации в поисковых системах. Следующим этапом будет распознавание разговорной речи с использованием большого словаря. То есть все, что сказано, дословно прибор переделывает в текст. Технология STT (speech to text) пока полностью не доработана, но она распознает речь с довольно высокой достоверностью, чего вполне хватает, чтобы применять ее на практике.

Развивается и поддержка ввода текста на электронные носители. Одними из первых приложений, разработанных для этих целей, были программы, автоматически переносящие слова и выполняющие орфографическую проверку текста (спеллеры). Сейчас уже возможно распознавание печатного и рукописного текста, автозавершение.

Первые программы пословного машинного перевода были созданы более полувека назад. Но просто переводить слова оказалось недостаточно. Хоть эта сфера и развивается, идею качественного перевода без человеческого участия воплотить в жизнь пока не удается.

Взаимодействие лингвистики и IT ярко выражено в таких отраслях, как:

информационный поиск и индексирование документов;
компрессия текстовых сообщений (реферирование и аннотирование);
извлечение фактов и знаний (Information Extraction) на основе синтаксического анализа;
распознавание заранее заданных сюжетных схем;
языковое упрощение для специализированных баз данных;
классификация и кластеризация текстов.

Последнее направление сейчас особенно актуально, его развитие направлено на распознавании спама, фейковой информации. Принцип кластеризации применяется при классификации SMS-сообщений в мобильных устройствах.

Основные задачи лингвистических информационных технологий

Во главе угла – создание лингвопроцессоров, то есть систем, автоматически анализирующих и синтезирующих текстовые сообщения, речь на естественном языке. Подобные анализаторы бывают трех видов:

Морфологический (теггер). Определяет грамматические характеристики слова (часть речи и соответствующий ей набор граммем, к примеру, падеж, лицо,число, время и т. п.).
Синтаксический. Учитывает семантику, синтаксис и лексику, словосочетания и т.п. Итогом становится создание древа зависимостей.
Семантический.Используя правила синтаксического перефразирования выполняет переход к глубинной семантико-синтаксической структуре предложения. В итоге составляется семантическая сеть, которая автоматически сравнивается с базой данных инфосистем.

К важным задачам можно отнести совершенный машинный перевод с помощью искусственного интеллекта. В эту же сферу действий без человеческого участия входят автоматически составляемые словари и энциклопедии, используемые в поисковиках для машинного перевода.

Также компьютерная лингвистика развивает системы, автоматически анализирующие и синтезирующие речь, то есть разрабатывает естественно-языковой интерфейс. В этом случае для распознавания речи необходимо задействовать все уровни языка.