Новый модуль: Терминологический анализ

Команда CorpusCraft

Терминологический анализ в CorpusCraft

Мы рады представить новый модуль «Терминология», который появился на вкладке корпуса и позволяет выполнить полный цикл работы с терминами — от извлечения до экспорта в международном формате TBX.

Зачем это нужно?

Работа с терминологией — одна из ключевых задач корпусной лингвистики. Студенты и исследователи часто сталкиваются с необходимостью:

  • Автоматически извлекать кандидаты в термины из текстов
  • Ручной фильтрации и валидации извлечённых кандидатов
  • Классификации терминов по предметной области и регистру
  • Разрешения терминологической омонимии
  • Экспорта терминологической базы в стандартном формате

Раньше для этого приходилось использовать несколько отдельных инструментов. Теперь всё это доступно в одном месте.

Извлечение терминов по POS-паттернам

Модуль позволяет выбрать грамматические шаблоны для поиска терминов:

  • ADJ + NOUN — прилагательное + существительное (например, «информационная система», «государственная служба»)
  • NOUN + ADP + NOUN — существительное + предлог + существительное (например, «метод анализа данных»)
  • Произвольные паттерны — любая последовательность Universal POS-тегов

Система обрабатывает все документы корпуса, агрегирует кандидатов по леммам и подсчитывает частоту встречаемости. Можно задать минимальную частоту для фильтрации редких вхождений.

Валидация кандидатов

Для каждого кандидата доступен контекст ±5 слов (аналог KWIC) и устойчивые коллокации. Можно принять или отклонить кандидата, указав причину решения и источник верификации. Фильтры по статусу (все / ожидающие / принятые / отклонённые) помогают ориентироваться в большом списке.

Классификация терминов

Для принятых терминов можно заполнить дополнительные характеристики:

  • Класс термина — категория в терминологической системе
  • Предметная область (домен) — сфера употребления
  • Регистр — функциональный стиль (научный, официально-деловой и т.д.)
  • Пример употребления — иллюстративный контекст

Разрешение омонимии

Термины-омонимы можно отметить специальным флагом и написать правило разрешения неоднозначности. Это помогает различать случаи, когда одна и та же словоформа используется в разных значениях.

Экспорт

Модуль поддерживает три формата экспорта:

  • Таблица валидации (XLSX) — все кандидаты с решениями и причинами, условное форматирование по статусу
  • Полный экспорт (XLSX) — три листа: все кандидаты, принятые термины с классификацией, омонимы с правилами
  • TBX (TermBase eXchange) — международный стандарт ISO 30042 для обмена терминологическими данными

Как начать

Откройте любой корпус и перейдите на вкладку «Терминология». Выберите POS-паттерны, задайте минимальную частоту и нажмите кнопку извлечения. Система проанализирует все документы и покажет список кандидатов, готовых к валидации.

Попробуйте CorpusCraft

Создавайте и анализируйте текстовые корпуса с помощью исследовательских инструментов. Установка не требуется.