Новый модуль: Терминологический анализ
Терминологический анализ в CorpusCraft
Мы рады представить новый модуль «Терминология», который появился на вкладке корпуса и позволяет выполнить полный цикл работы с терминами — от извлечения до экспорта в международном формате TBX.
Зачем это нужно?
Работа с терминологией — одна из ключевых задач корпусной лингвистики. Студенты и исследователи часто сталкиваются с необходимостью:
- Автоматически извлекать кандидаты в термины из текстов
- Ручной фильтрации и валидации извлечённых кандидатов
- Классификации терминов по предметной области и регистру
- Разрешения терминологической омонимии
- Экспорта терминологической базы в стандартном формате
Раньше для этого приходилось использовать несколько отдельных инструментов. Теперь всё это доступно в одном месте.
Извлечение терминов по POS-паттернам
Модуль позволяет выбрать грамматические шаблоны для поиска терминов:
- ADJ + NOUN — прилагательное + существительное (например, «информационная система», «государственная служба»)
- NOUN + ADP + NOUN — существительное + предлог + существительное (например, «метод анализа данных»)
- Произвольные паттерны — любая последовательность Universal POS-тегов
Система обрабатывает все документы корпуса, агрегирует кандидатов по леммам и подсчитывает частоту встречаемости. Можно задать минимальную частоту для фильтрации редких вхождений.
Валидация кандидатов
Для каждого кандидата доступен контекст ±5 слов (аналог KWIC) и устойчивые коллокации. Можно принять или отклонить кандидата, указав причину решения и источник верификации. Фильтры по статусу (все / ожидающие / принятые / отклонённые) помогают ориентироваться в большом списке.
Классификация терминов
Для принятых терминов можно заполнить дополнительные характеристики:
- Класс термина — категория в терминологической системе
- Предметная область (домен) — сфера употребления
- Регистр — функциональный стиль (научный, официально-деловой и т.д.)
- Пример употребления — иллюстративный контекст
Разрешение омонимии
Термины-омонимы можно отметить специальным флагом и написать правило разрешения неоднозначности. Это помогает различать случаи, когда одна и та же словоформа используется в разных значениях.
Экспорт
Модуль поддерживает три формата экспорта:
- Таблица валидации (XLSX) — все кандидаты с решениями и причинами, условное форматирование по статусу
- Полный экспорт (XLSX) — три листа: все кандидаты, принятые термины с классификацией, омонимы с правилами
- TBX (TermBase eXchange) — международный стандарт ISO 30042 для обмена терминологическими данными
Как начать
Откройте любой корпус и перейдите на вкладку «Терминология». Выберите POS-паттерны, задайте минимальную частоту и нажмите кнопку извлечения. Система проанализирует все документы и покажет список кандидатов, готовых к валидации.
Попробуйте CorpusCraft
Создавайте и анализируйте текстовые корпуса с помощью исследовательских инструментов. Установка не требуется.