Технология нормализации данных
Основные принципы
Технология нормализации данных N-Forma представляет собой формализованный и воспроизводимый подход к обработке структурированных и слабо структурированных массивов данных, предназначенный для очистки, структурирования, атрибутизации, классификации, обогащения, дедубликации и подготовки данных к использованию в информационных системах.

Технология опирается на формальные модели качества данных и практики управления мастер-данными, включая ISO 8000, ISO/IEC 25 012, ISO/IEC 25 024 и подходы DAMA-DMBOK. Указанные источники используются как основа для проектирования правил качества, определения характеристик данных, настройки процедур контроля и документирования решений по нормализации.

Технология оперирует следующими базовыми сущностями:
  • атрибут,
  • допустимое значение атрибута,
  • классификационная модель,
  • шаблон нормализованного описания,
  • эталонная запись,
  • матрица соответствия,
  • правило сопоставления,
  • правило дедубликации,
  • внешний источник обогащения,
  • контур публикации результатов.

N-Forma рассматривает нормализацию как последовательность управляемых операций, для которых формируются
  • явные правила обработки,
  • атрибутивные и классификационные модели,
  • критерии сопоставления,
  • процедуры контроля качества.

Технология ориентирована на работу со справочниками МТР, услуг, контрагентов, договоров, физических лиц, финансовой и управленческой аналитики, внешних и внутренних классификаторов, а также с иными наборами данных, в которых присутствуют неоднородность структуры, вариативность представления значений, смешанные поля и дублирующиеся записи.

Результатом применения технологии является нормализованный массив данных в согласованной структуре, пригодный для загрузки в ERP-, MDM-, BI-, CRM-, PLM- и иные прикладные системы, а также для дальнейшей машинной обработки, аналитики и интеграции.
Инструменты нормализации
В основе технологии лежит сочетание типовых и специализированных инструментов. Каждый инструмент выполняет определенный класс операций и передает результат на следующий этап.

Стандартные средства используются для первичной подготовки, анализа и постобработки данных.

Специализированные модули, скрипты, словари, регулярные выражения, алгоритмы сопоставления и базы данных применяются в задачах, требующих сложной логики преобразований и повышенной производительности.
Excel
Excel применяется для первичной подготовки входящих массивов и финальной доработки выходных данных. Он используется как прикладная среда для консолидации данных из нескольких файлов и листов, удаления служебных фрагментов, приведения многомерных и иерархических таблиц к плоскому виду, выравнивания структуры столбцов, преобразования форматов кодов, дат, идентификаторов и числовых значений.

На завершающем этапе Excel используется для настройки структуры итоговой таблицы, изменения порядка и состава полей, подготовки загрузочных файлов и выпуска результата в согласованном с целевой системой формате.
Макросы Visual Basic
Макросы Visual Basic используются для автоматизации повторяющихся операций в Excel и для реализации сценариев, требующих условной логики обработки. С их помощью выполняются преобразование сложных группировок и иерархий в плоские таблицы, пакетная обработка массивов, связывание таблиц по составным ключам, перенос значений по правилам совпадения и автоматизация типовой постобработки результатов.
Внешние скрипты
Скрипты на Python, PHP, JavaScript, Visual Basic и других языках используются для реализации нестандартных алгоритмов обработки данных.

В их состав входят регулярные выражения, процедуры разборки текстовых описаний, многоэтапные преобразования, формирование промежуточных таблиц, специализированные проверки, автоматизированное сопоставление и подготовка данных для загрузки в основной контур нормализации.

Внешние скрипты применяются в задачах, связанных с обработкой больших массивов записей, разбором смешанных полей, выделением атрибутов из текстов, построением правил сопоставления и подготовкой выгрузок в различных форматах обмена, включая CSV, Excel, XML и JSON.
Базы данных
Базы данных MySQL, SQLite и иные СУБД используются для промежуточного хранения, ускорения сложных преобразований, построения выборок, сопоставления больших наборов записей и фиксации промежуточных результатов обработки.

Использование СУБД позволяет выстраивать устойчивые конвейеры нормализации с поддержкой промежуточных слоев данных, технических таблиц, правил сопоставления, справочников, словарей, матриц соответствия и результатов дедубликации.
Loginom
Loginom используется как low-code платформа, на базе которой реализуется основной контур нормализации данных. В среде Loginom выполняются загрузка и интеграция данных из различных источников, профилирование и анализ качества, очистка и структурирование, классификация, обогащение, дедубликация и публикация результатов.

Использование Loginom позволяет реализовать воспроизводимые и масштабируемые сценарии обработки данных в единой технологической среде. Платформа обеспечивает наглядное управление процессом нормализации, поддержку проектных правил обработки и согласованное выполнение операций, необходимых для подготовки данных к загрузке в ERP-, MDM-, BI- и иные целевые системы.

Loginom выполняет функцию технологического ядра нормализации и используется совместно с Excel, внешними скриптами, базами данных и вспомогательными модулями контроля. Такой подход обеспечивает связность обработки, прозрачность преобразований и устойчивость технологического контура при работе с массивами НСИ различного объема и сложности.
Использование LLM и ML
В технологии N-Forma LLM- и ML-компоненты применяются как часть гибридного контура обработки данных. Они включаются в технологическую схему проекта для решения задач, связанных с обработкой сложных текстовых описаний, извлечением признаков из слабо структурированных полей, предварительной классификацией объектов, поиском вероятных соответствий между записями и выявлением квази-дублей.

LLM- и ML-компоненты используются совместно с правилами обработки, словарями, шаблонами, скриптами, классификационными моделями и процедурами валидации. Результаты их работы проходят контроль по атрибутивной модели, правилам нормализации, ограничениям допустимых значений и процедурам проверки качества данных.

Применение LLM- и ML-инструментов в технологии N-Forma носит точечный характер и определяется составом данных, сложностью интерпретации записей и требованиями к качеству результата. Формализуемые массовые операции выполняются средствами регламентированной обработки данных, а результаты вероятностной интерпретации подлежат дополнительной проверке в установленном технологическом контуре.

При использовании внешних AI-сервисов в технологический процесс включаются процедуры обезличивания данных. Для критичных данных предусматривается применение локальных AI-моделей и выполнение обработки в защищенной инфраструктуре с логированием действий и соблюдением требований информационной безопасности.
Ключевые операции
  • Подготовка данных
    На подготовительном этапе исходные данные приводятся к рабочему плоскому табличному виду. Обработка включает устранение структурных неоднородностей, консолидацию данных из различных файлов и листов, унификацию заголовков, выравнивание состава полей, удаление технических фрагментов и приведение значений к форматам, пригодным для последующей машинной обработки.
  • Профилирование и анализ качества
    Профилирование используется для фиксации исходного состояния массива и выявления аномалий структуры и содержания данных. На этом этапе анализируются полнота заполнения, корректность форматов, распределение значений, наличие отклонений, повторяемость записей, вариативность написаний и иные характеристики, значимые для проектирования алгоритмов нормализации.
    Контроль качества опирается на формальные характеристики качества данных, применяемые в ISO 8000 и ISO/IEC 25 012/25024.
  • Структурирование и выделение атрибутов
    Технология предусматривает разбор смешанных и слабо структурированных полей с последующим выделением атрибутов. Выделение выполняется с применением словарей, регулярных выражений, шаблонов, справочников допустимых значений и логики интерпретации текстовых описаний.
    В состав типовых извлекаемых атрибутов могут входить тип объекта, марка, производитель, стандарт, размер, единица измерения, материал, мощность, напряжение, класс, вид, группа и иные признаки, применимые к конкретному типу данных.
  • Нормализация значений
    Нормализация значений выполняется по набору формализованных правил, включающих стандартизацию регистра, удаление специальных символов, словарные замены, преобразование сокращений, унификацию кодов и приведение значений к эталонным шаблонам представления.
    Для каждого проекта формируется набор правил нормализации, учитывающий структуру входных данных, используемые классификаторы, допустимые значения атрибутов, внутренние стандарты представления и требования целевых систем к формату загрузки.
  • Разработка атрибутивной модели
    В составе технологии нормализации выполняется разработка атрибутивной модели нормализуемого домена. На этом этапе определяется целевая структура записи, формируется перечень атрибутов, устанавливаются правила обязательности заполнения, задаются допустимые значения, фиксируются шаблоны описаний и ограничения на формат представления данных.
    Разработка атрибутивной модели включает:
    • описание классов объектов,
    • настройку состава обязательных и дополнительных признаков для каждого класса,
    • формирование шаблонов эталонных записей,
    • определение связей между атрибутами,
    • подготовку правил, по которым данные будут проверяться, дополняться, классифицироваться и сопоставляться в последующих этапах обработки.
    Результатом данного этапа выступает формализованный проектный артефакт, используемый в операциях классификации, обогащения, дедубликации, контроля качества и подготовки данных к загрузке в целевые системы.
  • Классификация объектов
    Классификация объектов выполняется на основе разработанной атрибутивной модели и классификационной схемы, определенной для соответствующего домена данных. Объекты распределяются по группам, видам, классам и иным категориям по совокупности выделенных и нормализованных признаков.
    Для каждого класса применяется установленный набор обязательных и дополнительных атрибутов, а также правила интерпретации характеристик объекта.
    Результаты классификации используются при формировании шаблонов эталонных записей, контроле полноты данных, сопоставлении объектов и подготовке массива к дальнейшей обработке.
  • Обогащение данных
    Обогащение выполняется путем подключения внешних справочников, эталонных перечней, каталогов производителей, нормативных документов и внутренних вспомогательных таблиц. В рамках технологии обогащение применяется для заполнения недостающих атрибутов, уточнения характеристик объектов, верификации значений и повышения согласованности описаний.
    Техническая реализация обогащения включает:
    • извлечение идентификаторов из исходных описаний,
    • сопоставление с внешними источниками по ключам и комбинациям атрибутов,
    • загрузку вспомогательных наборов данных,
    • построение матриц соответствия,
    • фиксацию происхождения присвоенных значений.
  • Дедубликация и формирование эталонных записей
    Дедубликация включает поиск точных и вероятностных дублей, выявление близких по содержанию записей, обработку пересечений между источниками, а также анализ квази-дублей, аналогов и частично описанных сущностей.
    В качестве результата дедубликации формируется эталонная запись объекта, включая Golden Record в случаях, когда технология применяется к мастер-данным и справочникам, требующим единого согласованного представления сущности.
    Алгоритмы дедубликации используют сочетание текстового сопоставления, атрибутивных правил, ключевых идентификаторов, классификационных признаков и логики приоритета источников.
  • Публикация результатов и интеграция
    После завершения обработки результаты нормализации приводятся к структуре, согласованной с требованиями целевой системы. Выполняются:
    • настройка порядка полей,
    • типизация значений,
    • подготовка кодов, дат и числовых форматов,
    • формирование таблиц загрузки,
    • выпуск данных в установленных форматах обмена.
    В состав публикуемого результата могут входить нормализованный массив данных, шаблоны загрузки, матрицы соответствия, технические таблицы сопоставления, эталонные записи и иные проектные артефакты, необходимые для последующего использования данных в ERP, MDM, CRM, PLM, BI и других системах.
  • Контроль и документирование
    Технология N-Forma предусматривает использование специализированных модулей контроля и отчетности, включая облачные и web-решения, для фиксации состояния массивов данных, контроля прохождения этапов обработки, управления задачами и подготовки отчетных материалов.
    Технологический контур нормализации обеспечивает прослеживаемость преобразований, документирование правил обработки, фиксация источников обогащения, сохранение матриц соответствия и контроль версий промежуточных и итоговых наборов данных.
    Такой подход поддерживает повторяемость операций и технологическую устойчивость процесса нормализации.
Применимость к различным объектам нормализации
Технология нормализации применима к различным видам справочных и мастер-данных, включая номенклатуру материалов и оборудования, справочники услуг, контрагентов, договоров, физических лиц, классификаторов, финансовых и аналитических сущностей.

Для номенклатурных массивов технология ориентирована на:
  • разбор технических описаний,
  • выделение параметров,
  • формирование шаблонов нормализованных наименований,
  • атрибутизацию,
  • классификацию,
  • сопоставление с внешними каталогами и стандартами.

Для справочников услуг технология ориентирована на:
  • структурирование текстовых формулировок,
  • унификацию терминологии,
  • выделение классификационных признаков,
  • формирование согласованного описания услуги.

В проектах, связанных с миграцией данных и интеграцией систем, технология используется как самостоятельный контур подготовки и очистки данных перед загрузкой в целевые платформы.
Заключение
Технология нормализации данных N-Forma представляет собой связанную технологическую среду, объединяющую Excel, Loginom, макросы Visual Basic, внешние скрипты, базы данных и специализированные средства контроля.

Данная среда обеспечивает реализацию полного цикла обработки данных: от первичной подготовки и профилирования до формирования эталонных записей и публикации результата в формате, пригодном для промышленного использования.