Технология нормализации данных
Основные принципы
Технология нормализации данных N-Forma представляет собой формализованный и воспроизводимый подход к обработке структурированных и слабо структурированных массивов данных, предназначенный для очистки, структурирования, атрибутизации, классификации, обогащения, дедубликации и подготовки данных к использованию в информационных системах.

Технология опирается на формальные модели качества данных и практики управления мастер-данными, включая ISO 8000, ISO/IEC 25 012, ISO/IEC 25 024 и подходы DAMA-DMBOK. Указанные источники используются как основа для проектирования правил качества, определения характеристик данных, настройки процедур контроля и документирования решений по нормализации.

Технология оперирует следующими базовыми сущностями:
  • атрибут,
  • допустимое значение атрибута,
  • классификационная модель,
  • шаблон нормализованного описания,
  • эталонная запись,
  • матрица соответствия,
  • правило сопоставления,
  • правило дедубликации,
  • внешний источник обогащения,
  • контур публикации результатов.

N-Forma рассматривает нормализацию как последовательность управляемых операций, для которых формируются
  • явные правила обработки,
  • атрибутивные и классификационные модели,
  • критерии сопоставления,
  • процедуры контроля качества.

Технология ориентирована на работу со справочниками МТР, услуг, контрагентов, договоров, физических лиц, финансовой и управленческой аналитики, внешних и внутренних классификаторов, а также с иными наборами данных, в которых присутствуют неоднородность структуры, вариативность представления значений, смешанные поля и дублирующиеся записи.

Результатом применения технологии является нормализованный массив данных в согласованной структуре, пригодный для загрузки в ERP-, MDM-, BI-, CRM-, PLM- и иные прикладные системы, а также для дальнейшей машинной обработки, аналитики и интеграции.
Инструменты нормализации
В основе технологии лежит сочетание типовых и специализированных инструментов. Каждый инструмент выполняет определенный класс операций и передает результат на следующий этап.

Стандартные средства используются для первичной подготовки, анализа и постобработки данных.

Специализированные модули, скрипты, словари, регулярные выражения, алгоритмы сопоставления и базы данных применяются в задачах, требующих сложной логики преобразований и повышенной производительности.
Excel
Excel применяется для первичной подготовки входящих массивов и финальной доработки выходных данных. Он используется как прикладная среда для консолидации данных из нескольких файлов и листов, удаления служебных фрагментов, приведения многомерных и иерархических таблиц к плоскому виду, выравнивания структуры столбцов, преобразования форматов кодов, дат, идентификаторов и числовых значений.

На завершающем этапе Excel используется для настройки структуры итоговой таблицы, изменения порядка и состава полей, подготовки загрузочных файлов и выпуска результата в согласованном с целевой системой формате.
Макросы Visual Basic
Макросы Visual Basic используются для автоматизации повторяющихся операций в Excel и для реализации сценариев, требующих условной логики обработки. С их помощью выполняются преобразование сложных группировок и иерархий в плоские таблицы, пакетная обработка массивов, связывание таблиц по составным ключам, перенос значений по правилам совпадения и автоматизация типовой постобработки результатов.
Внешние скрипты
Скрипты на Python, PHP, JavaScript, Visual Basic и других языках используются для реализации нестандартных алгоритмов обработки данных.

В их состав входят регулярные выражения, процедуры разборки текстовых описаний, многоэтапные преобразования, формирование промежуточных таблиц, специализированные проверки, автоматизированное сопоставление и подготовка данных для загрузки в основной контур нормализации.

Внешние скрипты применяются в задачах, связанных с обработкой больших массивов записей, разбором смешанных полей, выделением атрибутов из текстов, построением правил сопоставления и подготовкой выгрузок в различных форматах обмена, включая CSV, Excel, XML и JSON.
Базы данных
Базы данных MySQL, SQLite и иные СУБД используются для промежуточного хранения, ускорения сложных преобразований, построения выборок, сопоставления больших наборов записей и фиксации промежуточных результатов обработки.

Использование СУБД позволяет выстраивать устойчивые конвейеры нормализации с поддержкой промежуточных слоев данных, технических таблиц, правил сопоставления, справочников, словарей, матриц соответствия и результатов дедубликации.
Loginom
Loginom используется как low-code платформа, на базе которой реализуется основной контур нормализации данных. В среде Loginom выполняются загрузка и интеграция данных из различных источников, профилирование и анализ качества, очистка и структурирование, классификация, обогащение, дедубликация и публикация результатов.

Использование Loginom позволяет реализовать воспроизводимые и масштабируемые сценарии обработки данных в единой технологической среде. Платформа обеспечивает наглядное управление процессом нормализации, поддержку проектных правил обработки и согласованное выполнение операций, необходимых для подготовки данных к загрузке в ERP-, MDM-, BI- и иные целевые системы.

Loginom выполняет функцию технологического ядра нормализации и используется совместно с Excel, внешними скриптами, базами данных и вспомогательными модулями контроля. Такой подход обеспечивает связность обработки, прозрачность преобразований и устойчивость технологического контура при работе с массивами НСИ различного объема и сложности.
Использование LLM и ML
В технологии N-Forma LLM- и ML-компоненты применяются как часть гибридного контура обработки данных. Они включаются в технологическую схему проекта для решения задач, связанных с обработкой сложных текстовых описаний, извлечением признаков из слабо структурированных полей, предварительной классификацией объектов, поиском вероятных соответствий между записями и выявлением квази-дублей.

LLM- и ML-компоненты используются совместно с правилами обработки, словарями, шаблонами, скриптами, классификационными моделями и процедурами валидации. Результаты их работы проходят контроль по атрибутивной модели, правилам нормализации, ограничениям допустимых значений и процедурам проверки качества данных.

Применение LLM- и ML-инструментов в технологии N-Forma носит точечный характер и определяется составом данных, сложностью интерпретации записей и требованиями к качеству результата. Формализуемые массовые операции выполняются средствами регламентированной обработки данных, а результаты вероятностной интерпретации подлежат дополнительной проверке в установленном технологическом контуре.

При использовании внешних AI-сервисов в технологический процесс включаются процедуры обезличивания данных. Для критичных данных предусматривается применение локальных AI-моделей и выполнение обработки в защищенной инфраструктуре с логированием действий и соблюдением требований информационной безопасности.
Ключевые операции
  • Подготовка данных
    На подготовительном этапе исходные данные приводятся к рабочему плоскому табличному виду. Обработка включает устранение структурных неоднородностей, консолидацию данных из различных файлов и листов, унификацию заголовков, выравнивание состава полей, удаление технических фрагментов и приведение значений к форматам, пригодным для последующей машинной обработки.
  • Профилирование и анализ качества
    Профилирование используется для фиксации исходного состояния массива и выявления аномалий структуры и содержания данных. На этом этапе анализируются полнота заполнения, корректность форматов, распределение значений, наличие отклонений, повторяемость записей, вариативность написаний и иные характеристики, значимые для проектирования алгоритмов нормализации.

    Контроль качества опирается на формальные характеристики качества данных, применяемые в ISO 8000 и ISO/IEC 25 012/25024.
  • Структурирование и выделение атрибутов
    Технология предусматривает разбор смешанных и слабо структурированных полей с последующим выделением атрибутов. Выделение выполняется с применением словарей, регулярных выражений, шаблонов, справочников допустимых значений и логики интерпретации текстовых описаний.

    В состав типовых извлекаемых атрибутов могут входить тип объекта, марка, производитель, стандарт, размер, единица измерения, материал, мощность, напряжение, класс, вид, группа и иные признаки, применимые к конкретному типу данных.
  • Нормализация значений
    Нормализация значений выполняется по набору формализованных правил, включающих стандартизацию регистра, удаление специальных символов, словарные замены, преобразование сокращений, унификацию кодов и приведение значений к эталонным шаблонам представления.

    Для каждого проекта формируется набор правил нормализации, учитывающий структуру входных данных, используемые классификаторы, допустимые значения атрибутов, внутренние стандарты представления и требования целевых систем к формату загрузки.
  • Разработка атрибутивной модели
    В составе технологии нормализации выполняется разработка атрибутивной модели нормализуемого домена. На этом этапе определяется целевая структура записи, формируется перечень атрибутов, устанавливаются правила обязательности заполнения, задаются допустимые значения, фиксируются шаблоны описаний и ограничения на формат представления данных.

    Разработка атрибутивной модели включает:
    • описание классов объектов,
    • настройку состава обязательных и дополнительных признаков для каждого класса,
    • формирование шаблонов эталонных записей,
    • определение связей между атрибутами,
    • подготовку правил, по которым данные будут проверяться, дополняться, классифицироваться и сопоставляться в последующих этапах обработки.
    Результатом данного этапа выступает формализованный проектный артефакт, используемый в операциях классификации, обогащения, дедубликации, контроля качества и подготовки данных к загрузке в целевые системы.
  • Классификация объектов
    Классификация объектов выполняется на основе разработанной атрибутивной модели и классификационной схемы, определенной для соответствующего домена данных. Объекты распределяются по группам, видам, классам и иным категориям по совокупности выделенных и нормализованных признаков.

    Для каждого класса применяется установленный набор обязательных и дополнительных атрибутов, а также правила интерпретации характеристик объекта.

    Результаты классификации используются при формировании шаблонов эталонных записей, контроле полноты данных, сопоставлении объектов и подготовке массива к дальнейшей обработке.
  • Обогащение данных
    Обогащение выполняется путем подключения внешних справочников, эталонных перечней, каталогов производителей, нормативных документов и внутренних вспомогательных таблиц. В рамках технологии обогащение применяется для заполнения недостающих атрибутов, уточнения характеристик объектов, верификации значений и повышения согласованности описаний.

    Техническая реализация обогащения включает:
    • извлечение идентификаторов из исходных описаний,
    • сопоставление с внешними источниками по ключам и комбинациям атрибутов,
    • загрузку вспомогательных наборов данных,
    • построение матриц соответствия,
    • фиксацию происхождения присвоенных значений.
  • Дедубликация и формирование эталонных записей
    Дедубликация включает поиск точных и вероятностных дублей, выявление близких по содержанию записей, обработку пересечений между источниками, а также анализ квази-дублей, аналогов и частично описанных сущностей.

    В качестве результата дедубликации формируется эталонная запись объекта, включая Golden Record в случаях, когда технология применяется к мастер-данным и справочникам, требующим единого согласованного представления сущности.

    Алгоритмы дедубликации используют сочетание текстового сопоставления, атрибутивных правил, ключевых идентификаторов, классификационных признаков и логики приоритета источников.
  • Публикация результатов и интеграция
    После завершения обработки результаты нормализации приводятся к структуре, согласованной с требованиями целевой системы. Выполняются:
    • настройка порядка полей,
    • типизация значений,
    • подготовка кодов, дат и числовых форматов,
    • формирование таблиц загрузки,
    • выпуск данных в установленных форматах обмена.
    В состав публикуемого результата могут входить нормализованный массив данных, шаблоны загрузки, матрицы соответствия, технические таблицы сопоставления, эталонные записи и иные проектные артефакты, необходимые для последующего использования данных в ERP, MDM, CRM, PLM, BI и других системах.
  • Контроль и документирование
    Технология N-Forma предусматривает использование специализированных модулей контроля и отчетности, включая облачные и web-решения, для фиксации состояния массивов данных, контроля прохождения этапов обработки, управления задачами и подготовки отчетных материалов.

    Технологический контур нормализации обеспечивает прослеживаемость преобразований, документирование правил обработки, фиксация источников обогащения, сохранение матриц соответствия и контроль версий промежуточных и итоговых наборов данных.

    Такой подход поддерживает повторяемость операций и технологическую устойчивость процесса нормализации.
Нормализация справочников услуг предъявляет повышенные требования к обеспечению связности и сопоставимости записей и требует учета следующих особенностей.

Нормализация касается не только сутевых характеристик услуг, но и таких параметров, как:
  • Условия договоров,
  • Результаты оказания услуги,
  • Объем работ,
  • Модель тарификации,
  • Временные показатели,
  • SLA и KPI,
  • Маркетинговое и операционное представление,
  • Требования комплаенс и др.

Для закупаемых услуг дополнительно критичны параметры сравнения предложений разных поставщиков, такие как единицы измерения и структура тарифов, привязка услуг к бюджетам и статьям затрат, типовым формулировкам ТЗ и актов.

Дополнительно необходимо отметить, что нормализация справочника услуг часто влечет необходимость его существенного дополнения и реструктуризации в связи с непроработанностью и недооценкой каталога услуг.
Особенности нормализации продаваемой номенклатуры
Исторически услуга нормализации складывалась вокруг справочников закупаемых МТР.

Качество мастер-данных на стороне продаж играет не менее важную роль, так как продаваемая номенклатура может требовать поддержания сложной атрибутивной модели для описания вариантов товара, его потребительских характеристик, медийных материалов и пр.

При нормализации справочников продаваемой номенклатуры необходимо учитывать:
  • Требования со стороны систем класса PIM (Product Information Management) для управления информацией о продуктах,
  • Сложные связи между объектами, необходимые для корректного выставления счетов, перекрестных продаж, конфигурирования и др.,
  • Комплектность и сопутствующие услуги,
  • Смену этапов жизненного цикла и связанных с ними требований к описанию продуктов и услуг.
Сочетание нормализации и миграции
Понятия нормализации и миграции часто используются в общем контексте.

Нормализация обеспечивает устранение ошибок, дублей, восполнение атрибутов, классификацию, структурирование по шаблонам и отвечает на вопрос «какими должны быть данные». Нормализация может выполняться независимо от миграции для улучшения качества действующего справочника в одной информационной системе вне связи с другими системами.

Миграция выполняется для переноса данных из одной информационной системы в другую и включает выгрузку данных, преобразование формата, возможное дообогащение и загрузку в целевую систему. Миграция отвечает на вопрос «как перенести данные» и не улучшает их качество.

Нормализация и миграция могут рассматриваться как единая услуга в следующих случаях:
При внедрении новой системы управления предприятием (ERP, MES, CRM, HRM и т. д.) или MDM-системы и выполнении нормализации в процессе миграции между выгрузкой из старой системы и загрузкой в новую
В этом случае нормализация и миграция образуют единый технологический контур, а матрица соответствия (кросс-таблица) является обязательным артефактом обоих процессов
Нормализация выполняется до миграции, чтобы исключить перенос некачественных данных и ускорить процесс миграции
В этом случае нормализация и миграция — последовательные, взаимозависимые этапы одного проекта
Нормализация выполняется после миграции, методом так называемого «переживания» – когда в новую систему загружается и эталонный нормализованный массив, и старые записи, которые постепенно вытесняются по мере расходования остатков и переноса транзакций
Этот способ наиболее труден организационно, но иногда вынужден — когда жёсткие сроки запуска системы не позволяют полностью завершить нормализацию до старта
Ключевые принципы нормализации
Нормализация N-Forma строится на следующих принципах:
Бизнес-ориентированность
Каждое методологическое решение (уровень агрегации, набор обязательных атрибутов, правила классификации) принимается исходя из того, как данные будут использоваться в бизнес-процессах: закупках, складском учёте, ТОиР, финансовом планировании, продажах
Стандартизация
Единые правила для всей организации, закреплённые в методике и шаблонах. Без стандартов каждый сотрудник записывает данные «как умеет», и через год справочник возвращается в исходное состояние
Прозрачность
Все изменения фиксируются, сохраняется история, матрица соответствия обеспечивает связь между старыми и новыми кодами. Это обязательное условие для корректной миграции транзакционных данных
Гибридный подход
N-Forma применяет как автоматизированную, так и экспертную нормализацию на основе сочетания различных инструментов, что даёт оптимальное соотношение скорости, стоимости и качества выполнения работ.

Автоматизация используется для больших объемов данных и типовых объектов.

Для сложных, узкоспециализированных или контекстно-зависимых объектов выполняется экспертная нормализация вручную
Автоматизация с использованием LLM‑моделей
Применяется, только если она:
  • может обеспечить высокий процент нормализации,
  • не требует последующей проверки и существенной корректировки результатов,
  • позволяет существенно снизить затраты проекта
Методология нормализации
КЛАССИФИКАЦИЯ НОМЕНКЛАТУРЫ
Принципы классификации:
  • Классификация строится на основе функционального назначения и характеристик объектов.
  • Каждая запись относится к одному или нескольким классам,
  • Классификация учитывает специфику отрасли и бизнес-процессов заказчика,
  • Классификация может согласовываться с отраслевыми стандартами,
  • Классификация по ОКПД2, ЕСКД, ОКВЭД может требовать привязки к внутренней классификации.
ПРАВИЛА ИМЕНОВАНИЯ АТРИБУТОВ ОБЪЕКТОВ НСИ
Шаблон определяет порядок и формат атрибутов объектов НСИ.
Пример структуры наименования объекта
Тип объекта | Ключевые характеристики | Дополнительные характеристики | Единица измерения 
Пример шаблона для класса «Болты»
Болт | Тип резьбы | Диаметр x Длина | Класс прочности | Покрытие| ГОСТ/DIN 
Примеры нормализованных наименований
Правила именования
  • Единый регистр (первая буква заглавная, остальные строчные, кроме аббревиатур),
  • Логика использования пробелов, спецсимволов, переноса строк,
  • Разделители: точка, дефис, запятая по правилам шаблона,
  • Единицы измерения в конце или в составе характеристик (по шаблону),
  • Аббревиатуры расшифровываются или приводятся к стандартному виду (словарь аббревиатур).
ОБОГАЩЕНИЕ ДАННЫХ
Источники обогащения
  • Внутренние базы знаний заказчика — конструкторская документация, спецификации, технологические карты,
  • Отраслевые справочники — специализированные базы данных,
  • Каталоги производителей — технические характеристики по артикулам,
  • ГОСТы и стандарты — параметры по обозначениям ГОСТ, DIN, ISO,
  • Прочие открытые источники.
Процесс обогащения
Извлечение идентификаторов из исходного наименования (артикул, ГОСТ, каталожный номер)
Поиск записи в источниках обогащения
Извлечение недостающих характеристик
Валидация соответствия (проверка на противоречия между исходными и найденными данными)
Заполнение атрибутов в записи НСИ
Примеры обогащения
4. ДЕДУБЛИКАЦИЯ И ВЫЯВЛЕНИЕ АНАЛОГОВ
Типы дублей
Точные дубли
Полное совпадение наименований, выявляются на этапе предварительной обработки
Квази-дубли
Одна сущность, разное написание, например: «Болт М10×40» и «Метиз М10 длина 40мм»
Аналоги
Разные сущности с похожими характеристиками и взаимозаменяемостью, например: болты разных производителей с одинаковыми параметрами
Методы выявления
Детерминированное сопоставление
Сравнение по ключевым атрибутам после. нормализации и структурирования
Вероятностное сопоставление
Расчет меры схожести между записями
Экспертная валидация
Проверка человеком для пограничных случаев
Стратегии обработки дублей
Слияние
Создание одной эталонной записи (Golden Record), остальные помечаются как дубли и удаляются (выводятся из эксплуатации)
Установление связей
Сохранение всех записей с указанием связей с дубликатами, неполно описанными и эталонными записями
Модель качества данных
N-Forma применяет модель качества данных, основанную на стандартах ISO/IEC 25012, 25024 и ISO 8000.

Модель определяет характеристики качества данных:
  • полнота,
  • согласованность,
  • точность,
  • уникальность,
  • соответствие форматам
и методы их измерения.

Качество мастер-данных рассматривается как
  • отсутствие в них ошибок,
  • однозначность,
  • сопоставимость
  • переносимость между информационными системами.
ХАРАКТЕРИСТРИКИ КАЧЕСТВА ДАННЫХ
ПРИМЕР ОЦЕНКИ КАЧЕСТВА ДАННЫХ

До нормализации

(типичные показатели)

  • Полнота обязательных атрибутов: 40-60%
  • Доля дублей и квази-дублей: 15-30%
  • Соответствие шаблонам наименований: 10-20%
  • Наличие классификации: 0-30%

После нормализации

(целевые показатели N-Forma)

  • Полнота обязательных атрибутов: 95-98%
  • Доля дублей и квази-дублей: менее 2%
  • Соответствие шаблонам наименований: 95-98%
  • Наличие классификации: 100% (все записи классифицированы)
Фазы нормализации
N-Forma предлагает комплексную услугу нормализации, состоящую из трех последовательных фаз:
  • первоначальная нормализация,
  • внедрение процессов управления качеством,
  • регулярное поддержание качества.
N-Forma предлагает комплексную услугу нормализации, состоящую из трех последовательных фаз:
  • первоначальная нормализация,
  • внедрение процессов управления качеством,
  • регулярное поддержание качества.
ФАЗА 1: ПЕРВОНАЧАЛЬНАЯ НОРМАЛИЗАЦИЯ
Цель
Привести существующий массив НСИ к целевому состоянию качества за фиксированный срок
Длительность
2-6 месяцев в зависимости от объема и сложности данных
Состав работ
  • Аудит и профилирование данных
    Анализ текущего состояния НСИ, оценка качества по модели ISO/IEC 25 012, выявление типовых проблем, оценка объема работ
  • Моделирование данных
    Определение доменов, объектов и атрибутов, подлежащих нормализации, связей со вспомогательными справочниками, подхода к работе с шаблонами, возможностей и принципов агрегации записей
  • Разработка методики нормализации
    Разработка шаблонов эталонных записей, правил нормализации и классификации
  • Выгрузка данных
    Разработка и согласование шаблонов и инструментов выгрузки
  • Подготовительная обработка
    Устранение грубых ошибок (лишние пробелы, спецсимволы, кириллица/латиница), удаление явных дублей (точное совпадение наименований), валидация форматов данных
  • Классификация
    Определение набора обязательных атрибутов для каждого класса, отнесение каждой записи к одной или нескольким классификациям в соответствии с методикой и правилами, установленными для каждого домена (ТМЦ, договоры, контрагенты и т. д.)
  • Структурирование и обогащение
    Извлечение характеристик из исходных наименований, обогащение данными из справочников производителей, ГОСТ, каталогов, приведение наименований к эталонному виду по шаблонам, заполнение недостающих атрибутов
  • Дедубликация (выявление неявных дублей)
    Выявление квази-дублей (различное написание одной сущности), выявление аналогов и взаимозаменяемых позиций, установление связей дубликатов
  • Валидация и контроль качества
    Многоуровневая проверка качества результатов, согласование с экспертами заказчика, измерение метрик качества по ISO/IEC 25 024, формирование итогового отчета
  • Подготовка к загрузке данных в целевую ИС
    Разработка матрицы соответствия (кросс-таблицы), согласование шаблонов и процедур загрузки данных в целевую информационную систему
Результаты фазы 1
  • Модель данных и методика нормализации,
  • Описание подхода к классификации и классов,
  • Шаблоны эталонных записей для каждого класса,
  • Нормализованный справочник НСИ для загрузки в целевую систему,
  • Матрица соответствия (кросс-таблица) старых и новых записей,
  • Шаблоны для загрузки данных в целевую информационную систему,
  • Реестр дублей и аналогов,
  • Отчет о качестве данных (метрики до/после, проблемные зоны).
ФАЗА 2: ВНЕДРЕНИЕ ПРОЦЕССОВ УПРАВЛЕНИЯ КАЧЕСТВОМ НСИ
Цель
Зафиксировать достигнутое качество данных и не допустить деградации справочников
Длительность
1-3 месяца параллельно с завершением фазы 1
Состав работ
  • Разработка методики ведения НСИ
    Разрабатываются правила создания новых, изменения существующих и деактивации устаревших записей, правила проведения периодического аудита качества
  • Настройка инструментов контроля качества
    Настройка автоматических проверок данных ИС, дашбордов мониторинга качества, уведомлений при нарушении пороговых значений метрик
  • Интеграция Service Desk
    Настраиваются процессы приема заявок в Service Desk, маршруты их согласования, контроля выполнения SLA
  • Тренинги для команды заказчика
    Проводятся тренинги по темам: методология нормализации и стандарты НСИ, инструменты контроля качества, использование базы знаний
Результаты фазы 2
  • Методика ведения НСИ,
  • Дашборды качества данных,
  • База знаний с методологией, примерами, FAQ,
  • Обученная команда заказчика.
ФАЗА 3: РЕГУЛЯРНОЕ ПОДДЕРЖАНИЕ КАЧЕСТВА НСИ
Цель
Непрерывное обеспечение качества данных через операционную модель с четкими SLA
Длительность
В соответствии с потребностями заказчика, продолжительное время
Модели предоставления услуги
Состав услуги (модель полного аутсорсинга)
  • Прием заявок на создание/изменение/деактивацию записей НСИ,
  • Обработка новых записей в соответствии с методологией,
  • Контроль качества всех изменений (автоматические и экспертные проверки),
  • Выявление и устранение дублей в режиме реального времени,
  • Обогащение данных из внешних источников (каталоги производителей, ГОСТ),
  • Ежемесячный аудит качества НСИ (проверка метрик, выявление проблемных зон)
  • Ежемесячные отчеты с анализом трендов качества и рекомендациями,
  • Поддержка и развитие методологии (обновление шаблонов, классификации).
SLA и гарантии качества
Результаты фазы 3 (ежемесячно)
  • Обработанные заявки,
  • Нормализованные записи,
  • Выявленные и устранённые дубли,
  • Отчет о качестве НСИ,
  • Рекомендации по улучшению.
Команда и роли
N-Forma формирует профессиональную команду с четким разделением ролей для выполнения услуги нормализации
РОЛИ В ПРОЦЕССЕ НОРМАЛИЗАЦИИ НА ФАЗАХ 1 И 2
Роль
Функции
Руководитель проекта
Общее управление проектом, взаимодействие с заказчиком, контроль сроков и бюджета, отчетность
Методолог/Аналитик НСИ
Разработка методики нормализации, классификации, шаблонов; экспертная поддержка в сложных случаях; анализ качества данных
Нормализатор
Выполнение нормализации записей, обогащение данных, валидация качества, документирование в базе знаний
Разработчик-программист
Настройка инструментов автоматизации (Loginom, Datareon), разработка скриптов ETL, настройка интеграций, дашбордов качества
РОЛИ В ОПЕРАЦИОННОЙ МОДЕЛИ НА ФАЗЕ 3
Роль
Функции
Сервисный менеджер
Управление услугой, соблюдение SLA, предоставление отчетности и непрерывное улучшение
Методолог/ Аналитик НСИ
Предоставление методической экспертизы, решение сложных и нетиповых задач, наставничество команды
Оператор данных
Обработка заявок, нормализация новых записей, контроль качества и консультирование пользователей
Программист-разработчик
Поддержка и развитие инструментов автоматизации, отчетности, анализа качества
Нормализация в контексте ITIL
При предоставлении услуги нормализации как части услуг по непрерывному обеспечению качества НСИ N-Forma использует системный подход ITIL к управлению жизненным циклом услуги, который позволяет:
  • Оптимизировать использование ресурсов,
  • Сфокусировать услугу на максимизации ценности для заказчика,
  • Повысить качество услуги, ее прозрачность и измеримость,
  • Обеспечить обратную связь и внедрение изменений.
В соответствии с подходом ITIL, управление жизненным циклом услуги нормализации N-Forma включает пять фаз:
  • Стратегия услуги (Service Strategy)
    Определение целей нормализации как сервиса,
    Установление границ ответственности N-Forma и заказчика,
    Определение ключевых KPI и экономических ориентиров.
  • Проектирование услуги (Service Design)
    • Определение требований к качеству НСИ в соответствии с бизнес-процессами,
    • Разработка SLA на услугу нормализации (сроки, метрики качества),
    • Проектирование процессов контроля качества и валидации данных.
  • Внедрение услуги (Service Transition)
    • Выполнение первоначальной нормализации (фаза 1),
    • Внедрение регламентов и инструментов контроля качества (фаза 2),
    • Обучение команды заказчика, передача знаний.
  • Эксплуатация услуги (Service Operation):
    • Регулярное поддержание качества НСИ (фаза 3),
    • Обработка заявок на создание/изменение записей с нормализацией,
    • Мониторинг метрик качества, управление инцидентами качества данных.
  • Постоянное улучшение услуги (Continual Service Improvement)
    • Анализ трендов качества НСИ (ежемесячные отчеты),
    • Выявление повторяющихся проблем и корректировка методологи,
    • Цикл PDCA для постоянной оптимизации процессов нормализации.
Интеграция нормализации с аутсорсингом
N-Forma предлагает комплексную модель нормализации, интегрированной с регулярным ведением НСИ.

Преимущества интегрированной модели:
Нормализация выполняется теми же специалистами, которые затем поддерживают качество НСИ в операционном режиме, что обеспечивает сохранение экспертизы
Используется единая методология на всех этапах от первоначальной нормализации до регулярного поддержания качества данных.
Осуществляется плавный переход от проекта к операционной услуге без разрыва в качестве.
Обеспечивается взаимосвязь и согласованность SLA
Типовая дорожная карта проекта с переходом к эксплуатации услуги:
Варианты предоставления услуги
N-Forma предлагает гибкий подход к предоставлению услуги нормализации в зависимости от потребностей заказчика

Проект под ключ

(фазы 1-2)

N-Forma выполняет первоначальную нормализацию и внедрение процессов, затем передает поддержку команде заказчика


Подходит для компаний с собственной сформированной командой НСИ, нуждающихся в разовой чистке данных и методологической поддержке


Результат: Нормализованный справочник, методология, регламенты, обученная команда заказчика

Проект и операционная поддержка

(фазы 1-3)

N-Forma выполняет первоначальную нормализацию и затем переходит к регулярному поддержанию качества НСИ в режиме аутсорсинга


Подходит для компаний без внутренней экспертизы по НСИ или желающих минимизировать загрузку собственных ключевых специалистов


Результат: Нормализованный справочник и непрерывное поддержание качества согласно SLA

Консультационная поддержка

Команда заказчика выполняет нормализацию самостоятельно, N-Forma предоставляет методологическую поддержку, проводит регулярные аудиты качества, тренинги


Подходит для компаний с экспертизой, желающих сохранить контроль, но нуждающихся в экспертной поддержке


Результат: Повышение зрелости команды заказчика, внешняя валидация качества работы

Гибридная модель

Разделение ответственности сторон на две части:

  • Рутинные действия по нормализации
  • Методологически сложные операции

В гибридной модели N-Forma может выполнять функции любой из сторон


Подходит для компаний с частичной экспертизой, желающих балансировать стоимость и контроль за процессом нормализации


Результат: Оптимальное распределение нагрузки, снижение стоимости при сохранении контроля

Безопасность и комплаенс
ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ
N-Forma обеспечивает защиту конфиденциальных данных заказчика за счет:
  • Подписания NDA (соглашения о неразглашении),
  • Использования корпоративных учетных записей заказчика с минимальными привилегиями,
  • Логирования всех действий в системах заказчика,
  • Работы через защищенные каналы (VPN, RDP, Citrix),
  • Обезличивания данных при использовании внешних AI-сервисов (LLM),
  • Работы с локальными AI-моделями для критичных данных.
СООТВЕТСТВИЕ НОРМАТИВНЫМ ТРЕБОВАНИЯМ
  • Соблюдение требований ФЗ-152 «О персональных данных» (при работе с данными о сотрудниках, контрагентах),
  • Соблюдение политик безопасности заказчика,
  • Соответствие стандартам ISO 8000, ISO/IEC 25 012 при проектировании моделей качества данных,
  • Возможность аудита процессов нормализации (прослеживаемость изменений, документирование решений).
Экономика нормализации
Пример оценки затрат
ПЕРВОНАЧАЛЬНАЯ НОРМАЛИЗАЦИЯ (ФАЗА 1)
Затраты зависят от объема данных, сложности номенклатуры и требуемого уровня качества.

Факторы стоимости:
  • Объем записей: количество позиций для нормализации.
  • Сложность классификации: количество классов, глубина иерархии.
  • Уровень исходного качества данных: доля дублей, полнота атрибутов.
  • Доступность источников обогащения: каталоги производителей, ГОСТы.
  • Специфика отрасли: стандартная номенклатура vs узкоспециализированная.
  • Наличие существующей методологии: с нуля vs адаптация имеющейся.
РЕГУЛЯРНОЕ ПОДДЕРЖАНИЕ КАЧЕСТВА (ФАЗА 3)
В дополнение к факторам, влияющим на стоимость первоначальной нормализации, стоимость поддержания качества НСИ зависит от:

  • интенсивности изменений НСИ
  • модели предоставления услуги.
Пример оценки финансовой выгоды
  • Снижение затрат на закупки: 10−25%
    За счет:
    • консолидации закупок однотипных МТР,
    • устранения завышенных цен на дублирующие позиции,
    • возможности проведения конкурентных процедур с большими объемами
  • Сокращение затрат на хранение: 15−20%
    За счет:
    • устранения дублирующих позиций на складах,
    • оптимизации страховых запасов,
    • освобождения складских площадей
  • Снижение затрат на ERP/MDM-проекты: 10−20%
    За счет:
    • предварительной нормализации данных,
    • сокращения трудозатрат на блок НСИ при внедрении,
    • снижения рисков задержек проекта
  • Сокращение операционных затрат: 15−30%
    За счет:
    • автоматизации процессов создания и поддержания НСИ,
    • снижения численности персонала или перераспределения на более ценные задачи
Кейсы нормализации
Большой опыт N-Forma в выполнении проектов нормализации технически сложных и критически важных для заказчика справочников, а также применение современных инструментов и технологий, обеспечивают высокое качество данных, максимально эффективное внедрение и использование информационных систем для работы с НСИ

В разделе приведены примеры четырех из более, чем 15 реализованных N-Forma проектов. Больше информации — на странице Примеры проектов →
Кейс 1: Нормализация номенклатуры научного оборудования
Ситуация:
  • Разнородная номенклатура научного и лабораторного оборудования (~10 тыс. позиций),
  • Отсутствие классификации и стандартов наименований,
  • Множественные дубли из-за децентрализованных закупок лабораториями,
  • Невозможность консолидировать потребность и анализировать структуру закупок.

Решение N-Forma

  • Анализ номенклатуры и разработка отраслевой классификации (научное оборудование, расходные материалы, ИТ-оборудование),
  • Разработка методики нормализации с учетом специфики научных закупок,
  • Нормализация 10 тыс. позиций с обогащением данными из каталогов производителей,
  • Выявление и устранение 2 тыс. дублей (20% исходной базы),
  • Внедрение процессов контроля качества при создании новых позиций

Результаты

  • Снижение времени обработки заявок на создание НСИ с 17 дней до 1 дня за 3 месяца,
  • 90% заявок обрабатываются за 4 часа (целевой SLA),
  • Консолидация закупок однотипного оборудования (экономия ~15% бюджета закупок),
  • Повышение удовлетворенности внутренних заказчиков (лабораторий).
Кейс 2: Нормализация авиационных МТР
Ситуация:
  • Справочник авиационных материально-технических ресурсов (МТР) в SAP ERP (~50 тыс. позиций),
  • Критичность качества данных для безопасности полетов и соблюдения нормативов,
  • Необходимость интеграции с системой ТОиР AMOS,
  • Требование круглосуточной поддержки качества НСИ (24/7).

Решение N-Forma

  • Первоначальная нормализация 50 тыс. позиций авиационных МТР (4 месяца).
  • Разработка классификатора авиационных МТР (крепеж, расходные материалы, запчасти по типам ВС).
  • Обогащение данными из авиационных каталогов (Boeing, Airbus, Sukhoi).
  • Внедрение гибридной модели поддержки: команда N-Forma днем, специалисты Аэрофлота ночью для критичных заявок.
  • Настройка процесса обработки AOG-заявок (Aircraft on Ground) за 10−15 минут.

Результаты

  • Обеспечена непрерывность операционной деятельности при снижении стоимости по сравнению с полной круглосуточной командой.
  • Соблюдение жестких SLA по критичным процессам (AOG-заявки за 10−15 минут).
  • Снижение количества ошибок при заказе МТР и планировании ТОиР.
  • Интеграция SAP ERP и AMOS через единый справочник МТР.
Кейс 3: Нормализация номенклатуры МТР
Ситуация:
  • Разрозненные справочники номенклатуры в нескольких системах,
  • Дубли, разные правила описания и кодирования материалов,
  • Сложность консолидации данных для закупок, складского учёта и ТОиР.

Решение N-Forma

  • Разработка классификационных групп и структуры эталонной записи материалов для единого справочника в SAP R/3,
  • Нормализация и наполнение эталонного массива единого справочника номенклатуры (191 987 записей),
  • Разработка методик, регламентов, инструкций и структуры группы НСИ, запуск процессов регулярного ведения справочника,
  • Построение конвертеров и миграция данных в ERP SAP R/3, обучение пользователей и сопровождение перехода.

Результаты

  • Однозначное описание материалов и единый справочник для всех подразделений, связанных с закупками, эксплуатацией и ремонтом авиационной техники,
  • Снижение числа дублей, повышение качества учёта запасов и прозрачности их движения,
  • Повышение оперативности планирования и отчётности, снижение затрат на закупку и ведение НСИ.
Кейс 4: Нормализация перед миграцией в SAP
Ситуация:
  • Необходимость миграции номенклатуры из MS Excel и устаревших систем в SAP ERP.
  • Отсутствие классификации, множественные дубли, неполные данные.
  • Жесткие сроки проекта внедрения ERP (миграция данных — критический этап).

Решение N-Forma

  • Консолидация номенклатуры из 5 источников (Excel, старые БД) — 35 тыс. записей.
  • Экспресс-нормализация с фокусом на критичные для SAP атрибуты (3 месяца).
  • Создание матрицы соответствия старых и новых кодов для миграции остатков и истории.
  • Загрузка нормализованных данных в SAP ERP с контролем качества.

Результаты

  • Миграция выполнена в срок без задержки проекта ERP.
  • Снижение затрат на блок НСИ в ERP-проекте на 20% (благодаря предварительной нормализации).
  • После внедрения — переход к модели регулярного поддержания качества НСИ (аутсорсинг N-Forma).
Часто задаваемые вопросы (FAQ)
  • Как быстро можно выполнить первоначальную нормализацию?
    Длительность зависит от объема и сложности данных.
    Типичные сроки: 50 тыс. позиций — 3−6 месяцев.
    Возможна приоритизация критичных классов для ускорения эффекта.
  • Что, если у нас нет разработанной методики и классификации?
    N-Forma разработает методику нормализации, классификацию и шаблоны с нуля в рамках фазы 1 (входит в состав услуги).
    Срок разработки 4−6 недель.
  • Как обеспечивается качество нормализации?
    Многоуровневая валидация: автоматические проверки + экспертный контроль + согласование с заказчиком.
    Измеряем метрики качества по ISO/IEC 25 012.
    Целевые значения: 95−98% по всем характеристикам.
  • Можно ли начать с ограниченного периметра (пилот)?
    Да, рекомендуем пилот на 5−10 тыс. позиций одного класса (например, только метизы или только электротехника).
    Длительность пилота 1−2 месяца.
    Результат — оценка качества, уточнение сроков и бюджета полномасштабной нормализации.
  • Какие системы поддерживаются?
    1С (все конфигурации),
    SAP (ECC, S/4HANA),
    Microsoft Dynamics,
    Галактика,
    1С: MDM,
    Datareon,
    кастомные MDM-решения,
    AMOS, PLM, CRM.

    Работаем с любыми форматами выгрузок (CSV, Excel, XML, JSON).
  • Что произойдет со старыми кодами номенклатуры?
    Создается матрица соответствия (кросс-таблица) для связывания старых и новых кодов с целью переноса остатков, заказов и др.
    Старые записи деактивируются, но сохраняются в системе для обеспечения прослеживаемости.
  • Как быстро можно перейти к операционной модели поддержания качества?
    После завершения первоначальной нормализации (фаза 1) и внедрения процессов управления качеством (фаза 2) переход к фазе 3 занимает около одного месяца.
    Возможен плавный переход с постепенным масштабированием услуги.
  • Используете ли вы искусственный интеллект (AI/ML)?
    LLM могут применяться если это ускоряет и удешевляет поиск дублей классификацию, извлечение значений атрибутов и обогащение записей при обеспечении приемлемого уровня качества.
  • Какие модели оплаты доступны?
    Фиксированная цена за проект (фазы 1−2) или сдельная оплата за количество нормализованных позиций.
    Фиксированная ежемесячная плата или гибридная модель (базовая оплата + сверхнормативные заявки) для фазы 3.
  • Можем ли мы получить права на разработанную методологию?
    Да, все разработанные в рамках проекта материалы (методика, классификация, шаблоны, регламенты, база знаний) передаются заказчику с правом использования и модификации.
Заключение
Услуга нормализации мастер-данных N-Forma — это комплексное решение от первоначальной очистки мастер-данных до регулярного поддержания качества, базирующееся на:
  • Международных стандартах и методиках ISO 8000, ISO/IEC 25 012, 25 024, DAMA-DMBOK,
  • Методологии с фокусом на качество и результат для бизнеса,
  • Эффективных технологиях автоматизации,
  • Реальном опыте проектов для крупнейших российских компаний,
  • Гибких моделях сотрудничества.

N-Forma помогает компаниям построить культуру управления качеством данных, обеспечивающую устойчивые конкурентные преимущества через точные, полные и актуальные мастер-данные.