Нормализация данных
Введение
Описание услуги нормализации
Экономика нормализации
Кейсы нормализации
Основные понятия
Данные и мастер-данные
Данные — любая информация, зафиксированная в информационных системах компании: транзакции, проводки, накладные, УПД, заказы на закупку, акты выполненных работ. Это «события» — то, что происходит в бизнесе каждый день.
Мастер-данные (основные данные, НСИ — нормативно-справочная информация) — устойчивые, повторно используемые сведения об объектах бизнеса, которые составляют основу для транзакций: справочник материалов, список контрагентов, реестр договоров, штатное расписание, каталог продаваемых товаров и услуг. Это «словарь» компании, который обеспечивает корректность отображения объектов транзакций.
Домен данных
Предметная область, в которой ведутся мастер-данные. Каждый домен имеет свои атрибутивный состав, процессы ведения и правила качества. Типичные домены:
Домен
Примеры объектов
Номенклатура (закупаемая)
МТР, ТМЦ, запасные части, расходные материалы
Номенклатура (продаваемая)
SKU, услуги, тарифы, пакеты, статьи доходов
Контрагенты
Поставщики, клиенты, подрядчики
Договоры
Рамочные соглашения, контракты, тарифные приложения
Персонал
Сотрудники, должности, подразделения
Оборудование и активы
Объекты ТОиР, основные средства
Справочник
Структурированный реестр объектов одного домена в информационной системе (ERP, MDM, CRM и др.).
Справочник содержит записи — каждая запись описывает один реальный объект: конкретный материал, контрагента, договор.

Один и тот же домен может быть представлен разными справочниками в разных системах.

Они называются несинхронизированными, если содержат противоречивые или несовместимые данные об одних и тех же объектах.
Атрибут
Характеристика (поле, реквизит) записи в справочнике. Например, для материала атрибутами являются: наименование, единица измерения, класс материала, производитель, артикул, ГОСТ, диаметр, длина, покрытие.

Полнота и корректность атрибутов — основная цель нормализации.
Допустимые значения атрибута
Значения, которые может принимать атрибут записи объекта мастер-данных.

Допустимые значения задаются при настройке атрибутивного состава классов и шаблонов, могут включать тип данных, ограничения, список допустимых значений, а также зависимости от других атрибутов.
Шаблон
Формализованное правило, определяющее:
  • Какие атрибуты содержит запись определённого класса (включая обязательные для заполнения),
  • В каком порядке и формате они записываются в наименовании,
  • Какие допустимые значения могут принимать атрибуты,
  • Связь с классификациями.
Шаблон — это методологический инструмент, который стандартизирует весь атрибутивный состав записи, позволяет автоматически генерировать краткие и полные наименования, артикулы и коды по единым правилам.

Пример: Шаблон для класса «Болты»: [Тип объекта] [Тип резьбы] [Диаметр]x[Длина] [Класс прочности] [Покрытие] [ГОСТ/DIN] → «Болт М10×40 кл.пр.8.8 цинк ГОСТ 7798–70».
Классификация
Распределение объектов справочника по группам и категориям классификатора. В процессе нормализации могут использоваться различные классификаторы:
  • Внутренние классификаторы, которые разрабатывается под различные задачи бизнеса и для различных доменов,
  • Государственные и международные классификаторы, такие как ОКПД2, ТНВЭД, ЕСКД и другие.
Классификация определяет, какие шаблоны и обязательные атрибуты применяются к каждой записи.
Агрегация номенклатурных позиций
Выбранный уровень детализации записей в справочнике. Это методологическое решение, которое принимается до начала нормализации и влияет на всю последующую работу.

Примеры уровней агрегации:
  • Максимально агрегированный: позиция описывает тип материала без указания производителя и артикула,
  • Стандартный: позиция включает производителя и базовые характеристики,
  • Детализированный: каждый артикул каждого производителя — отдельная запись (например, используется в ТОиР, где точная идентификация критична для безопасности),
Выбор уровня агрегации — первый методологический вопрос любого проекта нормализации.
Дубль (дублирующая запись)
Ситуация, когда один и тот же реальный объект представлен в справочнике несколькими записями.

Различают:
  • Точный дубль — записи полностью идентичны по наименованию. Выявляются автоматически на этапе предварительной обработки,
  • Квази-дубль — одна и та же сущность, но записана по-разному: «Болт М10×40», «БОЛТ м-10 оцинк.», «Метиз М10 длина 40мм», «M10 bolt». Выявляются с помощью алгоритмов нечёткого сопоставления и экспертной валидации.
Аналог
Аналог — это взаимозаменяемая позиция, имеющая отличающиеся от основной характеристики (например, производитель, артикул и др.), которые могут применяться для одной и той же цели.

В отличие от дублей, аналоги не сливаются в одну запись, и между ними устанавливаются связи взаимозаменяемости, в том числе, с учетом применимости.
Неполно описанная запись
Запись, у которой заполнены не все обязательные атрибуты или данные которой не позволяют однозначно идентифицировать объект мастер-данных.
Эталонная запись (Golden Record)
Единственная «официальная» запись, которая признаётся достоверным описанием объекта после нормализации. Если у объекта было несколько дублей — они сливаются в эталонную запись.

Все дублирующие записи помечаются как неактивные и связываются с эталонной через матрицу соответствия.
Матрица соответствия (кросс-таблица)
Таблица, фиксирующая связь между старыми кодами/записями (до нормализации) и новыми эталонными записями, дублями и неполно описанными записями (после нормализации).

Является обязательным артефактом, обеспечивающим корректную привязку транзакционных данных к эталонным записям при миграции.
Моделирование данных
Моделирование данных выполняется до начала обработки записей и включает:
  • Определение доменов и объектов, подлежащих нормализации,
  • Разработку атрибутивного состава каждого домена,
  • Определение обязательных и необязательных полей,
  • Установление связей между основным справочником и вспомогательными (единицы измерения, классы, производители и пр.)
Обогащение данных
Заполнение недостающих атрибутов записи из внешних источников: каталогов производителей, ГОСТов и стандартов, отраслевых баз данных, конструкторской документации.
Дедубликация
Процесс выявления и устранения дублирующих записей. Включает несколько этапов: автоматическое выявление совпадений, вероятностное сопоставление схожих записей, экспертную валидацию пограничных случаев, слияние в эталонную запись и установление связей.
MDM-система (Master Data Management)
Информационная система, предназначенная для централизованного управления мастер-данными: ведения справочников, контроля качества, согласования изменений, интеграции с другими системами.

Российские примеры: 1С: MDM, Datareon Platform, БФТ.ЕНСИ. Западные: SAP MDG, Informatica MDM.

Нормализация может выполняться как с использованием MDM-системы, так и без неё — в шаблонах загрузки, на платформах обработки данных (Loginom, Datareon).
ISO 8000
Международный стандарт качества данных и мастер-данных. Ключевая часть для нормализации — ISO 8000−100:2016, описывающая фундаментальные требования к качеству, переносимости и обмену мастер-данными между организациями.

Применяется для проектирования моделей качества и аудита справочников.
ISO/IEC 25012 / 25024
Стандарты, определяющие характеристики качества данных (полнота, согласованность, точность, уникальность, соответствие форматам и др.) и методы их измерения.

Используются N-Forma для аудита данных «до» и оценки результатов «после» нормализации.
DAMA-DMBOK
Международный свод знаний по управлению данными (Data Management Body of Knowledge). Определяет дисциплины, роли, процессы и инструменты управления данными, включая управление качеством данных (Data Quality) и управление мастер-данными (Master & Reference Data Management).

Методологическая основа для построения руководства данными (Data Governance) в компании.
Нормализация мастер-данных
Согласно ISO 8000 и DAMA-DMBOK, нормализация мастер-данных — это процесс приведения записей справочников к единому структурированному, непротиворечивому виду в соответствии с установленными стандартами, методологией организации и характеристиками качества данных (полнота, точность, согласованность, уникальность, соответствие форматам).

Работы по нормализации включают:
  • Разработку методологии нормализации,
  • Классификацию и категоризацию объектов данных,
  • Унификацию и структурирование данных по единым шаблонам (атрибуты и их значения),
  • Дополнение недостающих характеристик,
  • Устранение ошибок и дублей,
  • Формирование матриц соответствия нормализованных и исходных данных (кросс-таблиц),
  • Разработку регламентов поддержания качества нормализованных данных.
Нормализация также может включать:
  • Установление связей между взаимозаменяемыми позициями,
  • Привязку к справочнику агрегированных номенклатурных позиций (например, для массово закупаемых офисных материалов одного типа, которые не требуют раздельного планирования и учета),
  • Внесение данных документов в нормализованные данные (например, документов-оснований, карточек сотрудников, технической документации).
Зачем нужна нормализация
Типичные проблемы до нормализации
  • Проблемы с данными
    • Одни и те же объекты записаны разными способами,
    • Работы и услуги оформлены как позиции номенклатуры или статьи затрат,
    • Дубли и квази-дубли (15−30% записей в типичной необработанной базе),
    • Отсутствие структурированных характеристик и параметров,
    • Ошибки в форматах, кириллица/латиница вперемешку, лишние символы,
    • Отсутствие единой классификации и шаблонов записей,
    • Отсутствие правил ведения НСИ.
  • Последствия для бизнеса
    • Отсутствуют данные о консолидированной потребности по товарам и услугам, одна и та же позиция закупается у разных поставщиков по разным ценам и на разных условиях,
    • Использование дублирующих и слабо структурированных позиций номенклатуры приводит к появлению избыточных запасов, неликвидов, нарушению сроков передачи в производство и отгрузки потребителям,
    • Затраты по идентичным товарам и услугам разносятся по разным статьям и категориям, затруднено сравнение показателей по договорам, поставщикам и бизнес‑единицам, управленческие решения принимаются на основании искаженных данных,
    • Клиенты и поставщики дублируются в разных системах, учет взаимодействий фрагментирован, затруднены формирование отчетности и анализ работы с контрагентами,
    • Описания и атрибуты товаров и услуг неоднородны между каналами, часть позиций представлена неполно или противоречиво, что усложняет выбор, учет заказов и анализ результатов продаж,
    • Создание и изменение элементов справочников осуществляется без единых правил, с высокой долей ручных операций и повторных согласований, что приводит к увеличению сроков и трудозатрат,
    • Высока частота ошибок в первичных документах и отчетности, сложно обеспечить единообразное соблюдение нормативных требований, качество проведения аудитов.
Цели нормализации

Стратегические цели

  • Создание единого источника достоверных данных.
  • Обеспечение качества данных в соответствии с ISO 8000 и ISO/IEC 25 012,
  • Формирование корпоративных стандартов управления НСИ,
  • Подготовка к внедрению или оптимизации информационных систем

Операционные цели

  • Классификация номенклатуры на основе единых принципов,
  • Структурирование записей по единым шаблонам.
  • Обогащение данных недостающими атрибутами.
  • Устранение дублей и противоречий,
  • Установление связей между взаимозаменяемыми позициями,
  • Агрегирование номенклатурных позиций
Выгоды от нормализации
Типовые эффекты нормализации для бизнеса:
  • Экономия за счет консолидации закупок
    Единые коды и атрибуты номенклатуры позволяют агрегировать спрос, что дает ощутимое снижение закупочных цен и исключает закупку дублирующих позиций
  • Снижение складских запасов и неликвидов
    Нормализованные справочники обеспечивают корректный учет остатков, партионный и серийный учет, позволяют находить и использовать аналоги, что уменьшает совокупные запасы и объем неликвидов при сохранении уровня сервиса
  • Корректная финансовая и управленческая аналитика
    Единая модель категорий и статей расходов делает сравнение затрат по договорам и контрагентам сопоставимым и повышает качество управленческих решений на уровне CFO и бизнеса
  • Прозрачная картина по клиентам и контрагентам
    Объединение дублей клиентов и поставщиков в эталонные записи дает целостную историю взаимодействия, упрощает соблюдение требований комплаенс и улучшает качество сервиса
  • Ускорение бизнес-процессов
    Создание и изменение справочной записи происходит по установленным правилам и требует существенно меньшего времени, сокращая трудозатраты профильных специалистов
  • Снижение операционных и репутационных рисков
    За счет целостных и согласованных данных сокращается количество ошибок, упрощается прохождение аудитов и выполнение нормативных требований
  • Рост конверсии и выручки
    Единые и полные описания, характеристики, фото и видео товаров во всех каналах уменьшают количество уходов клиента без покупки и ошибок выбора товара, повышают конверсию в заказ
  • Ускорение вывода новых товаров на рынок
    Стандартизированные атрибуты и шаблоны карточек товара позволяют быстрее заводить новые позиции и синхронизировать их между сайтами, маркетплейсами и офлайн системами
  • Снижение количества возвратов и претензий
    Точные и согласованные характеристики товаров снижают число ошибочных покупок, возвратов и негативных отзывов
  • Эффективный мерчандайзинг и кросс-продажи
    Нормализованные атрибуты позволяют качественно строить фильтры, рекомендации, аналоги и комплекты, что увеличивает средний чек и глубину корзины
  • Единая витрина во всех каналах
    Единый каталог обеспечивает одинаковое позиционирование ассортимента на сайте, в приложении, на маркетплейсах и в офлайне, упрощая омниканальный маркетинг
  • Повышение гибкости и масштабируемости ИТ-ландшафта
    Единый реестр НСИ и централизованные правила синхронизации упрощают интеграцию новых систем и каналов продаж, снижает стоимость изменений
Описание услуги нормализации
Основные домены и объекты нормализации
Нормализация применяется к любым справочникам, данные которых используются в бизнес-процессах. Наиболее востребованные домены:
Закупаемая номенклатура
МТР, ТМЦ, запасные части, расходные материалы, инструмент, комплектующие.

Классический и наиболее зрелый домен, где выгоды нормализации наиболее очевидны и хорошо измеримы
Продаваемая номенклатура
SKU (Stock Keeping Unit), артикулы готовой продукции, тарифы, услуги, пакеты предложений, статьи доходов

Подробнее →
Контрагенты
Поставщики, клиенты, подрядчики, агенты

Типичные проблемы: дубли юридических лиц под разными написаниями, устаревшие реквизиты, отсутствие ИНН/КПП, смешение юрлиц и физлиц

Последствия: ошибки в платёжных поручениях, риски комплаенса, некорректная аналитика по клиентской базе
База адресов
Для контрагентов, доставки, контактных данных и т.п.
Договоры
Рамочные соглашения, контракты, тарифные приложения. Нормализация обеспечивает единый формат описания предмета договора, сроков, условий, связей с контрагентами и номенклатурой
Персонал
Должности, подразделения, штатные единицы

Нормализация критична при слияниях и поглощениях, переходе на единую HR-систему, консолидации отчётности по группе компаний
Работы и услуги (как объекты учёта затрат)
Виды технического обслуживания, ремонтных работ, транспортных и логистических услуг, используемые в качестве статей затрат
N-Forma выполняет нормализацию полного спектра справочников компании, включая ТМЦ, договоры, тарифы, персонал, работы, услуги, нематериальные объекты учёта и др.
Особенности нормализации справочников услуг
Нормализация справочников услуг предъявляет повышенные требования к обеспечению связности и сопоставимости записей и требует учета следующих особенностей.

Нормализация касается не только сутевых характеристик услуг, но и таких параметров, как:
  • Условия договоров,
  • Результаты оказания услуги,
  • Объем работ,
  • Модель тарификации,
  • Временные показатели,
  • SLA и KPI,
  • Маркетинговое и операционное представление,
  • Требования комплаенс и др.

Для закупаемых услуг дополнительно критичны параметры сравнения предложений разных поставщиков, такие как единицы измерения и структура тарифов, привязка услуг к бюджетам и статьям затрат, типовым формулировкам ТЗ и актов.

Дополнительно необходимо отметить, что нормализация справочника услуг часто влечет необходимость его существенного дополнения и реструктуризации в связи с непроработанностью и недооценкой каталога услуг.
Особенности нормализации продаваемой номенклатуры
Исторически услуга нормализации складывалась вокруг справочников закупаемых МТР.

Качество мастер-данных на стороне продаж играет не менее важную роль, так как продаваемая номенклатура может требовать поддержания сложной атрибутивной модели для описания вариантов товара, его потребительских характеристик, медийных материалов и пр.

При нормализации справочников продаваемой номенклатуры необходимо учитывать:
  • Требования со стороны систем класса PIM (Product Information Management) для управления информацией о продуктах,
  • Сложные связи между объектами, необходимые для корректного выставления счетов, перекрестных продаж, конфигурирования и др.,
  • Комплектность и сопутствующие услуги,
  • Смену этапов жизненного цикла и связанных с ними требований к описанию продуктов и услуг.
Сочетание нормализации и миграции
Понятия нормализации и миграции часто используются в общем контексте.

Нормализация обеспечивает устранение ошибок, дублей, восполнение атрибутов, классификацию, структурирование по шаблонам и отвечает на вопрос «какими должны быть данные». Нормализация может выполняться независимо от миграции для улучшения качества действующего справочника в одной информационной системе вне связи с другими системами.

Миграция выполняется для переноса данных из одной информационной системы в другую и включает выгрузку данных, преобразование формата, возможное дообогащение и загрузку в целевую систему. Миграция отвечает на вопрос «как перенести данные» и не улучшает их качество.

Нормализация и миграция могут рассматриваться как единая услуга в следующих случаях:
При внедрении новой системы управления предприятием (ERP, MES, CRM, HRM и т. д.) или MDM-системы и выполнении нормализации в процессе миграции между выгрузкой из старой системы и загрузкой в новую
В этом случае нормализация и миграция образуют единый технологический контур, а матрица соответствия (кросс-таблица) является обязательным артефактом обоих процессов
Нормализация выполняется до миграции, чтобы исключить перенос некачественных данных и ускорить процесс миграции
В этом случае нормализация и миграция — последовательные, взаимозависимые этапы одного проекта
Нормализация выполняется после миграции, методом так называемого «переживания» – когда в новую систему загружается и эталонный нормализованный массив, и старые записи, которые постепенно вытесняются по мере расходования остатков и переноса транзакций
Этот способ наиболее труден организационно, но иногда вынужден — когда жёсткие сроки запуска системы не позволяют полностью завершить нормализацию до старта
Ключевые принципы нормализации
Нормализация N-Forma строится на следующих принципах:
Бизнес-ориентированность
Каждое методологическое решение (уровень агрегации, набор обязательных атрибутов, правила классификации) принимается исходя из того, как данные будут использоваться в бизнес-процессах: закупках, складском учёте, ТОиР, финансовом планировании, продажах
Стандартизация
Единые правила для всей организации, закреплённые в методике и шаблонах. Без стандартов каждый сотрудник записывает данные «как умеет», и через год справочник возвращается в исходное состояние
Прозрачность
Все изменения фиксируются, сохраняется история, матрица соответствия обеспечивает связь между старыми и новыми кодами. Это обязательное условие для корректной миграции транзакционных данных
Гибридный подход
N-Forma применяет как автоматизированную, так и экспертную нормализацию на основе сочетания различных инструментов, что даёт оптимальное соотношение скорости, стоимости и качества выполнения работ.

Автоматизация используется для больших объемов данных и типовых объектов.

Для сложных, узкоспециализированных или контекстно-зависимых объектов выполняется экспертная нормализация вручную
Автоматизация с использованием LLM‑моделей
Применяется, только если она:
  • может обеспечить высокий процент нормализации,
  • не требует последующей проверки и существенной корректировки результатов,
  • позволяет существенно снизить затраты проекта
Методология нормализации
КЛАССИФИКАЦИЯ НОМЕНКЛАТУРЫ
Принципы классификации:
  • Классификация строится на основе функционального назначения и характеристик объектов.
  • Каждая запись относится к одному или нескольким классам,
  • Классификация учитывает специфику отрасли и бизнес-процессов заказчика,
  • Классификация может согласовываться с отраслевыми стандартами,
  • Классификация по ОКПД2, ЕСКД, ОКВЭД может требовать привязки к внутренней классификации.
ПРАВИЛА ИМЕНОВАНИЯ АТРИБУТОВ ОБЪЕКТОВ НСИ
Шаблон определяет порядок и формат атрибутов объектов НСИ.
Пример структуры наименования объекта
Тип объекта | Ключевые характеристики | Дополнительные характеристики | Единица измерения 
Пример шаблона для класса «Болты»
Болт | Тип резьбы | Диаметр x Длина | Класс прочности | Покрытие| ГОСТ/DIN 
Примеры нормализованных наименований
Правила именования
  • Единый регистр (первая буква заглавная, остальные строчные, кроме аббревиатур),
  • Логика использования пробелов, спецсимволов, переноса строк,
  • Разделители: точка, дефис, запятая по правилам шаблона,
  • Единицы измерения в конце или в составе характеристик (по шаблону),
  • Аббревиатуры расшифровываются или приводятся к стандартному виду (словарь аббревиатур).
ОБОГАЩЕНИЕ ДАННЫХ
Источники обогащения
  • Внутренние базы знаний заказчика — конструкторская документация, спецификации, технологические карты,
  • Отраслевые справочники — специализированные базы данных,
  • Каталоги производителей — технические характеристики по артикулам,
  • ГОСТы и стандарты — параметры по обозначениям ГОСТ, DIN, ISO,
  • Прочие открытые источники.
Процесс обогащения
Извлечение идентификаторов из исходного наименования (артикул, ГОСТ, каталожный номер)
Поиск записи в источниках обогащения
Извлечение недостающих характеристик
Валидация соответствия (проверка на противоречия между исходными и найденными данными)
Заполнение атрибутов в записи НСИ
Примеры обогащения
4. ДЕДУБЛИКАЦИЯ И ВЫЯВЛЕНИЕ АНАЛОГОВ
Типы дублей
Точные дубли
Полное совпадение наименований, выявляются на этапе предварительной обработки
Квази-дубли
Одна сущность, разное написание, например: «Болт М10×40» и «Метиз М10 длина 40мм»
Аналоги
Разные сущности с похожими характеристиками и взаимозаменяемостью, например: болты разных производителей с одинаковыми параметрами
Методы выявления
Детерминированное сопоставление
Сравнение по ключевым атрибутам после. нормализации и структурирования
Вероятностное сопоставление
Расчет меры схожести между записями
Экспертная валидация
Проверка человеком для пограничных случаев
Стратегии обработки дублей
Слияние
Создание одной эталонной записи (Golden Record), остальные помечаются как дубли и удаляются (выводятся из эксплуатации)
Установление связей
Сохранение всех записей с указанием связей с дубликатами, неполно описанными и эталонными записями
Модель качества данных
N-Forma применяет модель качества данных, основанную на стандартах ISO/IEC 25012, 25024 и ISO 8000.

Модель определяет характеристики качества данных:
  • полнота,
  • согласованность,
  • точность,
  • уникальность,
  • соответствие форматам
и методы их измерения.

Качество мастер-данных рассматривается как
  • отсутствие в них ошибок,
  • однозначность,
  • сопоставимость
  • переносимость между информационными системами.
ХАРАКТЕРИСТРИКИ КАЧЕСТВА ДАННЫХ
ПРИМЕР ОЦЕНКИ КАЧЕСТВА ДАННЫХ

До нормализации

(типичные показатели)

  • Полнота обязательных атрибутов: 40-60%
  • Доля дублей и квази-дублей: 15-30%
  • Соответствие шаблонам наименований: 10-20%
  • Наличие классификации: 0-30%

После нормализации

(целевые показатели N-Forma)

  • Полнота обязательных атрибутов: 95-98%
  • Доля дублей и квази-дублей: менее 2%
  • Соответствие шаблонам наименований: 95-98%
  • Наличие классификации: 100% (все записи классифицированы)
Фазы нормализации
N-Forma предлагает комплексную услугу нормализации, состоящую из трех последовательных фаз:
  • первоначальная нормализация,
  • внедрение процессов управления качеством,
  • регулярное поддержание качества.
N-Forma предлагает комплексную услугу нормализации, состоящую из трех последовательных фаз:
  • первоначальная нормализация,
  • внедрение процессов управления качеством,
  • регулярное поддержание качества.
ФАЗА 1: ПЕРВОНАЧАЛЬНАЯ НОРМАЛИЗАЦИЯ
Цель
Привести существующий массив НСИ к целевому состоянию качества за фиксированный срок
Длительность
2-6 месяцев в зависимости от объема и сложности данных
Состав работ
  • Аудит и профилирование данных
    Анализ текущего состояния НСИ, оценка качества по модели ISO/IEC 25 012, выявление типовых проблем, оценка объема работ
  • Моделирование данных
    Определение доменов, объектов и атрибутов, подлежащих нормализации, связей со вспомогательными справочниками, подхода к работе с шаблонами, возможностей и принципов агрегации записей
  • Разработка методики нормализации
    Разработка шаблонов эталонных записей, правил нормализации и классификации
  • Выгрузка данных
    Разработка и согласование шаблонов и инструментов выгрузки
  • Подготовительная обработка
    Устранение грубых ошибок (лишние пробелы, спецсимволы, кириллица/латиница), удаление явных дублей (точное совпадение наименований), валидация форматов данных
  • Классификация
    Определение набора обязательных атрибутов для каждого класса, отнесение каждой записи к одной или нескольким классификациям в соответствии с методикой и правилами, установленными для каждого домена (ТМЦ, договоры, контрагенты и т. д.)
  • Структурирование и обогащение
    Извлечение характеристик из исходных наименований, обогащение данными из справочников производителей, ГОСТ, каталогов, приведение наименований к эталонному виду по шаблонам, заполнение недостающих атрибутов
  • Дедубликация (выявление неявных дублей)
    Выявление квази-дублей (различное написание одной сущности), выявление аналогов и взаимозаменяемых позиций, установление связей дубликатов
  • Валидация и контроль качества
    Многоуровневая проверка качества результатов, согласование с экспертами заказчика, измерение метрик качества по ISO/IEC 25 024, формирование итогового отчета
  • Подготовка к загрузке данных в целевую ИС
    Разработка матрицы соответствия (кросс-таблицы), согласование шаблонов и процедур загрузки данных в целевую информационную систему
Результаты фазы 1
  • Модель данных и методика нормализации,
  • Описание подхода к классификации и классов,
  • Шаблоны эталонных записей для каждого класса,
  • Нормализованный справочник НСИ для загрузки в целевую систему,
  • Матрица соответствия (кросс-таблица) старых и новых записей,
  • Шаблоны для загрузки данных в целевую информационную систему,
  • Реестр дублей и аналогов,
  • Отчет о качестве данных (метрики до/после, проблемные зоны).
ФАЗА 2: ВНЕДРЕНИЕ ПРОЦЕССОВ УПРАВЛЕНИЯ КАЧЕСТВОМ НСИ
Цель
Зафиксировать достигнутое качество данных и не допустить деградации справочников
Длительность
1-3 месяца параллельно с завершением фазы 1
Состав работ
  • Разработка методики ведения НСИ
    Разрабатываются правила создания новых, изменения существующих и деактивации устаревших записей, правила проведения периодического аудита качества
  • Настройка инструментов контроля качества
    Настройка автоматических проверок данных ИС, дашбордов мониторинга качества, уведомлений при нарушении пороговых значений метрик
  • Интеграция Service Desk
    Настраиваются процессы приема заявок в Service Desk, маршруты их согласования, контроля выполнения SLA
  • Тренинги для команды заказчика
    Проводятся тренинги по темам: методология нормализации и стандарты НСИ, инструменты контроля качества, использование базы знаний
Результаты фазы 2
  • Методика ведения НСИ,
  • Дашборды качества данных,
  • База знаний с методологией, примерами, FAQ,
  • Обученная команда заказчика.
ФАЗА 3: РЕГУЛЯРНОЕ ПОДДЕРЖАНИЕ КАЧЕСТВА НСИ
Цель
Непрерывное обеспечение качества данных через операционную модель с четкими SLA
Длительность
В соответствии с потребностями заказчика, продолжительное время
Модели предоставления услуги
Состав услуги (модель полного аутсорсинга)
  • Прием заявок на создание/изменение/деактивацию записей НСИ,
  • Обработка новых записей в соответствии с методологией,
  • Контроль качества всех изменений (автоматические и экспертные проверки),
  • Выявление и устранение дублей в режиме реального времени,
  • Обогащение данных из внешних источников (каталоги производителей, ГОСТ),
  • Ежемесячный аудит качества НСИ (проверка метрик, выявление проблемных зон)
  • Ежемесячные отчеты с анализом трендов качества и рекомендациями,
  • Поддержка и развитие методологии (обновление шаблонов, классификации).
SLA и гарантии качества
Результаты фазы 3 (ежемесячно)
  • Обработанные заявки,
  • Нормализованные записи,
  • Выявленные и устранённые дубли,
  • Отчет о качестве НСИ,
  • Рекомендации по улучшению.
Команда и роли
N-Forma формирует профессиональную команду с четким разделением ролей для выполнения услуги нормализации
РОЛИ В ПРОЦЕССЕ НОРМАЛИЗАЦИИ НА ФАЗАХ 1 И 2
Роль
Функции
Руководитель проекта
Общее управление проектом, взаимодействие с заказчиком, контроль сроков и бюджета, отчетность
Методолог/Аналитик НСИ
Разработка методики нормализации, классификации, шаблонов; экспертная поддержка в сложных случаях; анализ качества данных
Нормализатор
Выполнение нормализации записей, обогащение данных, валидация качества, документирование в базе знаний
Разработчик-программист
Настройка инструментов автоматизации (Loginom, Datareon), разработка скриптов ETL, настройка интеграций, дашбордов качества
РОЛИ В ОПЕРАЦИОННОЙ МОДЕЛИ НА ФАЗЕ 3
Роль
Функции
Сервисный менеджер
Управление услугой, соблюдение SLA, предоставление отчетности и непрерывное улучшение
Методолог/ Аналитик НСИ
Предоставление методической экспертизы, решение сложных и нетиповых задач, наставничество команды
Оператор данных
Обработка заявок, нормализация новых записей, контроль качества и консультирование пользователей
Программист-разработчик
Поддержка и развитие инструментов автоматизации, отчетности, анализа качества
Нормализация в контексте ITIL
При предоставлении услуги нормализации как части услуг по непрерывному обеспечению качества НСИ N-Forma использует системный подход ITIL к управлению жизненным циклом услуги, который позволяет:
  • Оптимизировать использование ресурсов,
  • Сфокусировать услугу на максимизации ценности для заказчика,
  • Повысить качество услуги, ее прозрачность и измеримость,
  • Обеспечить обратную связь и внедрение изменений.
В соответствии с подходом ITIL, управление жизненным циклом услуги нормализации N-Forma включает пять фаз:
  • Стратегия услуги (Service Strategy)
    Определение целей нормализации как сервиса,
    Установление границ ответственности N-Forma и заказчика,
    Определение ключевых KPI и экономических ориентиров.
  • Проектирование услуги (Service Design)
    • Определение требований к качеству НСИ в соответствии с бизнес-процессами,
    • Разработка SLA на услугу нормализации (сроки, метрики качества),
    • Проектирование процессов контроля качества и валидации данных.
  • Внедрение услуги (Service Transition)
    • Выполнение первоначальной нормализации (фаза 1),
    • Внедрение регламентов и инструментов контроля качества (фаза 2),
    • Обучение команды заказчика, передача знаний.
  • Эксплуатация услуги (Service Operation):
    • Регулярное поддержание качества НСИ (фаза 3),
    • Обработка заявок на создание/изменение записей с нормализацией,
    • Мониторинг метрик качества, управление инцидентами качества данных.
  • Постоянное улучшение услуги (Continual Service Improvement)
    • Анализ трендов качества НСИ (ежемесячные отчеты),
    • Выявление повторяющихся проблем и корректировка методологи,
    • Цикл PDCA для постоянной оптимизации процессов нормализации.
Интеграция нормализации с аутсорсингом
N-Forma предлагает комплексную модель нормализации, интегрированной с регулярным ведением НСИ.

Преимущества интегрированной модели:
Нормализация выполняется теми же специалистами, которые затем поддерживают качество НСИ в операционном режиме, что обеспечивает сохранение экспертизы
Используется единая методология на всех этапах от первоначальной нормализации до регулярного поддержания качества данных.
Осуществляется плавный переход от проекта к операционной услуге без разрыва в качестве.
Обеспечивается взаимосвязь и согласованность SLA
Типовая дорожная карта проекта с переходом к эксплуатации услуги:
Варианты предоставления услуги
N-Forma предлагает гибкий подход к предоставлению услуги нормализации в зависимости от потребностей заказчика

Проект под ключ

(фазы 1-2)

N-Forma выполняет первоначальную нормализацию и внедрение процессов, затем передает поддержку команде заказчика


Подходит для компаний с собственной сформированной командой НСИ, нуждающихся в разовой чистке данных и методологической поддержке


Результат: Нормализованный справочник, методология, регламенты, обученная команда заказчика

Проект и операционная поддержка

(фазы 1-3)

N-Forma выполняет первоначальную нормализацию и затем переходит к регулярному поддержанию качества НСИ в режиме аутсорсинга


Подходит для компаний без внутренней экспертизы по НСИ или желающих минимизировать загрузку собственных ключевых специалистов


Результат: Нормализованный справочник и непрерывное поддержание качества согласно SLA

Консультационная поддержка

Команда заказчика выполняет нормализацию самостоятельно, N-Forma предоставляет методологическую поддержку, проводит регулярные аудиты качества, тренинги


Подходит для компаний с экспертизой, желающих сохранить контроль, но нуждающихся в экспертной поддержке


Результат: Повышение зрелости команды заказчика, внешняя валидация качества работы

Гибридная модель

Разделение ответственности сторон на две части:

  • Рутинные действия по нормализации
  • Методологически сложные операции

В гибридной модели N-Forma может выполнять функции любой из сторон


Подходит для компаний с частичной экспертизой, желающих балансировать стоимость и контроль за процессом нормализации


Результат: Оптимальное распределение нагрузки, снижение стоимости при сохранении контроля

Безопасность и комплаенс
ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ
N-Forma обеспечивает защиту конфиденциальных данных заказчика за счет:
  • Подписания NDA (соглашения о неразглашении),
  • Использования корпоративных учетных записей заказчика с минимальными привилегиями,
  • Логирования всех действий в системах заказчика,
  • Работы через защищенные каналы (VPN, RDP, Citrix),
  • Обезличивания данных при использовании внешних AI-сервисов (LLM),
  • Работы с локальными AI-моделями для критичных данных.
СООТВЕТСТВИЕ НОРМАТИВНЫМ ТРЕБОВАНИЯМ
  • Соблюдение требований ФЗ-152 «О персональных данных» (при работе с данными о сотрудниках, контрагентах),
  • Соблюдение политик безопасности заказчика,
  • Соответствие стандартам ISO 8000, ISO/IEC 25 012 при проектировании моделей качества данных,
  • Возможность аудита процессов нормализации (прослеживаемость изменений, документирование решений).
Экономика нормализации
Пример оценки затрат
ПЕРВОНАЧАЛЬНАЯ НОРМАЛИЗАЦИЯ (ФАЗА 1)
Затраты зависят от объема данных, сложности номенклатуры и требуемого уровня качества.

Факторы стоимости:
  • Объем записей: количество позиций для нормализации.
  • Сложность классификации: количество классов, глубина иерархии.
  • Уровень исходного качества данных: доля дублей, полнота атрибутов.
  • Доступность источников обогащения: каталоги производителей, ГОСТы.
  • Специфика отрасли: стандартная номенклатура vs узкоспециализированная.
  • Наличие существующей методологии: с нуля vs адаптация имеющейся.
РЕГУЛЯРНОЕ ПОДДЕРЖАНИЕ КАЧЕСТВА (ФАЗА 3)
В дополнение к факторам, влияющим на стоимость первоначальной нормализации, стоимость поддержания качества НСИ зависит от:

  • интенсивности изменений НСИ
  • модели предоставления услуги.
Пример оценки финансовой выгоды
  • Снижение затрат на закупки: 10−25%
    За счет:
    • консолидации закупок однотипных МТР,
    • устранения завышенных цен на дублирующие позиции,
    • возможности проведения конкурентных процедур с большими объемами
  • Сокращение затрат на хранение: 15−20%
    За счет:
    • устранения дублирующих позиций на складах,
    • оптимизации страховых запасов,
    • освобождения складских площадей
  • Снижение затрат на ERP/MDM-проекты: 10−20%
    За счет:
    • предварительной нормализации данных,
    • сокращения трудозатрат на блок НСИ при внедрении,
    • снижения рисков задержек проекта
  • Сокращение операционных затрат: 15−30%
    За счет:
    • автоматизации процессов создания и поддержания НСИ,
    • снижения численности персонала или перераспределения на более ценные задачи
Кейсы нормализации
Большой опыт N-Forma в выполнении проектов нормализации технически сложных и критически важных для заказчика справочников, а также применение современных инструментов и технологий, обеспечивают высокое качество данных, максимально эффективное внедрение и использование информационных систем для работы с НСИ

В разделе приведены примеры четырех из более, чем 15 реализованных N-Forma проектов. Больше информации — на странице Примеры проектов →
Кейс 1: Нормализация номенклатуры научного оборудования
Ситуация:
  • Разнородная номенклатура научного и лабораторного оборудования (~10 тыс. позиций),
  • Отсутствие классификации и стандартов наименований,
  • Множественные дубли из-за децентрализованных закупок лабораториями,
  • Невозможность консолидировать потребность и анализировать структуру закупок.

Решение N-Forma

  • Анализ номенклатуры и разработка отраслевой классификации (научное оборудование, расходные материалы, ИТ-оборудование),
  • Разработка методики нормализации с учетом специфики научных закупок,
  • Нормализация 10 тыс. позиций с обогащением данными из каталогов производителей,
  • Выявление и устранение 2 тыс. дублей (20% исходной базы),
  • Внедрение процессов контроля качества при создании новых позиций

Результаты

  • Снижение времени обработки заявок на создание НСИ с 17 дней до 1 дня за 3 месяца,
  • 90% заявок обрабатываются за 4 часа (целевой SLA),
  • Консолидация закупок однотипного оборудования (экономия ~15% бюджета закупок),
  • Повышение удовлетворенности внутренних заказчиков (лабораторий).
Кейс 2: Нормализация авиационных МТР
Ситуация:
  • Справочник авиационных материально-технических ресурсов (МТР) в SAP ERP (~50 тыс. позиций),
  • Критичность качества данных для безопасности полетов и соблюдения нормативов,
  • Необходимость интеграции с системой ТОиР AMOS,
  • Требование круглосуточной поддержки качества НСИ (24/7).

Решение N-Forma

  • Первоначальная нормализация 50 тыс. позиций авиационных МТР (4 месяца).
  • Разработка классификатора авиационных МТР (крепеж, расходные материалы, запчасти по типам ВС).
  • Обогащение данными из авиационных каталогов (Boeing, Airbus, Sukhoi).
  • Внедрение гибридной модели поддержки: команда N-Forma днем, специалисты Аэрофлота ночью для критичных заявок.
  • Настройка процесса обработки AOG-заявок (Aircraft on Ground) за 10−15 минут.

Результаты

  • Обеспечена непрерывность операционной деятельности при снижении стоимости по сравнению с полной круглосуточной командой.
  • Соблюдение жестких SLA по критичным процессам (AOG-заявки за 10−15 минут).
  • Снижение количества ошибок при заказе МТР и планировании ТОиР.
  • Интеграция SAP ERP и AMOS через единый справочник МТР.
Кейс 3: Нормализация номенклатуры МТР
Ситуация:
  • Разрозненные справочники номенклатуры в нескольких системах,
  • Дубли, разные правила описания и кодирования материалов,
  • Сложность консолидации данных для закупок, складского учёта и ТОиР.

Решение N-Forma

  • Разработка классификационных групп и структуры эталонной записи материалов для единого справочника в SAP R/3,
  • Нормализация и наполнение эталонного массива единого справочника номенклатуры (191 987 записей),
  • Разработка методик, регламентов, инструкций и структуры группы НСИ, запуск процессов регулярного ведения справочника,
  • Построение конвертеров и миграция данных в ERP SAP R/3, обучение пользователей и сопровождение перехода.

Результаты

  • Однозначное описание материалов и единый справочник для всех подразделений, связанных с закупками, эксплуатацией и ремонтом авиационной техники,
  • Снижение числа дублей, повышение качества учёта запасов и прозрачности их движения,
  • Повышение оперативности планирования и отчётности, снижение затрат на закупку и ведение НСИ.
Кейс 4: Нормализация перед миграцией в SAP
Ситуация:
  • Необходимость миграции номенклатуры из MS Excel и устаревших систем в SAP ERP.
  • Отсутствие классификации, множественные дубли, неполные данные.
  • Жесткие сроки проекта внедрения ERP (миграция данных — критический этап).

Решение N-Forma

  • Консолидация номенклатуры из 5 источников (Excel, старые БД) — 35 тыс. записей.
  • Экспресс-нормализация с фокусом на критичные для SAP атрибуты (3 месяца).
  • Создание матрицы соответствия старых и новых кодов для миграции остатков и истории.
  • Загрузка нормализованных данных в SAP ERP с контролем качества.

Результаты

  • Миграция выполнена в срок без задержки проекта ERP.
  • Снижение затрат на блок НСИ в ERP-проекте на 20% (благодаря предварительной нормализации).
  • После внедрения — переход к модели регулярного поддержания качества НСИ (аутсорсинг N-Forma).
Часто задаваемые вопросы (FAQ)
  • Как быстро можно выполнить первоначальную нормализацию?
    Длительность зависит от объема и сложности данных.

    Типичные сроки: 50 тыс. позиций — 3−6 месяцев.

    Возможна приоритизация критичных классов для ускорения эффекта.
  • Что, если у нас нет разработанной методики и классификации?
    N-Forma разработает методику нормализации, классификацию и шаблоны с нуля в рамках фазы 1 (входит в состав услуги).

    Срок разработки 4−6 недель.
  • Как обеспечивается качество нормализации?
    Многоуровневая валидация: автоматические проверки + экспертный контроль + согласование с заказчиком.

    Измеряем метрики качества по ISO/IEC 25 012.

    Целевые значения: 95−98% по всем характеристикам.
  • Можно ли начать с ограниченного периметра (пилот)?
    Да, рекомендуем пилот на 5−10 тыс. позиций одного класса (например, только метизы или только электротехника).

    Длительность пилота 1−2 месяца.

    Результат — оценка качества, уточнение сроков и бюджета полномасштабной нормализации.
  • Какие системы поддерживаются?
    1С (все конфигурации),
    SAP (ECC, S/4HANA),
    Microsoft Dynamics,
    Галактика,
    1С: MDM,
    Datareon,
    кастомные MDM-решения,
    AMOS, PLM, CRM.

    Работаем с любыми форматами выгрузок (CSV, Excel, XML, JSON).
  • Что произойдет со старыми кодами номенклатуры?
    Создается матрица соответствия (кросс-таблица) для связывания старых и новых кодов с целью переноса остатков, заказов и др.

    Старые записи деактивируются, но сохраняются в системе для обеспечения прослеживаемости.
  • Как быстро можно перейти к операционной модели поддержания качества?
    После завершения первоначальной нормализации (фаза 1) и внедрения процессов управления качеством (фаза 2) переход к фазе 3 занимает около одного месяца.

    Возможен плавный переход с постепенным масштабированием услуги.
  • Используете ли вы искусственный интеллект (AI/ML)?
    LLM могут применяться если это ускоряет и удешевляет поиск дублей классификацию, извлечение значений атрибутов и обогащение записей при обеспечении приемлемого уровня качества.
  • Какие модели оплаты доступны?
    Фиксированная цена за проект (фазы 1−2) или сдельная оплата за количество нормализованных позиций.

    Фиксированная ежемесячная плата или гибридная модель (базовая оплата + сверхнормативные заявки) для фазы 3.
  • Можем ли мы получить права на разработанную методологию?
    Да, все разработанные в рамках проекта материалы (методика, классификация, шаблоны, регламенты, база знаний) передаются заказчику с правом использования и модификации.
Заключение
Услуга нормализации мастер-данных N-Forma — это комплексное решение от первоначальной очистки мастер-данных до регулярного поддержания качества, базирующееся на:
  • Международных стандартах и методиках ISO 8000, ISO/IEC 25 012, 25 024, DAMA-DMBOK,
  • Методологии с фокусом на качество и результат для бизнеса,
  • Эффективных технологиях автоматизации,
  • Реальном опыте проектов для крупнейших российских компаний,
  • Гибких моделях сотрудничества.

N-Forma помогает компаниям построить культуру управления качеством данных, обеспечивающую устойчивые конкурентные преимущества через точные, полные и актуальные мастер-данные.