Paralegal — безопасная ИИ-анонимизация конфиденциальных данных

Paralegal — локальный AI-инструмент, который за секунды анонимизирует конфиденциальную информацию. До 80% экономии времени. 0% риска утечки. Полностью офлайн.

Конфиденциальную информацию можно обезличивать автоматически — и безопасно: все данные обрабатываются на устройстве клиента.

80% меньше ручной работы
0% облаков
GDPR & локальный закон о ПД
DEMO · Анонимизация
до → после · JSON
1 input: «Иванов Иван Сергеевич проживает по адресу ул. Навои 14,
2 страдает гипертонией и проживает вместе с супругой
3 Марией Ивановной…»
4 output: «[NAME] проживает по адресу [ADDRESS], имеет диагноз
5 [MEDICAL CONDITION] и проживает вместе с [FAMILY MEMBER]…»
6 {
7 "entities": [
8 {"kind":"PERSON NAME","start":0,"end":21,"before":"Иванов Иван...
9 {"kind":"ADDRESS","start":45,"end":60,"before":"ул. Навои 14",...
10 {"kind":"MEDICAL CONDITION","start":62,"end":73,...},
11 {"kind":"FAMILY MEMBER","start":101,"end":116,...}
12 ]
13 }
Local-first
Zero-Cloud Security
Human-in-the-loop
Организации всех уровней сталкиваются с критической задачей

Документы содержат чувствительные персональные данные: ФИО, адреса, даты, номера документов.

Их нельзя загружать в облачные AI-сервисы — риск утечки и нарушение закона.

Ручная анонимизация занимает часы и ведёт к ошибкам.

Компании обязаны соблюдать внутренние политики (compliance), локальные и международные требования о конфиденциальности (Закон о защите персональных данных, GDPR).

Нет безопасных автоматизированных локальных решений.

Рынку нужно быстрое, точное и полностью локальное решение.

Окно возможностей: локальная ИИ-анонимизация — почти пустая ниша

Объём юридических документов растёт ежегодно.

Регуляторы ужесточают требования конфиденциальности.

Сотрудники массово начинают использовать облачные ИИ-сервисы без контроля IT/Compliance.

Инциденты утечки данных стали значительно дороже.

Кому нужен Paralegal
Юридические департаменты
Банки и финтех (KYC, комплаенс)
Аудиторы
Госсектор
ИИ-команды (обезличенные датасеты)
HR и корпоративные отделы
Ключевые сценарии применения
Use Case 01
Безопасное использование облачных LLM-сервисов

В реальности корпоративные специалисты ежедневно работают с клиентскими документами. Они копируют фрагменты договоров, писем, заявлений и вставляют их в ChatGPT, Claude или другие облачные ИИ-сервисы — без предварительной анонимизации.

Это создаёт прямой риск утечки персональных данных, коммерческой тайны и внутренней переписки.

Use Case 02
Передача документов внешним подрядчикам

Юристы, HR, аудиторы и аналитики регулярно отправляют документы внешним консультантам, подрядчикам и партнёрам. Документы содержат персональные данные, адреса, номера договоров, внутреннюю переписку или медицинские/финансовые сведения.

Передавать такие материалы в исходном виде запрещено. Ручная анонимизация занимает часы и часто приводит к тому, что чувствительные элементы пропускаются.

Use Case 03
Подготовка датасетов для обучения внутренних моделей

ИИ-команды внутри корпораций обучают внутренние LLM/NLP-модели на собственных данных. Оригинальные документы содержат массу персональных данных — что делает их непригодными для машинного обучения.

Ручная анонимизация сотен документов невозможна из-за масштаба, а скрипты/регулярки дают низкое качество и повышают риск утечки.

Use Case 04
Безопасные внутренние коммуникации и пересылки

Внутри компании сотрудники пересылают документы между отделами: юристы — менеджерам, менеджеры — аналитикам, аналитики — HR и наоборот. Внутренние PDF, письма, чаты и комментарии могут содержать лишние персональные данные или чувствительную бизнес-информацию.

Это создаёт риск, особенно в крупных организациях, где документы циркулируют между десятками подразделений.

Use Case 05
Массовая обработка при аудитах и due diligence

Во время due diligence или внешнего аудита компания должна предоставить сотни или тысячи документов. Они содержат персональные данные сотрудников, клиентов, контрагентов — раскрывать их нельзя.

Ручное редактирование такого объёма невозможно, а привлечение специальных фирм — дорого и долго.

Use Case 06
Использование в колл-центрах, банках и службах поддержки

Сотрудники колл-центров и банковской поддержки копируют фрагменты диалогов клиентов в QA-системы, системы анализа или LLM-инструменты. Такие записи содержат ПИН-коды, номера паспортов, контакты, адреса, жалобы и медицинскую/финансовую информацию.

Загружать такие данные в облачные сервисы запрещено внутренними политиками и регуляторами.

Paralegal как ответ на запрос рынка

Paralegal — это локальный ИИ-инструмент, который автоматически обнаруживает и удаляет персональные данные в любых юридических и корпоративных документах. Он работает полностью offline, обеспечивая безопасную анонимизацию текста во всех рабочих сценариях — от пересылки материалов подрядчикам до подготовки датасетов и использования облачных LLM-сервисов.

Paralegal позволяет сотрудникам безопасно использовать современные ИИ-инструменты, а компаниям — не запрещать их, а интегрировать в ежедневную работу без риска утечки.

Он автоматически обрабатывает как отдельные документы, так и тысячи файлов в пакетном режиме, создавая юридически безопасные версии для обмена, анализа, аудита и машинного обучения. Это снижает риски комплаенса, ускоряет процессы и экономит время — от дней до часов.

Работает полностью offline. Никаких облаков, API и сторонних серверов.

Возможности Paralegal:

  • Находит ФИО, адреса, даты рождения, ID-номера и другие персональные данные.
  • Возвращает структурированные сущности с точными span-индексами.
  • Заменяет сущности токенами, например [NAME], [ADDRESS], [DOB].
  • Генерирует только валидный JSON.
  • Работает на локальной LLM через LM Studio.

Paralegal = local-first + ИИ-точность + Zero-Cloud Security.

Сравнение с альтернативами
Ручная анонимизация

→ долго, дорого, ошибки.

Regex и классические NLP

→ низкая точность, упускают контекст.

Облачные ИИ-сервисы

→ нарушение конфиденциальности, невозможно использовать в банках и госсекторе.

Paralegal

→ локально, точно, структурированно, безопасно.

До / После + JSON

До:

«Иванов Иван Сергеевич проживает по адресу ул. Навои 14, страдает гипертонией и проживает вместе с супругой Марией Ивановной…»

После:

«[NAME] проживает по адресу [ADDRESS], имеет диагноз [MEDICAL CONDITION] и проживает вместе с [FAMILY MEMBER]…»

JSON вывод:

{ "entities": [ { "kind": "PERSON NAME", "start": 0, "end": 21, "before": "Иванов Иван Сергеевич", "after": "[NAME]" }, { "kind": "ADDRESS", "start": 45, "end": 60, "before": "ул. Навои 14", "after": "[ADDRESS]" }, { "kind": "MEDICAL CONDITION", "start": 62, "end": 73, "before": "гипертонией", "after": "[MEDICAL CONDITION]" }, { "kind": "FAMILY MEMBER", "start": 101, "end": 116, "before": "супругой Марией", "after": "[FAMILY MEMBER]" } ] }
Пайплайн и технологии

Пайплайн:

  • 1. Загрузка документа
    Загрузка текста на обработку
  • 2. Локальная обработка кодом категорий
    Strict typed masks
  • 3. Анализ семантических данных локальной LLM
    По системному промпту
  • 4. Merge-слой
    Объединяет результаты и формирует итоговый JSON
  • 5. Интерфейс “до/после”
    Human-in-the-loop

Технологии:

  • Frontend: React + TypeScript
  • Backend: NestJS (Node.js)
  • ИИ: LM Studio (локальная модель)
  • Принцип: Zero-Cloud / Local-First / Privacy-By-Design

Ни один байт документа не покидает устройство.

От прототипа к продукту

Текущий статус: Прототип

Сделано:

  • API-слой и JSON-валидация.
  • Backend на NestJS.
  • UI “до/после”.
  • Интеграция локальной LLM.
  • Автоматизация пайплайна редактирования.

Следующие шаги:

  • Улучшение точности и стабильности JSON.
  • Десктопная версия + поддержка DOCX/PDF.
  • Пилотный клиент.
Уникальное сочетание компетенций

12+ лет юридического опыта (понимание реальных рисков и требований комплаенса).

Production-разработка backend + frontend.

Глубокая экспертиза в LLM, JSON-валидации, span-индексах.

Опыт построения локальных ИИ-решений.

Междисциплинарная команда: PM, ИИ-интегратор, backend, frontend, архитектура.

Уникальное сочетание: право + инженерия + ИИ.

Люди за Paralegal
Igor Pak
Project Manager

Python, LLM Integration, Legal Expertise

Edem Veliev
Fullstack Developer

Node.js, TS - NestJS, React, LLM Integration