Paralegal — безопасная ИИ-анонимизация конфиденциальных данных
Paralegal — локальный AI-инструмент, который за секунды анонимизирует конфиденциальную информацию. До 80% экономии времени. 0% риска утечки. Полностью офлайн.
Конфиденциальную информацию можно обезличивать автоматически — и безопасно: все данные обрабатываются на устройстве клиента.
input: «Иванов Иван Сергеевич проживает по адресу ул. Навои 14,
страдает гипертонией и проживает вместе с супругой
Марией Ивановной…»
output: «[NAME] проживает по адресу [ADDRESS], имеет диагноз
[MEDICAL CONDITION] и проживает вместе с [FAMILY MEMBER]…»
{
"entities": [
{"kind":"PERSON NAME","start":0,"end":21,"before":"Иванов Иван...
{"kind":"ADDRESS","start":45,"end":60,"before":"ул. Навои 14",...
{"kind":"MEDICAL CONDITION","start":62,"end":73,...},
{"kind":"FAMILY MEMBER","start":101,"end":116,...}
]
}
Документы содержат чувствительные персональные данные: ФИО, адреса, даты, номера документов.
Их нельзя загружать в облачные AI-сервисы — риск утечки и нарушение закона.
Ручная анонимизация занимает часы и ведёт к ошибкам.
Компании обязаны соблюдать внутренние политики (compliance), локальные и международные требования о конфиденциальности (Закон о защите персональных данных, GDPR).
Нет безопасных автоматизированных локальных решений.
Рынку нужно быстрое, точное и полностью локальное решение.
Объём юридических документов растёт ежегодно.
Регуляторы ужесточают требования конфиденциальности.
Сотрудники массово начинают использовать облачные ИИ-сервисы без контроля IT/Compliance.
Инциденты утечки данных стали значительно дороже.
В реальности корпоративные специалисты ежедневно работают с клиентскими документами. Они копируют фрагменты договоров, писем, заявлений и вставляют их в ChatGPT, Claude или другие облачные ИИ-сервисы — без предварительной анонимизации.
Это создаёт прямой риск утечки персональных данных, коммерческой тайны и внутренней переписки.
Юристы, HR, аудиторы и аналитики регулярно отправляют документы внешним консультантам, подрядчикам и партнёрам. Документы содержат персональные данные, адреса, номера договоров, внутреннюю переписку или медицинские/финансовые сведения.
Передавать такие материалы в исходном виде запрещено. Ручная анонимизация занимает часы и часто приводит к тому, что чувствительные элементы пропускаются.
ИИ-команды внутри корпораций обучают внутренние LLM/NLP-модели на собственных данных. Оригинальные документы содержат массу персональных данных — что делает их непригодными для машинного обучения.
Ручная анонимизация сотен документов невозможна из-за масштаба, а скрипты/регулярки дают низкое качество и повышают риск утечки.
Внутри компании сотрудники пересылают документы между отделами: юристы — менеджерам, менеджеры — аналитикам, аналитики — HR и наоборот. Внутренние PDF, письма, чаты и комментарии могут содержать лишние персональные данные или чувствительную бизнес-информацию.
Это создаёт риск, особенно в крупных организациях, где документы циркулируют между десятками подразделений.
Во время due diligence или внешнего аудита компания должна предоставить сотни или тысячи документов. Они содержат персональные данные сотрудников, клиентов, контрагентов — раскрывать их нельзя.
Ручное редактирование такого объёма невозможно, а привлечение специальных фирм — дорого и долго.
Сотрудники колл-центров и банковской поддержки копируют фрагменты диалогов клиентов в QA-системы, системы анализа или LLM-инструменты. Такие записи содержат ПИН-коды, номера паспортов, контакты, адреса, жалобы и медицинскую/финансовую информацию.
Загружать такие данные в облачные сервисы запрещено внутренними политиками и регуляторами.
Paralegal — это локальный ИИ-инструмент, который автоматически обнаруживает и удаляет персональные данные в любых юридических и корпоративных документах. Он работает полностью offline, обеспечивая безопасную анонимизацию текста во всех рабочих сценариях — от пересылки материалов подрядчикам до подготовки датасетов и использования облачных LLM-сервисов.
Paralegal позволяет сотрудникам безопасно использовать современные ИИ-инструменты, а компаниям — не запрещать их, а интегрировать в ежедневную работу без риска утечки.
Он автоматически обрабатывает как отдельные документы, так и тысячи файлов в пакетном режиме, создавая юридически безопасные версии для обмена, анализа, аудита и машинного обучения. Это снижает риски комплаенса, ускоряет процессы и экономит время — от дней до часов.
Работает полностью offline. Никаких облаков, API и сторонних серверов.
Возможности Paralegal:
- Находит ФИО, адреса, даты рождения, ID-номера и другие персональные данные.
- Возвращает структурированные сущности с точными span-индексами.
- Заменяет сущности токенами, например [NAME], [ADDRESS], [DOB].
- Генерирует только валидный JSON.
- Работает на локальной LLM через LM Studio.
Paralegal = local-first + ИИ-точность + Zero-Cloud Security.
→ долго, дорого, ошибки.
→ низкая точность, упускают контекст.
→ нарушение конфиденциальности, невозможно использовать в банках и госсекторе.
→ локально, точно, структурированно, безопасно.
До:
«Иванов Иван Сергеевич проживает по адресу ул. Навои 14, страдает гипертонией и проживает вместе с супругой Марией Ивановной…»
После:
«[NAME] проживает по адресу [ADDRESS], имеет диагноз [MEDICAL CONDITION] и проживает вместе с [FAMILY MEMBER]…»
JSON вывод:
Пайплайн:
-
1. Загрузка документаЗагрузка текста на обработку
-
2. Локальная обработка кодом категорийStrict typed masks
-
3. Анализ семантических данных локальной LLMПо системному промпту
-
4. Merge-слойОбъединяет результаты и формирует итоговый JSON
-
5. Интерфейс “до/после”Human-in-the-loop
Технологии:
- Frontend: React + TypeScript
- Backend: NestJS (Node.js)
- ИИ: LM Studio (локальная модель)
- Принцип: Zero-Cloud / Local-First / Privacy-By-Design
Ни один байт документа не покидает устройство.
Текущий статус: Прототип
Сделано:
- API-слой и JSON-валидация.
- Backend на NestJS.
- UI “до/после”.
- Интеграция локальной LLM.
- Автоматизация пайплайна редактирования.
Следующие шаги:
- Улучшение точности и стабильности JSON.
- Десктопная версия + поддержка DOCX/PDF.
- Пилотный клиент.
12+ лет юридического опыта (понимание реальных рисков и требований комплаенса).
Production-разработка backend + frontend.
Глубокая экспертиза в LLM, JSON-валидации, span-индексах.
Опыт построения локальных ИИ-решений.
Междисциплинарная команда: PM, ИИ-интегратор, backend, frontend, архитектура.
Уникальное сочетание: право + инженерия + ИИ.
Python, LLM Integration, Legal Expertise
Node.js, TS - NestJS, React, LLM Integration