smart_toy AI Infrastructure

ИИ-агенты для бизнеса,
которые работают у вас

Настраиваем инфраструктуру для ИИ-агентов на вашем сервере: OpenWebUI, Ollama, MCP-серверы, n8n-пайплайны. Ваши данные не уходят в облака.

lock Мы не передаём данные третьим лицам

Agent Runtime — Live
User:"Подготовь отчёт по клиентам"
→ MCP:read_database(clients)
→ MCP:generate_chart(data)
→ MCP:send_to_telegram(report)
✓ Задача выполнена за 4.2s
Данные обработаны локально на вашем VDS

Что мы разворачиваем

Полный стек для ИИ-агентов — от локальных моделей до автоматизации

psychology
LLM Runtime

Ollama

Локальные языковые модели (Llama 3, Mistral, Gemma) прямо на сервере. Полный офлайн.

chat
Web UI

OpenWebUI

Интерфейс для работы с моделями через браузер — как ChatGPT, только ваш.

settings_ethernet
Protocol

MCP-серверы

Подключение агентов к базам данных, API, файловой системе и другим инструментам.

hub
Automation

n8n Pipelines

Многошаговые пайплайны: триггер → контекст → модель → действие → уведомление.

storage
Memory

Vector DB

Qdrant или Chroma для долгосрочной памяти агентов и семантического поиска.

security
Security

Изоляция

Каждый агент в контейнере. HTTPS, авторизация, ограничение доступа по IP.

Почему self-hosted, а не API?

privacy_tip

Конфиденциальность данных

Коммерческая тайна и клиентские данные не покидают ваш сервер.

savings

Без токенных счетов

Никаких непредсказуемых трат. Платите только за VDS, модели работают бесплатно.

tune

Кастомизация

Fine-tuning под ваш домен, загрузка специализированных моделей, кастомные промпты.

gavel

Соответствие 152-ФЗ

Персональные данные клиентов хранятся в России, без передачи за рубеж.

Self-Hosted vs API

Данные у вас
✅ Да
❌ Нет
Лимиты запросов
∞ Нет
⚠️ Есть
Стоимость
Фикс. VDS
Per token
Кастом-модели
✅ Да
❌ Нет
Закон 152-ФЗ
✅ Да
⚠️ Спорно

Запустите ИИ-агентов для вашего бизнеса

Расскажите задачу — предложим оптимальную архитектуру и развернём всё под ключ.

Обсудить проект arrow_forward

Self-hosted ИИ-агенты для бизнеса: Ollama, OpenWebUI и MCP на вашем сервере

ИИ-агенты — это программные системы, которые самостоятельно принимают решения, используют инструменты и выполняют многошаговые задачи. В отличие от обычных чат-ботов, агенты могут искать информацию в базах данных, вызывать API, создавать файлы и делегировать задачи другим агентам. Ключевое преимущество self-hosted подхода — данные остаются на вашем сервере и не передаются в OpenAI, Anthropic или Google.

Почему self-hosted LLM выгоднее API в 2026 году

Стоимость использования коммерческих API растёт вместе с нагрузкой. GPT-4o стоит $2.50/1M input tokens и $10/1M output tokens. При активном использовании агентов в бизнесе счёт за API легко достигает 500–5000 долларов в месяц. Self-hosted LLM на VDS: фиксированная стоимость сервера, ноль расходов на токены.

Качество открытых моделей в 2026 году сравнялось с коммерческими аналогами во многих задачах. Llama 3.3 70B от Meta, Mistral Large, DeepSeek R1, Qwen 2.5 72B — все доступны бесплатно через Ollama и показывают результаты, сравнимые с GPT-4 на большинстве бизнес-задач: анализ документов, генерация текстов, суммаризация, классификация.

Ollama: локальные языковые модели на VDS

Ollama — наиболее популярный инструмент для запуска языковых моделей на собственном сервере. Он предоставляет OpenAI-совместимый API, что означает: любое приложение, работающее с OpenAI, можно переключить на локальную модель простой сменой base_url. Ollama поддерживает сотни моделей и автоматически управляет их загрузкой и кешированием.

Требования к железу зависят от размера модели. Для 7B-моделей достаточно 8 GB RAM. Для 13B — 16 GB RAM. Для 70B-моделей нужно 48–64 GB RAM или GPU с достаточным VRAM. При отсутствии GPU модели работают на CPU — медленнее, но вполне пригодно для задач с нереальтаймовой обработкой (анализ документов, ночные пакетные задачи).

MCP (Model Context Protocol): стандарт для ИИ-агентов

Model Context Protocol — открытый стандарт, разработанный Anthropic в 2024 году и активно принятый экосистемой в 2025–2026. MCP определяет, как ИИ-агент может взаимодействовать с внешними инструментами: базами данных, файловой системой, API, браузером, редактором кода.

MCP-сервер — это программа, которая «экспортирует» набор инструментов для агента. Например, MCP-сервер для PostgreSQL позволяет агенту выполнять SQL-запросы. MCP-сервер для файловой системы — читать и записывать файлы. Один агент может одновременно использовать десятки MCP-серверов, формируя мощную экосистему инструментов.

Мы настраиваем MCP-инфраструктуру на вашем VDS: устанавливаем MCP-серверы для ваших систем (базы данных, CRM, файловые хранилища), конфигурируем агентов (Claude Desktop, Continue.dev, кастомные агенты через n8n), обеспечиваем безопасную коммуникацию между компонентами.

smart_toy Self-hosted ИИ-агент: архитектура на VDS
person Запрос пользователя / Триггер
arrow_downward
psychology LLM — Ollama на VDS
Llama 3.3
DeepSeek
Qwen 2.5
arrow_downward
MCP Tools (инструменты агента)
databaseSQL-запросы
folder_openФайловая система
apiВнешние API
searchВекторный поиск
arrow_downward
chat Ответ в чат
webhook Вызов API
task_alt Действие

OpenWebUI: интерфейс ChatGPT для ваших моделей

OpenWebUI — полнофункциональный веб-интерфейс для работы с локальными LLM, по ощущениям близкий к ChatGPT. Поддерживает множественные модели, историю разговоров, загрузку документов (RAG), системные промпты, роли пользователей. Для команд это особенно ценно: можно дать сотрудникам доступ к корпоративному чат-боту с настроенным контекстом, не оплачивая ChatGPT Teams и не передавая данные в США.

Вопросы про ИИ-агентов на собственном сервере

Какие модели ИИ подходят для бизнес-задач? expand_more
Для большинства задач (анализ документов, ответы на вопросы, генерация текстов) отлично подходят Llama 3.3 70B и Qwen 2.5 72B. Для задач с кодом — DeepSeek Coder V2. Для русского языка дополнительно рекомендуем Saiga (дообученная на русском Llama). Все модели доступны бесплатно через Ollama.
Сколько нужно RAM для запуска локальной модели? expand_more
7B-модели: 8 GB RAM (работают на любом современном VDS). 13B: 16 GB. 34B: 32 GB. 70B: 48–64 GB или GPU. Если задачи не требуют мгновенного ответа (пакетная обработка, ночные задачи) — даже большие модели на CPU вполне пригодны. Для интерактивных чат-сессий нужен GPU или модель поменьше.
Что такое RAG и как он помогает бизнесу? expand_more
RAG (Retrieval-Augmented Generation) — технология, при которой ИИ-модель дополняется поиском по вашей базе знаний перед генерацией ответа. Проще говоря: модель «знает» содержимое ваших документов, регламентов, FAQ и отвечает на основе актуальной корпоративной информации, а не только обучающих данных. Мы настраиваем RAG через Qdrant (векторная БД) + ваши документы.
Можно ли интегрировать self-hosted агентов с существующими системами? expand_more
Да, именно для этого используется MCP. Мы написали MCP-серверы для интеграции с PostgreSQL, MySQL, файловыми системами, REST API, Telegram. Если у вас специфичная система — разрабатываем кастомный MCP-сервер. Агент получает доступ к вашим данным в реальном времени, не требуя переобучения модели.
Соответствует ли self-hosted ИИ требованиям 152-ФЗ? expand_more
Да — если сервер находится в России. Данные клиентов не покидают территорию РФ, что полностью соответствует требованию о локализации персональных данных. При использовании облачных API (OpenAI, Claude) данные уходят на серверы в США, что создаёт правовые риски для компаний, работающих с персональными данными граждан РФ.