Модуль 5

Память, ограничители и оценка агентов

Превратите простого агента в интеллектуального собеседника с памятью. Научитесь оценивать качество.

4-6 часов

3 заданий

6 пунктов чек-листа

Прогресс модуля0%

Теория

Агент без памяти — это просто вызов функции. Он не может вести настоящий диалог.

*Типы памяти:**

1. Краткосрочная память (история диалога) Последние N сообщений хранятся в контексте. Простейший вид памяти.

2. Долговременная память (векторная БД) Факты из прошлых диалогов сохраняются в векторной базе и извлекаются по релевантности.

3. Рабочая память Текущий контекст задачи: промежуточные результаты, состояние выполнения.

*Главная сложность — не в том, чтобы сохранить память, а в том, чтобы извлечь только релевантные части**, не засирая контекстное окно.

*Стратегии управления памятью:**
Суммаризация длинных диалогов
Фильтрация по релевантности
Иерархическая память (важное/обычное)
TTL для устаревших данных

*Именно на этом этапе большинство проектов проваливаются.**

Агент, который может всё — это агент, который будет постоянно галлюцинировать и факапить.

Теперь вы учитесь говорить «нет».

*Что внедрить:**

1. Жёсткие правила «Никогда не обещай скидку больше 10%» «Не отвечай на вопросы о конкурентах»

2. Валидация вывода Проверяйте ответ перед отправкой пользователю: - Содержит ли запрещённые слова? - Соответствует ли формату? - Не слишком ли уверенный тон при неопределённости?

3. Контент-фильтры Блокируйте ответы с персональными данными, оскорблениями, ошибочными фактами.

*Ваша главная задача** — научить агента говорить «я не знаю» вместо того, чтобы врать.

*Как понять, хорошо ли работает ваш агент?**

*Метрики:**
Точность — процент правильных ответов
Полнота — насколько полный ответ
Релевантность — насколько ответ соответствует вопросу
Галлюцинации — процент выдуманных фактов

*Методы оценки:**

1. Human Evaluation Люди оценивают ответы. Золотой стандарт, но дорого.

2. LLM-as-a-Judge Другая LLM оценивает ответы вашего агента. Быстро и дёшево, но есть bias.

3. Автоматические бенчмарки Тестовые наборы с правильными ответами. Объективно, но не всегда релевантно вашей задаче.

*Совет:** Создайте свой тестовый набор из 50-100 вопросов, релевантных вашему юзкейсу.

Ключевые концепции

ФАЗА 3: Типы памяти агента — краткосрочная, долгосрочная, рабочая
История диалога: как хранить и когда очищать
Векторная память: извлечение релевантных фактов из прошлого
ФАЗА 4: Ограничители — как научить агента говорить 'я не знаю'
Валидация вывода: проверка ответов перед отправкой
Оценка агентов: метрики, бенчмарки, LLM-as-a-Judge

Практические задания

ФАЗА 3: Агент с долговременной памятью

Сложно

Добавьте вашему RAG-боту долговременную память через векторную БД.

Результат

Агент с памятью + демо диалога с использованием истории

ФАЗА 3

ФАЗА 4: Система ограничений и валидации

Средне

Создайте агента с жёсткими ограничениями: он говорит 'не знаю' когда нужно.

Результат

Агент + системный промпт с правилами + тесты граничных случаев

ФАЗА 4

Оценка агента через бенчмарк

Средне

Создайте свой тестовый набор из 50 вопросов, протестируйте агента.

Результат

Отчёт: метрики, примеры успехов и провалов, план улучшений

Внешние ресурсы

LLM Evaluation Guidebook (Hugging Face)

Высокий

Подробное руководство по оценке LLM

Гайд

Чек-лист самопроверки

Я добавил память своему агенту (хотя бы историю диалога)

Я понимаю разницу между краткосрочной и долговременной памятью

Я настроил ограничители для контроля поведения агента

Я знаю, как валидировать вывод агента

Я изучил минимум 3 метрики оценки агентов

Я создал свой тестовый набор для оценки

ИИ-Агенты

Память, ограничители и оценка агентов

Теория

ФАЗА 3: Память агента

ФАЗА 4: Ограничители

Оценка LLM и агентов

Ключевые концепции

Практические задания

ФАЗА 3: Агент с долговременной памятью

ФАЗА 4: Система ограничений и валидации

Оценка агента через бенчмарк

Внешние ресурсы

LLM Evaluation Guidebook (Hugging Face)

Чек-лист самопроверки