Вернуться к модулям
Модуль 5

Память, ограничители и оценка агентов

Превратите простого агента в интеллектуального собеседника с памятью. Научитесь оценивать качество.

4-6 часов
3 заданий
6 пунктов чек-листа
Прогресс модуля0%

Теория

Агент без памяти — это просто вызов функции. Он не может вести настоящий диалог.

  • *Типы памяти:**

1. Краткосрочная память (история диалога) Последние N сообщений хранятся в контексте. Простейший вид памяти.

2. Долговременная память (векторная БД) Факты из прошлых диалогов сохраняются в векторной базе и извлекаются по релевантности.

3. Рабочая память Текущий контекст задачи: промежуточные результаты, состояние выполнения.

  • *Главная сложность — не в том, чтобы сохранить память, а в том, чтобы извлечь только релевантные части**, не засирая контекстное окно.
  • *Стратегии управления памятью:**
  • Суммаризация длинных диалогов
  • Фильтрация по релевантности
  • Иерархическая память (важное/обычное)
  • TTL для устаревших данных
  • *Именно на этом этапе большинство проектов проваливаются.**

Агент, который может всё — это агент, который будет постоянно галлюцинировать и факапить.

Теперь вы учитесь говорить «нет».

  • *Что внедрить:**

1. Жёсткие правила «Никогда не обещай скидку больше 10%» «Не отвечай на вопросы о конкурентах»

2. Валидация вывода Проверяйте ответ перед отправкой пользователю: - Содержит ли запрещённые слова? - Соответствует ли формату? - Не слишком ли уверенный тон при неопределённости?

3. Контент-фильтры Блокируйте ответы с персональными данными, оскорблениями, ошибочными фактами.

  • *Ваша главная задача** — научить агента говорить «я не знаю» вместо того, чтобы врать.
  • *Как понять, хорошо ли работает ваш агент?**
  • *Метрики:**
  • Точность — процент правильных ответов
  • Полнота — насколько полный ответ
  • Релевантность — насколько ответ соответствует вопросу
  • Галлюцинации — процент выдуманных фактов
  • *Методы оценки:**

1. Human Evaluation Люди оценивают ответы. Золотой стандарт, но дорого.

2. LLM-as-a-Judge Другая LLM оценивает ответы вашего агента. Быстро и дёшево, но есть bias.

3. Автоматические бенчмарки Тестовые наборы с правильными ответами. Объективно, но не всегда релевантно вашей задаче.

  • *Совет:** Создайте свой тестовый набор из 50-100 вопросов, релевантных вашему юзкейсу.

Ключевые концепции

  • ФАЗА 3: Типы памяти агента — краткосрочная, долгосрочная, рабочая
  • История диалога: как хранить и когда очищать
  • Векторная память: извлечение релевантных фактов из прошлого
  • ФАЗА 4: Ограничители — как научить агента говорить 'я не знаю'
  • Валидация вывода: проверка ответов перед отправкой
  • Оценка агентов: метрики, бенчмарки, LLM-as-a-Judge

Практические задания

ФАЗА 3: Агент с долговременной памятью

Сложно

Добавьте вашему RAG-боту долговременную память через векторную БД.

Результат

Агент с памятью + демо диалога с использованием истории

ФАЗА 3

ФАЗА 4: Система ограничений и валидации

Средне

Создайте агента с жёсткими ограничениями: он говорит 'не знаю' когда нужно.

Результат

Агент + системный промпт с правилами + тесты граничных случаев

ФАЗА 4

Оценка агента через бенчмарк

Средне

Создайте свой тестовый набор из 50 вопросов, протестируйте агента.

Результат

Отчёт: метрики, примеры успехов и провалов, план улучшений

Внешние ресурсы

LLM Evaluation Guidebook (Hugging Face)

Высокий

Подробное руководство по оценке LLM

Гайд

Чек-лист самопроверки

Я добавил память своему агенту (хотя бы историю диалога)
Я понимаю разницу между краткосрочной и долговременной памятью
Я настроил ограничители для контроля поведения агента
Я знаю, как валидировать вывод агента
Я изучил минимум 3 метрики оценки агентов
Я создал свой тестовый набор для оценки