Q-изучение является методом изучения укрепления без моделей.

Q-изучение является методом изучения укрепления на политике, без моделей, который имеет целью находить функцию значения действия, которая дает ожидаемую полезность (укрепление) принятия данных мер в данном состоянии и после фиксированной политики после этого.

Одни из преимуществ Q-изучения - то, что требуется только функцию укрепления, которая будет дана (т.е. функция, которая говорит, как хорошо, или как плохо агент работает). Во время процесса обучения агент должен сбалансировать эксплуатацию (действующий жадно с точки зрения текущей функции значения действия) по сравнению с исследованием (действие случайным образом для обнаружения новых состояний или лучших действий, затем в настоящее время оцениваемых). Общий простой пример для обработки этой проблемы использует жадную эпсилоном политику.