Понимание log_prob для нормального распределения в pytorch

голоса
1

Я в настоящее время пытаюсь решить Pendulum-v0 из тренажерного среды openAi, которая имеет постоянное место действия. В результате, мне нужно использовать нормальное распределение для выборки моих действий. То, что я не понимаю, размерность log_prob при ее использовании:

введите

Я ожидал тензор размера 2 (один log_prob для каждого действия), но выход тензора размера (2,2).

Тем не менее, при использовании категориального распределения для дискретной среды log_prob имеет ожидаемый размер. Почему log_prob для распределения Нормального другого размера?

Задан 19/03/2020 в 21:23
источник пользователем
На других языках...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more