layout | word | translation |
---|---|---|
word |
Q-function |
تابع Q |
در یادگیری تقویتی، تابعیست که بازده مورد نظر را به ازای رخ دادن یک عمل در یک حالت پیشبینی میکند و سپس سیاست مشخصشده را دنبال میکند.
تابع Q همچنین به نام تابع ارزش حالت-عمل نیز شناخته میشود.