Skip to content

Latest commit

 

History

History
17 lines (11 loc) · 759 Bytes

bellman_equation.md

File metadata and controls

17 lines (11 loc) · 759 Bytes
layout word translation
word
Bellman Equation
معادله بلمن

در یادگیری تقویتی (reinforcement learning) اتحاد زیر به وسیله تابع Q زیر بهینه می‌شود.

یادگیری تقویتی با اعمال این اتحاد به یادگیری Q با قاعده به‌روزرسانی زیر منجر می‌شود:

معادله بلمن علاوه بر یادگیری تقویتی کاربردهایی در برنامه‌نویسی پویا نیز دارد.

اطلاعات بیشتر: معادله بلمن در ویکی‌پدیا