Logo mn.boatexistence.com

Үнийн давталт үргэлж нийлдэг үү?

Агуулгын хүснэгт:

Үнийн давталт үргэлж нийлдэг үү?
Үнийн давталт үргэлж нийлдэг үү?

Видео: Үнийн давталт үргэлж нийлдэг үү?

Видео: Үнийн давталт үргэлж нийлдэг үү?
Видео: Тогтмол цэгийн давталтын аргын нэгдэл | Тоон аргууд 2024, May
Anonim

Бодлогын үнэлгээний нэгэн адил утгын давталт албан ёсоор яг -д нийлэхийн тулд хязгааргүй тооны давталт шаарддаг. Практикт бид утгын функц нь шүүрдэх явцад бага хэмжээгээр өөрчлөгдсөний дараа зогсдог. … Эдгээр бүх алгоритмууд нь хөнгөлөлттэй хязгаарлагдмал MDP-ийн оновчтой бодлогод нийлдэг.

Утгын давталт тодорхойлогч мөн үү?

Гэсэн хэдий ч утгын давталт нь детерминист тохиолдлын шууд ерөнхий дүгнэлт юм. Энэ нь өндөр тодорхойгүй байдал эсвэл хүчтэй санамсаргүй байдлын хувьд динамик асуудлуудад илүү бат бөх байж болно. ХЭРЭВ бодлогод өөрчлөлт ороогүй бол үүнийг оновчтой бодлого болгон буцаана уу. ҮГЭЭД 1 рүү очно уу.

Утгын давталт оновчтой юу?

3 Утгын давталт. Утгын давталт нь оновчтой MDP бодлого болон түүний утгыг тооцоолох арга юмV массивыг хадгалснаар хадгалах хэмжээ багасна, гэхдээ оновчтой үйлдлийг тодорхойлоход илүү хэцүү бөгөөд аль үйлдэл нь хамгийн их утгыг авчрахыг тодорхойлохын тулд дахин нэг давталт хийх шаардлагатай. …

Бодлогын давталт болон утгын давталтын хооронд ямар ялгаа байдаг вэ?

Бодлогын давталтдаа бид тогтмол бодлогоос эхэлдэг. Үүний эсрэгээр утгыг давтахдаа бид утгын функцийг сонгож эхэлдэг. Дараа нь хоёр алгоритм дээр бид нийлбэрт хүрэх хүртлээ давталттайгаар сайжруулна.

Давталтын утга гэж юу вэ?

Үндсэндээ, Утгын давталтын алгоритм нь V(s)-ийн тооцооллыг давталттайгаар сайжруулах замаар оновчтой төлөвийн утгын функцийг тооцдог. Алгоритм нь V(s)-г дурын санамсаргүй утгыг эхлүүлдэг. Энэ нь Q(s, a) болон V(s) утгуудыг нэгтгэх хүртэл дахин дахин шинэчилдэг.

Зөвлөмж болгож буй: