Lstm яагаад алга болох градиентийг шийддэг вэ?

Агуулгын хүснэгт:

Lstm яагаад алга болох градиентийг шийддэг вэ?
Lstm яагаад алга болох градиентийг шийддэг вэ?

Видео: Lstm яагаад алга болох градиентийг шийддэг вэ?

Видео: Lstm яагаад алга болох градиентийг шийддэг вэ?
Видео: Хичээл 7- Алга болсон градиент асуудал 2024, Арваннэгдүгээр
Anonim

LSTM-ууд нь мартах хаалганы идэвхжүүлэлтэд шууд хандах агуулсан өвөрмөц нэмэлт градиент бүтцийг ашиглан асуудлыг шийдэж, сүлжээг байнга шинэчлэх замаар алдааны градиентаас хүссэн зан үйлийг дэмжих боломжийг олгодог. сурах үйл явцын үе шат бүрт.

LSTM тэсрэх градиентийг хэрхэн шийддэг вэ?

Маш богино хариулт: LSTM нь эсийн төлөвийг (ихэвчлэн c-ээр тэмдэглэдэг) болон далд давхарга/гаралтыг (ихэвчлэн h-ээр тэмдэглэдэг) салгаж, зөвхөн c-д нэмэлт шинэчлэлтүүдийг хийдэг бөгөөд энэ нь c дахь санах ойг илүү тогтвортой болгодог. Ийнхүү c-ээр дамждаг градиент хадгалагдаж, алга болоход хэцүү (тиймээс ерөнхий градиент алга болоход хэцүү байдаг).

Угжих градиент асуудлыг хэрхэн шийдвэрлэх вэ?

Шийдлүүд: Хамгийн энгийн шийдэл бол жижиг дериватив үүсгэдэггүй ReLU зэрэг бусад идэвхжүүлэх функцуудыг ашиглах явдал юм. Үлдэгдэл сүлжээ нь өмнөх давхаргууд руу шууд үлдэгдэл холболтыг хангадаг өөр нэг шийдэл юм.

LSTM ямар асуудлыг шийддэг вэ?

LSTM. LSTM (урт богино хугацааны санах ойн товчлол) нь үндсэндээ буцах тархалтын градиентийн асуудлыгшийддэг. LSTM нь цээжлэх үйл явцыг хянадаг хаалганы механизмыг ашигладаг. LSTM-д байгаа мэдээллийг нээх, хаах хаалгаар дамжуулан хадгалах, бичих, унших боломжтой.

Яагаад LSTM-ууд таны градиентийг арагшаа харахад харагдахгүй болгохыг зогсоодог вэ?

Үүний шалтгаан нь энэхүү тогтмол алдааны урсгалыг хэрэгжүүлэхийн тулд оролт эсвэл нэр дэвшигчийн хаалга руу буцаж урсахгүйн тулд градиент тооцоог тасалсантай холбоотой юм.

Зөвлөмж болгож буй: