Ангилал хувьсагч нь салангид бөгөөд байгалийн гаралтай байдаггүй тул k-Means алгоритм нь категориал өгөгдөлд хамаарахгүй. Тиймээс орон зай гэх мэтийн хувьд Евклидийн зайг тооцоолох нь утгагүй юм.
Бид ангиллын өгөгдөлд кластер ашиглах боломжтой юу?
Ангиллын өгөгдлийг зэрэглэлийн утгыг оноож тоо болгон хөрвүүлсэн. Энэ нь категорийн өгөгдлийн багцыг тоон өгөгдлийн багц болгон кластер болгож болно.. Энэ логикийг хэрэгжүүлснээр k- тоон өгөгдлийн багцад ашигласантай ижил гүйцэтгэлтэй байх нь ажиглагдаж байна.
Категорийн хувьсагчдад ашиглаж болох уу?
Энэ өгөгдлөөсдундажийг олох боломжгүй, учир нь нүдний "дундаж" өнгө байхгүй. Та пропорцийг олох боломжтой, гэхдээ дундажийг олохгүй. Энэ тусална гэж найдаж байна!
Өгөгдөл ангилсан үед юуг ашиглах ёстой вэ?
Категорийн өгөгдөлд горим болон медиан тархалт ашиглан дүн шинжилгээ хийдэг бөгөөд нэрлэсэн өгөгдлийг горимоор шинжилж, дараалсан өгөгдөл хоёуланг нь ашигладаг. Зарим тохиолдолд нэг хувьсах статистик, хоёр хувьсах статистик, регрессийн хэрэглээ, шугаман чиг хандлага болон ангиллын аргуудыг ашиглан эрэмбийн өгөгдлийг шинжилж болно.
Категорийн шинж чанаруудтай кластер гэж юу вэ?
Ангилал өгөгдлийн бөөгнөрөл гэдэг нь өгөгдлийн объектуудыг категорийн шинж чанаруудаар тодорхойлсон тохиолдлыг хэлнэ … Өөрөөр хэлбэл, категорийн утгуудын хувьд дан эрэмбэлэх эсвэл төрөлхийн зайны функц байхгүй, мөн Ангилалаас тоон утга руу утгын хувьд ойлгомжтой зураглал байхгүй.