Текст өгөгдлийн ангилалд k-means ашиглаж болох уу?

Агуулгын хүснэгт:

Текст өгөгдлийн ангилалд k-means ашиглаж болох уу?
Текст өгөгдлийн ангилалд k-means ашиглаж болох уу?

Видео: Текст өгөгдлийн ангилалд k-means ашиглаж болох уу?

Видео: Текст өгөгдлийн ангилалд k-means ашиглаж болох уу?
Видео: 10 ЛУЧШИХ AI-расширений Chrome, которые сэкономят вам ДНИ работы 2024, Арваннэгдүгээр
Anonim

K- гэсэн үг нь текст олборлолтод өгөгдлийн кластер хийх сонгодог алгоритм боловч онцлогийг сонгоход ховор хэрэглэгддэг. … Бид анги тус бүрийн хэд хэдэн кластер төвийг авахын тулд k-means аргыг ашигладаг бөгөөд дараа нь ангиллын текстийн онцлог болгон центроид дахь өндөр давтамжтай үгсийг сонгоно.

K-арга нь ангилсан өгөгдөлтэй ажилладаг уу?

Ангилал хувьсагч нь салангид бөгөөд байгалийн гаралтай байдаггүй тул k-Means алгоритм нь категориал өгөгдөлд хамаарахгүй. Тиймээс орон зай гэх мэтийн хувьд Евклидийн зайг тооцоолох нь утгагүй юм.

Текст кластер хийхэд k-means ашиглаж болох уу?

K- бөөгнөрөл гэдэг нь хяналтгүй сургалтын аргын төрөл юм бөгөөд үүнийг манай тохиолдол шиг шошготой өгөгдөлгүй, шошгогүй өгөгдөлтэй үед ашигладаг (тодорхой ангилал, бүлэггүй). Энэ алгоритмын зорилго нь өгөгдлийн бүлгүүдийг олох явдал юм, харин үгүй. бүлгүүдийн тоог K хувьсагчаар илэрхийлнэ.

Ангилалдаа k-орж ашиглаж болох уу?

KMeans нь ажиглалтыг k кластерт хуваадаг кластер хийх алгоритм юм. Бид кластерын хэмжээг зааж өгөх боломжтой тул өгөгдлийг ангиллын тоотой тэнцүү эсвэл түүнээс олон кластерт хуваахад үүнийг хялбархан ашиглаж болно.

Текст өгөгдөлд аль кластерийн алгоритм хамгийн тохиромжтой вэ?

текст векторуудыг кластерлахдаа нягтралыг харгалзан үздэг HDBSCAN зэрэгшаталсан кластерын алгоритмуудыг ашиглаж болно. HDBSCAN-д та кластерын тоог k-хэрэгслээр хуваарилах шаардлагагүй бөгөөд энэ нь ихэвчлэн шуугиантай өгөгдөлд илүү бат бөх байдаг.

Зөвлөмж болгож буй: