10 algoritma terbaik dalam penambangan data

Pohon keputusan

Algoritma decision tree terdiri dari pengorganisasian data dalam pemilihan yang bersaing membentuk cabang-cabang pengaruh setelah keputusan awal. Batang pohon mewakili keputusan awal, dan dimulai dengan pertanyaan ya atau tidak, bagaimana cara sarapan atau tidak. Makan pagi dan tidak sarapan akan menjadi dua cabang pohon yang berbeda, dan setiap pilihan berikutnya akan memiliki cabang yang berbeda sendiri yang mengarah ke titik akhir.

Algoritma K-means

Algoritma K-means didasarkan pada analisis kelompok. Cobalah untuk membagi data yang dikumpulkan menjadi "blok" (kelompok) terpisah yang dikelompokkan berdasarkan karakteristik umum.

Mendukung mesin vektor

Algoritma mesin vektor dukungan mengambil data input dan memprediksi yang mana dari dua kategori yang mungkin termasuk data input. Contohnya adalah untuk mengumpulkan kode pos dari sekelompok pemilih dan mencoba untuk memprediksi apakah seorang pemilih adalah Demokrat atau Republik.

Algoritma apriori

Algoritma apriori biasanya mengontrol data transaksi. Misalnya, di toko pakaian, algoritme dapat mengontrol kemeja mana yang biasanya dibeli bersama oleh pelanggan.

Algoritma EM

Algoritma ini mendefinisikan parameter dengan menganalisis data dan memprediksi kemungkinan keluar di masa depan atau peristiwa acak dalam parameter data. Sebagai contoh, algoritma EM dapat mencoba untuk memprediksi saat letusan berikutnya dari geyser berdasarkan data waktu letusan masa lalu.

Algoritma PageRank

Algoritma PageRank adalah algoritma dasar untuk mesin pencari. Nilai dan perkirakan relevansi sepotong data tertentu dalam satu set besar, sebagai satu situs web dalam set lebih besar dari semua situs web Internet.

Algoritma AdaBoost

Algoritma AdaBoost bekerja dalam algoritma pembelajaran lain yang mengantisipasi perilaku menurut data yang diamati sehingga mereka peka terhadap statistik yang ekstrem. Meskipun algoritma EM dapat miring karena geyser yang memiliki dua letusan dalam waktu kurang dari satu menit ketika biasanya memiliki letusan sekali sehari, algoritma AdaBoost akan memodifikasi output dari algoritma EM dengan menganalisis relevansi akhir.

Algoritma tetangga terdekat k

Algoritma ini mengenali pola di lokasi data dan mengaitkannya dengan data dengan pengenal yang lebih besar. Misalnya, jika Anda ingin menetapkan kantor pos untuk setiap lokasi geografis rumah dan Anda memiliki satu set data untuk setiap lokasi geografis rumah, algoritma tetangga terdekat k akan menetapkan rumah-rumah ke kantor pos terdekat sesuai dengan kedekatannya.

Naif Baye

Algoritma Naive Baye memprediksi output dari suatu identitas berdasarkan data dari pengamatan yang diketahui. Misalnya, jika seseorang tingginya 6 kaki 6 inci (1, 97 m) dan memakai sepatu ukuran 14, algoritma Naive Baye dapat memprediksi dengan probabilitas tertentu bahwa orang tersebut adalah seorang pria.

Algoritma CART

"CART" adalah akronim dalam bahasa Inggris yang berarti analisis pohon regresif dan klasifikasi. Seperti analisis pohon keputusan, ia mengelola data sesuai dengan opsi yang bersaing, seolah-olah seseorang telah selamat dari gempa bumi. Berbeda dengan algoritma pohon keputusan, yang hanya dapat mengklasifikasikan satu output atau satu output numerik berdasarkan regresi, algoritma CART dapat menggunakan keduanya untuk memprediksi probabilitas suatu peristiwa.

Artikel Menarik