Konsep Dari Kesamaan Semantik

Kesamaan adalah konsep mendasar yang telah dipelajari di berbagai bidang seperti ilmu kognitif, filsafat, psikologi, kecerdasan buatan, dan pengolahan bahasa alami. kesamaan diperoleh dan representasi pengetahuan berdasarkan kejadian kata-kata.

Kesamaa memainkan peran penting dalam kategorisasi. Mengkategorikan individu baru yang ditemui sebagai objek dengan membandingkan menggunakan konsep kesamaan. Kemudian objek baru itu ditetapkan kedalam kategori yang mirip. Setelah objek baru ditemukan dan di kategorikan, kita dapat menyimpulkan sifat tambahan tentang hal itu dengan menggunakan sifat kategorinya.

Pada kenyataannya ini adalah proses yang di adopsi oleh ahli biologi untuk mengkategorikan spesies baru di temukan untuk hewan atau tanaman. Misalnya, jika kita sudah tahu bahwa baya sangat sensitive terhadap dingin, dan kita menemkan buaya yang sama, maka kita dapat menyimpulkan bahwa buaya itu juga sensitive terhadap dingin.

Mengukur kesamaan antara kata – kata merupakan langkah fundamental dalam banyak tugas di pengolahan natural language seperti kata disambiguasi, permodelan bhasa, sinonim ekstraksi dan ekstraksi otomatis.

Dalam makna disambiguasi tujuannya adalah untuk menentukan makna kata polysemous (yaitu kata yang memiliki beragam makna) yang digunakan dalam teks yang diberikan. Langkah kesamaan telah digunakan untuk membandingkan kata – kata yang muncul dalam konteks langsungdari kata polysemous terhadap kata – kata yang digunakan dalam definisi ang diberikan dalam kalms untuk masing – masing makna. Kemudian arti yang memiliki kemiripan tertinggi dengan konteks tertentu, dipilih sebagai arti yang benar dari kata polysemous.

Dalam bahas pemodelan tujuannya adalah untuk membuat model probabilistic menggunakan bahasa dalam suatu urutan kejadian kata. Jika model probabilistic secara akurat dapat memprediksi kata – kata dalam bahas, maka model dianggap akurat. Dengan kata lain, model bahasa di inginkan dengan nilai kekacauan yang rendah. Kekacauan dari p distribsi probabilitas didefinisikan sebagai 2H(p), dimana H(p) menunjukan entropi p.  masalah utama yang di hadapi selama perhitungan urtan kata probabilitas adalah kekurangan data.