Main Article Content

Abstract

Saat ini konten informasi dalam bentuk berita dihasilkan dengan jumlah besar dari berbagai sumber setiap harinya. Banyaknya konten yang dihasilkan ini menuntut organisasi konten yang baik agar pencarian informasi yang diinginkan dapat dilakukan dengan mudah. Organisasi dan manajemen informasi yang efisien terhadap konten informasi elektronik ini menginspirasi penelitian mengenai document clustering. Pada penelitian ini dirancang sebuah metode document clustering dengan melakukan kombinasi pemodelan topik latent dirichlet allocation (LDA) dengan ward hierarchical clustering. LDA digunakan sebagai representasi vektor dokumen yang berupa distribusi topik. Representasi ini bertujuan untuk mengurangi dimensi vektor yang pada umumnya terlalu panjang jika menggunakan tf-idf. Ward Hierarchical Clustering yang memiliki kompleksitas tinggi dapat terbantu prosesnya dengan representasi dari LDA. Selain itu dihasilkan silhouette coefficient yang baik yaitu 0.7. Dalam peneltian ini juga ditemukan bahwa penentuan jumlah topik dalam kaitannya dengan document clustering dapat dilakukan dengan mempertimbangkan silhouette coefficient pada hasil clustering. Performa silhouette coefficient pada representasi pemodelan topik lebih baik dibandingkan dengan representasi dengan tf-idf.

Article Details

How to Cite
Herwanto, G. B. (2018). Document Clustering Dengan Latent Dirichlet Allocation dan Ward Hierarichal Clustering. Pseudocode, 5(2), 29–37. https://doi.org/10.33369/pseudocode.5.2.29-37