Penerapan K-Means Clustering Untuk Pengelompokan Modalitas Pencitraan Medis Pada Dataset Imaging Data Commons
(1) Universitas Negeri Medan
(2) Universitas Negeri Medan
(3) Universitas Negeri Medan
(*) Corresponding Author
Abstract
Distribusi modalitas pencitraan medis dalam dataset Imaging Data Commons (IDC) yang berskala petabyte belum pernah dianalisis secara sistematis menggunakan pendekatan data mining, padahal ketimpangan distribusinya berpotensi memengaruhi kualitas pengembangan model kecerdasan buatan di bidang onkologi. Penelitian ini bertujuan mengelompokkan modalitas pencitraan medis berdasarkan karakteristik distribusi data menggunakan algoritma K-Means Clustering yang diakses melalui Google BigQuery. Data diproses melalui tahapan preprocessing meliputi pembersihan, penyaringan noise, dan normalisasi MinMaxScaler. Nilai K optimal ditentukan melalui Elbow Method menghasilkan K=3. Hasil clustering membentuk tiga kelompok: Cluster 2 (CT, 62,22%), Cluster 1 (MR, 32,41%), dan Cluster 0 (20 modalitas minor, 5,37%), dengan Silhouette Score 0,7823 yang termasuk kategori cluster kuat. Penelitian ini mengungkap bahwa hubungan antara cakupan body part dan volume data bersifat eksponensial, serta dominasi CT dan MRI berpotensi menciptakan blind spot pada model AI medis apabila ketimpangan distribusi tidak ditangani sebelum pelatihan model.
Keywords
Full Text:
PDFReferences
Aditya, B., Harjanta, A. T. J., & Latifah, K. (2025). Implementasi algoritma k-means clustering pada sistem informasi geografis fasilitas kesehatan BPJS Kesehatan Kota Semarang. Jurnal Informatika Teknologi dan Sains (JINTEKS), 7(1), 438-448.
Alzakari, S. A., Alruwais, N., Sorour, S., Ebad, S. A., Elnour, A. A. H., & Sayed, A. (2024). A big data analysis algorithm for massive sensor medical images. PeerJ Computer Science, 10, e2464.
Aulia, W., Siahaan, A. P. U., Marlina, L., Khairul, & Iqbal, M. (2024). K-means clustering algorithm analysis for grouping patient medical record data based on disease type. Jurnal Info Sains: Informatika dan Sains, 14(04).
Awad, F. H., Hamad, M. M., & Alzubaidi, L. (2023). Robust classification and detection of big medical data using advanced parallel k-means clustering, YOLOv4, and logistic regression. Life, 13(3), 691
Bili, M. L., Mau, S. D. I., & Momo, L. L. (2025). Opini Masyarakat terhadap infrastruktur Desa Malitidari menggunakan metode unsupervised learning pada tools Orange. Modem: Jurnal Informatika dan Sains Teknologi, 3(4), 57–67.
Efendi, M. A., & Fatah, Z. (2025). Penerapan data mining untuk mengelompokkan penyebaran Covid-19 di Indonesia menggunakan algoritma k-means. JAMASTIKA, 4(1).
Fedorov, A., & Homeyer, A. (2023). The NCI Imaging Data Commons as a platform for reproducible research in computational pathology. Computer Methods and Programs in Biomedicine, 242, 107839.
González García, C., & Álvarez-Fernández, E. (2022). What is (not) Big Data based on its 7Vs challenges: A survey. Big Data and Cognitive Computing, 6(4), 158
Hidayat, T., Jajuli, M., & Susilawati. (2023). Clustering daerah rawan stunting di Jawa Barat menggunakan algoritma k-means. INFOTECH: Jurnal Informatika & Teknologi, 4(2), 137-146.
IBM. (2021). What is data mining? IBM. https://www.ibm.com/topics/data-mining
Indraputra, R. A., & Fitriana, R. (2020). K-Means clustering data COVID-19. Jurnal Teknik Industri, 10(3), 275–282.
Jiang, Z. (2024). Research on performance optimization of k-means algorithm on large dataset. International Journal of Advance in Applied Science Research, 3.
Mahmudah, F., Rahaningsih, N., Dana, R. D., & Rohmat, C. L. (2023). Implementasi data mining menggunakan algoritma k-means untuk mempermudah pengelompokkan wilayah rawan stunting di Kabupaten Cirebon. Jurnal INTEK (Informatika dan Teknologi Informasi), 8(1), 44-52.
McCarthy, N., Dahlan, A., Cook, T. S., O’Hare, N., Ryan, M. L., St John, B., ... & Curran, K. M. (2021). Enterprise imaging and big data: A review from a medical physics perspective. Physica Medica, 83, 206-220.
Ramadhani, M. R., Hermawan, R. N., Fajrian, I., Rachmat, D. A., Sumanto, & Kuswanto, A. D. (2025). Analisis klaster pasien diabetes menggunakan algoritma k-means berdasarkan usia, kadar glukosa, dan tekanan darah. RJTI (Riau Jurnal Teknik Informatika), 4(2), 374-378.
Salloum, S. (2025). K-means clustering and classification of breast cancer images using histogram of oriented gradients features and convolutional neural network models: Diagnostic image analysis study. JMIR Formative Research, 9, e71974.
Schacherer, D. P., Herrmann, M. D., Clunie, D. A., Höfener, H., Clifford, W., Longabaugh, W. J. R., Pieper, S., Kikinis, R., Fedorov, A., & Homeyer, A. (2023). The NCI Imaging Data Commons as a platform for reproducible research in computational pathology. Computer Methods and Programs in Biomedicine, 242, 107839.
Suwanto, F., & Pradesan, I. (2026). Implementasi data mining regresi linear berganda pada sistem prediksi penjualan obat pada apotek XYZ. Jurnal Sistem Informasi TGD, 5(1), 83–94.
Utomo, Y. B., Kurniasari, I., & Yanuartanti, I. (2023). Penerapan knowledge discovery in database untuk analisa tingkat kecelakaan lalu lintas. Jurnal Teknik Informatika Kaputama (JTIK), 7(1), 171–18
DOI: https://doi.org/10.53514/ir.v10i1.725
Article Metrics
Refbacks
- There are currently no refbacks.
____________________________
Organized by: Fakultas Teknologi Bisnis dan Sains (FTBS)
Published by: Universitas Dharma Wacana
Jl. Kenanga No.03 Mulyojati 16C Metro Barat Kota Metro Lampung
phone. +62725-7850671
Fax. +62725-7850671
Email: lppmstmikdw@dharmawacana.ac.id
Jurnal I-Robot disupport juga oleh:

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

