Purpose. The present study proposes machine learning models to identify individuals at risk of vitamin D deficiency.
Materials and methods. Machine learning was used on the dataset of 944 persons’ laboratory analysis to determine the list of
anthropometric and laboratory indicators that affect the development of vitamin D deficiency. It was built a decision tree with a depth of 5 to predict vitamin D deficiency based on various parameters.
Results. The authors found feature importance in identifying potential vitamin D deficiency. Age and BMI were considered the most impactful anthropometric parameters, level of HDL was the most important laboratory parameter. A heatmap matrix for correlation of features between one another was created. It was calculated metrics based on the confusion matrix for determining the risk of a 25(OH)D deficit: Accu- racy, Precision, Sensitivity, Specificity, F1-Score. The authors plotted the ROC curve of the optimal model; established that the Area Under the Curve (AUC) of the selected model is equal to 0.92 that is a very effective result.
Conclusion. Machine learning techniques are more effective at predicting deficiencies than traditional statistical methods.
Метою дослідження було визначення переліку антропометричних та лабораторних показників, що впливають на розвиток
дефіциту вітаміну D, та розробка надійної прогностичної моделі, яка допоможе в ранньому виявленні та варіантах корекції дефіциту та недостатності вітаміну D у групах ризику. Машинне навчання було використано на наборі даних лабораторного аналізу 944 осіб, які впливають на розвиток дефіциту вітаміну D. З’ясовано важливість ознак у виявленні потенційного дефіциту вітаміну D. Вік та ІМТ вважалися найбільш впливовими антропометричними параметрами, рівень ЛПВЩ був найважливішим лабораторним параметром. Розраховані показники, що створені на основі матриці невідповідностей, для визначення ризику дефіциту 25(OH)D. Побудовано ROC-криву оптимальної моделі, яка доводить її ефективність.