COMPARATIVE ANALYSIS OF TRANSFORMER-BASED FEATURE EXTRACTION AND CLASSIFIER PERFORMANCE: AN EMPIRICAL STUDY ON IoT-ENABLED INDUSTRIAL SYSTEMS
Аннотация
Abstract. This paper presents a comprehensive comparative analysis of five feature extraction methods (raw features, PCA, deep autoencoder, variational autoencoder, and Transformer) combined with six classification algorithms (logistic regression, SVM, MLP, XGBoost, LightGBM, CatBoost) for industrial IoT systems. Experiments conducted on three publicly available datasets - IoT predictive maintenance, smart logistics, and smart manufacturing - demonstrate that raw features combined with gradient boosting classifiers achieved the highest classification accuracy on logistics data, matching or exceeding the performance of sophisticated Transformer-based feature extraction paired with neural classifiers. Through rigorous five-fold stratified cross-validation and comprehensive performance analysis, our results confirm that feature extraction effectiveness is highly dataset-dependent, and when domain expertise produces quality features, additional deep transformation yields minimal benefit while increasing computational costs. We provide evidence-based guidelines for practitioners to select appropriate feature extraction methods based on data characteristics, performance requirements, and computational constraints. These findings have significant implications for resource-constrained IoT deployments where computational efficiency is paramount. Annotatsiya. Ushbu maqolada sanoat IoT (Internet of Things) tizimlari uchun beshta xususiyat ajratib olish usuli (xom xususiyatlar, PCA, chuqur avtoenkoder, variatsion avtoenkoder va Transformer) hamda oltita klassifikatsiya algoritmi (logistik regressiya, SVM, MLP, XGBoost, LightGBM, CatBoost) o‘rtasidagi keng qamrovli qiyosiy tahlil natijalari taqdim etiladi. Uchta ommaviy ma’lumotlar to‘plami - IoT prediktiv texnik xizmat ko‘rsatish, aqlli logistika va aqlli ishlab chiqarish - bo‘yicha o‘tkazilgan tajribalar shuni ko‘rsatdiki, xom xususiyatlar bilan gradient bustirlash klassifikatorlari logistika ma’lumotlarida eng yuqori aniqlikka erishdi, bu esa murakkab Transformer asosidagi xususiyat ajratib olish usullaridan ustun turadi. Besh qatlamli stratifikatsiyalangan kross-validatsiya orqali olingan natijalar shuni tasdiqlaydiki, xususiyat ajratib olish samaradorligi ma’lumotlar to‘plamiga bog‘liq va soha ekspertizasi asosida sifatli xususiyatlar hosil qilinganda, qo‘shimcha chuqur transformatsiya minimal foyda keltiradi. Ushbu tadqiqot amaliyotchilar uchun usul tanlash bo‘yicha dalillarga asoslangan tavsiyalar beradi. Аннотация. В данной статье представлены результаты комплексного сравнительного анализа пяти методов извлечения признаков (необработанные признаки, PCA, глубокий автоэнкодер, вариационный автоэнкодер и Трансформер) и шести алгоритмов классификации (логистическая регрессия, SVM, MLP, XGBoost, LightGBM, CatBoost) для промышленных IoT-систем. Эксперименты, проведённые на трёх общедоступных наборах данных - предиктивное техническое обслуживание IoT, умная логистика и умное производство - показали, что необработанные признаки в сочетании с классификаторами градиентного бустинга достигли наивысшей точности на логистических данных, превосходя сложные методы на основе Трансформеров. Результаты пятикратной стратифицированной кросс-валидации подтверждают, что эффективность извлечения признаков зависит от набора данных, а качественная инженерия признаков на основе доменной экспертизы делает дополнительную глубокую трансформацию избыточной. Исследование предоставляет практикам доказательные рекомендации по выбору методов.
Перевод пока недоступен