Predicting the workload of virtual machines in order to reduce energy consumption in cloud data centers using the combination of deep learning models
Subject Areas : ICTZeinab Khodaverdian 1 , Hossein Sadr 2 * , Mojdeh Nazari Soleimandarabi 3 , Seyed Ahmad Edalatpanah 4
1 - science and research university
2 - .
3 - Cardiovascular Diseases Research Center
4 - .
Keywords: Workload Prediction, Cloud data centers, Virtual machine selection, Convolution Neural Network, Gated Recurrent Unit,
Abstract :
Cloud computing service models are growing rapidly, and inefficient use of resources in cloud data centers leads to high energy consumption and increased costs. Plans of resource allocation aiming to reduce energy consumption in cloud data centers has been conducted using live migration of Virtual Machines (VMs) and their consolidation into the small number of Physical Machines (PMs). However, the selection of the appropriate VM for migration is an important challenge. To solve this issue, VMs can be classified according to the pattern of user requests into Delay-sensitive (Interactive) or Delay-Insensitive classes, and thereafter suitable VMs can be selected for migration. This is possible by virtual machine workload prediction .In fact, workload predicting and predicting analysis is a pre-migration process of a virtual machine. In this paper, In order to classification of VMs in the Microsoft Azure cloud service, a hybrid model based on Convolution Neural Network (CNN) and Gated Recurrent Unit (GRU) is proposed. Microsoft Azure Dataset is a labeled dataset and the workload of virtual machines in this dataset are in two labeled Delay-sensitive (Interactive) or Delay-Insensitive. But the distribution of samples in this dataset is unbalanced. In fact, many samples are in the Delay-Insensitive class. Therefore, Random Over-Sampling (ROS) method is used in this paper to overcome this challenge. Based on the empirical results, the proposed model obtained an accuracy of 94.42 which clearly demonstrates the superiority of our proposed model compared to other existing models.
Cloud computing service models are growing rapidly, and inefficient use of resources in cloud data centers leads to high energy consumption and increased costs. Plans of resource allocation aiming to reduce energy consumption in cloud data centers has been conducted using live migration of Virtual Machines (VMs) and their consolidation into the small number of Physical Machines (PMs). However, the selection of the appropriate VM for migration is an important challenge. To solve this issue, VMs can be classified according to the pattern of user requests into Delay-sensitive (Interactive) or Delay-Insensitive classes, and thereafter suitable VMs can be selected for migration. This is possible by virtual machine workload prediction .In fact, workload predicting and predicting analysis is a pre-migration process of a virtual machine. In this paper, In order to classification of VMs in the Microsoft Azure cloud service, a hybrid model based on Convolution Neural Network (CNN) and Gated Recurrent Unit (GRU) is proposed. Microsoft Azure Dataset is a labeled dataset and the workload of virtual machines in this dataset are in two labeled Delay-sensitive (Interactive) or Delay-Insensitive. But the distribution of samples in this dataset is unbalanced. In fact, many samples are in the Delay-Insensitive class. Therefore, Random Over-Sampling (ROS) method is used in this paper to overcome this challenge. Based on the empirical results, the proposed model obtained an accuracy of 94.42 which clearly demonstrates the superiority of our proposed model compared to other existing models.
منابع و مأخذ
[1] A. Yousafzai et al., "Cloud resource allocation schemes: review, taxonomy, and opportunities," Knowledge and Information Systems, vol. 50, no. 2, pp. 347-381, 2017.
[2] I. Hamzaoui, B. Duthil, V. Courboulay, and H. Medromi, "A Survey on the Current Challenges of Energy-Efficient Cloud Resources Management," SN Computer Science, vol. 1, no. 2, pp. 1-28, 2020.
[3] A. Beloglazov, "Energy-efficient management of virtual machines in data centers for cloud computing," 2013.
[4] S. Singh and I. Chana, "A survey on resource scheduling in cloud computing: Issues and challenges," Journal of grid computing, vol. 14, no. 2, pp. 217-264, 2016.
[5] M. H. Sayadnavard, A. T. Haghighat, and A. M. Rahmani, "A reliable energy-aware approach for dynamic virtual machine consolidation in cloud data centers," The Journal of Supercomputing, vol. 75, no. 4, pp. 2126-2147, 2019.
[6] J. N. Witanto, H. Lim, and M. Atiquzzaman, "Adaptive selection of dynamic VM consolidation algorithm using neural network for cloud resource management," Future generation computer systems, vol. 87, pp. 35-42, 2018.
[7] H. Sadr, M. M. Pedram, and M. Teshnehlab, "Multi-View Deep Network: A Deep Model Based on Learning Features From Heterogeneous Neural Networks for Sentiment Analysis," IEEE Access, vol. 8, pp. 86984-86997, 2020.
[8] Y. S. Patel and R. Misra, "Performance comparison of deep VM workload prediction approaches for cloud," in Progress in Computing, Analytics and Networking: Springer, 2018, pp. 149-160.
[9] H. Khani and H. Khanmirza, "Randomized routing of virtual machines in IaaS data centers," PeerJ Computer Science, vol. 5, p. e211, 2019.
[10] A. Beloglazov, J. Abawajy, and R. Buyya, "Energy-aware resource allocation heuristics for efficient management of data centers for cloud computing," Future generation computer systems, vol. 28, no. 5, pp. 755-768, 2012.
[11] R. Moreno-Vozmediano, R. S. Montero, E. Huedo, and I. M. Llorente, "Efficient resource provisioning for elastic Cloud services based on machine learning techniques," Journal of Cloud Computing, vol. 8, no. 1, p. 5, 2019.
[12] M. Hariharasubramanian, "Improving application infrastructure provisioning using resource usage predictions from cloud metric data analysis," Rutgers University-School of Graduate Studies, 2018.
[13] R. Shaw, E. Howley, and E. Barrett, "An intelligent ensemble learning approach for energy efficient and interference aware dynamic virtual machine consolidation," Simulation Modelling Practice and Theory, vol. 102, p. 101992, 2020.
[14] N. Verma and A. Sharma, "Workload prediction model based on supervised learning for energy efficiency in cloud," in 2017 2nd International Conference on Communication Systems, Computing and IT Applications (CSCITA), 2017, pp. 66-71: IEEE.
[15] W. Zhang, B. Li, D. Zhao, F. Gong, and Q. Lu, "Workload prediction for cloud cluster using a recurrent neural network," in 2016 International Conference on Identification, Information and Knowledge in the Internet of Things (IIKI), 2016, pp. 104-109: IEEE.
[16] Y. Zhu, W. Zhang, Y. Chen, and H. Gao, "A novel approach to workload prediction using attention-based LSTM encoder-decoder network in cloud environment," EURASIP Journal on Wireless Communications and Networking, vol. 2019, no. 1, p. 274, 2019.
[17] S. Ouhame and Y. Hadi, "Multivariate workload prediction using Vector Autoregressive and Stacked LSTM models," in Proceedings of the New Challenges in Data Sciences: Acts of the Second Conference of the Moroccan Classification Society, 2019, pp. 1-7.
[18] Z. Chen, J. Hu, G. Min, A. Y. Zomaya, and T. El-Ghazawi, "Towards accurate prediction for high-dimensional and highly-variable cloud workloads with deep learning," IEEE Transactions on Parallel and Distributed Systems, vol. 31, no. 4, pp. 923-934, 2019.
[19] P. Yazdanian and S. Sharifian, "Cloud Workload Prediction Using ConvNet And Stacked LSTM," in 2018 4th Iranian Conference on Signal Processing and Intelligent Systems (ICSPIS), 2018, pp. 83-87: IEEE.
[20] P. Yazdanian and S. Sharifian, "E2LG: a multiscale ensemble of LSTM/GAN deep learning architecture for multistep-ahead cloud workload prediction," The Journal of Supercomputing, pp. 1-31, 2021.
[21] J. Bi, S. Li, H. Yuan, and M. Zhou, "Integrated deep learning method for workload and resource prediction in cloud systems," Neurocomputing, vol. 424, pp. 35-48, 2021.
[22] S. Shishira and A. Kandasamy, "A Novel Feature Extraction Model for Large-Scale Workload Prediction in Cloud Environment," SN Computer Science, vol. 2, no. 5, pp. 1-7, 2021.
[23] B. Santoso, H. Wijayanto, K. Notodiputro, and B. Sartono, "Synthetic over sampling methods for handling class imbalanced problems: a review," in IOP conference series: earth and environmental science, 2017, vol. 58, no. 1, p. 012031.
[24] E. Jackson and R. Agrawal, "Performance Evaluation of Different Feature Encoding Schemes on Cybersecurity Logs," in 2019 SoutheastCon, 2019, pp. 1-9: IEEE.
[25] H. Sadr, M. M. Pedram, and M. Teshnehlab, "A robust sentiment analysis method based on sequential combination of convolutional and recursive neural networks," Neural Processing Letters, vol. 50, no. 3, pp. 2745-2761, 2019.
[26] J. Chung, C. Gulcehre, K. Cho, and Y. Bengio, "Empirical evaluation of gated recurrent neural networks on sequence modeling," arXiv preprint arXiv:1412.3555, 2014.
[27] Y. Wang, M. Liu, Z. Bao, and S. Zhang, "Short-term load forecasting with multi-source data using gated recurrent unit neural networks," Energies, vol. 11, no. 5, p. 1138, 2018.
[28] E. Cortez, A. Bonde, A. Muzio, M. Russinovich, M. Fontoura, and R. Bianchini, "Resource central: Understanding and predicting workloads for improved resource management in large cloud platforms," in Proceedings of the 26th Symposium on Operating Systems Principles, 2017, pp. 153-167.
[29] E. Patel, A. Mohan, and D. S. Kushwaha, "Neural network based classification of virtual machines in IaaS," in 2018 5th IEEE Uttar Pradesh Section International Conference on Electrical, Electronics and Computer Engineering (UPCON), 2018, pp. 1-8: IEEE.
[30] A. M. Aslam and M. Kalra, "Using Artificial Neural Network for VM Consolidation Approach to Enhance Energy Efficiency in Green Cloud," in Advances in Data and Information Sciences: Springer, 2019, pp. 139-154.
[31] M. A. Wani, F. A. Bhat, S. Afzal, and A. I. Khan, Advances in deep learning. Springer, 2020.
[32] A. Plebe and G. Grasso, "The unbearable shallow understanding of deep learning," Minds and Machines, vol. 29, no. 4, pp. 515-553, 2019.
دو فصلنامه علمي فناوري اطلاعات و ارتباطات ایران | سال پانزدهم، شمارههاي 55 و 56، بهار و تابستان 1402 صفحات:166 الی 189 |
|
Predicting the workload of virtual machines in order to reduce energy consumption in cloud data centers using the combination of deep learning models
Zeinab Khodaverdian*, Hossein Sadr**, Mojdeh Nazari***, Seyyed Ahmad Edalatpanah****
*Ph.D. student, Computer Department, Faculty of Mechanics, Electricity and Computer, Islamic Azad University, Science and Research Unit, Tehran, Iran
**Ph.D., Department of Computer Engineering and Information Technology, Gilan University of Medical Sciences, Iran
***Ph.D., Department of Medical Informatics, Faculty of Paramedicine, Shahid Beheshti University of Medical Sciences, Tehran, Iran
****BA, Department of Applied Mathematics, Ayendag Institute of Higher Education, Tonkabon, Mazandaran, Iran
Abstract
Cloud computing service models are growing rapidly, and inefficient use of resources in cloud data centers leads to high energy consumption and increased costs. Plans of resource allocation aiming to reduce energy consumption in cloud data centers has been conducted using live migration of Virtual Machines (VMs) and their consolidation into the small number of Physical Machines (PMs). However, the selection of the appropriate VM for migration is an important challenge. To solve this issue, VMs can be classified according to the pattern of user requests into Delay-sensitive (Interactive) or Delay-Insensitive classes, and thereafter suitable VMs can be selected for migration. This is possible by virtual machine workload prediction .In fact, workload predicting and predicting analysis is a pre-migration process of a virtual machine. In this paper, In order to classification of VMs in the Microsoft Azure cloud service, a hybrid model based on Convolution Neural Network (CNN) and Gated Recurrent Unit (GRU) is proposed. Microsoft Azure Dataset is a labeled dataset and the workload of virtual machines in this dataset are in two labeled Delay-sensitive (Interactive) or Delay-Insensitive. But the distribution of samples in this dataset is unbalanced. In fact, many samples are in the Delay-Insensitive class. Therefore, Random Over-Sampling (ROS) method is used in this paper to overcome this challenge. Based on the empirical results, the proposed model obtained an accuracy of 94.42 which clearly demonstrates the superiority of our proposed model compared to other existing models.
Keywords: Workload Prediction, Cloud data centers, Virtual machine selection, Convolution Neural Network, Gated Recurrent Unit
پیش بینی بار کاری ماشینهای مجازی به منظور کاهش مصرف انرژی در مراکز داده ابری با استفاده از ترکیب مدلهای یادگیری ژرف
زینب خداوردیان*، حسین صدر**1، مژده نظری سلیماندارابی***، سید احمد عدالت پناه****
*دانشجوی دکتری تخصصی گروه کامپیوتر، دانشکده مکانیک، برق و کامپیوتر، دانشگاه آزاد اسلامی، واحد علوم و تحقیقات، تهران، ایران
**دکترا، گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه علوم پزشکی گیلان، ایران
*** دکترا، گروه انفورماتیک پزشکی، دانشکده پیراپزشکی، دانشگاه علوم پزشکی شهید بهشتی، تهران، ایران
****کارشناسی، گروه ریاضی کاربردی، موسسه آموزش عالی آیندگان، تنکابن، مازندران، ایران
تاریخ دریافت:10/12/1400 تاریخ پذیرش:11/08/1401
نوع مقاله: پژوهشی
چكيده
افزایش تقاضا برای کاربردهای مبتنی بر ابر و استفاده ناکارآمد از منابع، موجب مصرف بیرویه انرژی در مراکز داده ابری شده است. مدیریت پویای منابع در مراکز داده با هدف کاهش مصرف انرژی، از طریق پیشبینی بار کاری ماشین مجازی امکانپذیر است. پیشبینی بار کاری ماشین مجازی این امکان را میدهد که ماشین مجازی متناسب با درخواست کاربران در زمان مناسب مهاجرت کند و در مصرف انرژی موثر باشد و منابع را به کارآمدترین روش تخصیص دهد. پیشبینی بار کاری ماشین مجازی میتواند بر اساس الگوی درخواست کاربران باشد برای این منظور میتوان ماشینهای مجازی را بر اساس پیشبینی مصرف منابع (به عنوان مثال میانگین مصرف پردازنده) در کلاسهای حساس یا غیر حساس به تأخیر دستهبندی کرد و سپس، ماشینهای مجازی متناسب با در خواست کاربران را به آنها اختصاص داد. در واقع پيشبيني بار کاری و تحليل پيشبيني به عنوان يك فرآيند اوليه برای مدیریت منابع (مانند کاهش تعداد مهاجرت در ادغام پویای ماشین مجازی) باشد. از این رو در این مقاله از ترکیب شبکه عصبی پیچشی و واحد برگشتی دروازهدار بهمنظور پیشبینی بار کاری ماشینهای مجازی مایکروسافت آزور استفادهشده است. مجموعه داده آزور یک مجموعه داده دارای برچسب است و بار کاری ماشینهای مجازی در این مجموعه داده در دو برچسب حساس یا غیر حساس به تأخیر قرار دارند. در این مجموعه داده اکثر ماشینهای مجازی دارای برچسب غیر حساس به تأخیر میباشند؛ بنابراین بنابراین توزیع نمونهها در این مجموعه داده به صورت نامتوازن است از این رو برای رفع این چالش از افزایش تصادفی نمونههای کلاس اقلیت استفاده شده است. طبق نتایج حاصل از آزمایشها، روش پیشنهادی دارای دقت 42/94 است که نشاندهنده برتری مدل پیشنهادی نسبت به سایر مدلهای پیشین است.
واژگان كليدي:پیشبینی بار کاری، مراکز داده ابری، انتخاب ماشین مجازی، شبکه عصبی پیچشی، واحد برگشتی دروازهدار
[1] نویسنده مسئول: حسین صدر Sadr@qiau.ac.ir
1. مقدمه
با پیشرفتهای روزافزون فناوری اطلاعات، نیاز به انجام کارهای محاسباتی سنگین بدون داشتن سختافزارها و نرمافزارهای گران بهطور قابلتوجهی افزایشیافته است. رایانش ابری روشی است که در آن منابع با استفاده از مجازیسازی، بهصورت یک سرویس پردازشی و از طریق شبکههای ارتباطی عرضه میشود. محبوبیت استفاده از سرویسهای ابری، موجب ساخت مراکز داده با مصرف انرژی بالا شده است[1]؛ بنابراین کاهش مصرف انرژی جزو چالشهای اصلی ارائهدهندگان سرویسهای ابری است. بهطورکلی تکنیکهای کاهش مصرف انرژی در مراکز داده به دو دسته تکنیکهای پویا و ایستا تقسیم میشوند. شکل (1) روشهای کاهش مصرف انرژی در مراکز داده ابری را نشان میدهد[2, 3].
شکل1. تکنیکهای کاهش مصرف انرژی[2, 3] |
با توجه به شکل (1) مدیریت ایستای انرژی در سطح سختافزار شامل تمام روشهای بهینهسازی در زمان طراحی است که با استفاده از قطعات سختافزاری بسیار کارآمد، باعث کاهش مصرف انرژِی میشوند. بهغیراز بهینهسازی طراحی سیستم در سطح سختافزار، پیادهسازی برنامههایی که روی سیستم اجرا میشوند بسیار مهم است و طراحی ضعیف نرمافزار میتواند منجر به کاهش کارایی سیستم شود. تجزیهوتحلیل مصرف انرژی ناشی از برنامههای بزرگ، غیرعملی یا غیرممکن است زیرا نهتنها فرآیند تولید و کامپایل کد، بلکه ترتیب دستورات نیز میتواند روی مصرف انرژی تأثیرگذار باشد. باوجود مدیریت انرژی در روشهای ایستا، مصرف کلی انرژی همچنان به دلیل افزایش نیازمندی برای استفاده از منابع ابری، رو به رشد است و نیازمند مدیریت انرژی بهصورت پویا میباشد. تکنیکهای پویا شامل روشها و استراتژیهای زمان اجرا برای تصمیمگیری در چگونگی رفتار سیستم هستند. این تکنیکها با توجه به میزان منابع موردنیاز و یا هر مشخصه پویای دیگری از حالت سیستم در یک مقطع زمانی مشخص، انجام میشود. یکی از دلایل و فرضیاتی که شیوه مدیریت پویا را ممکن میسازد این است که سیستمها، بار کاری متغیری را در طول عملکرد خود تجربه میکنند. دلیل دیگر ، توانایی در استنتاج و پیشبینی حالت آینده سیستم و تصمیمگیری مناسب با توجه به آن حالت میباشد. تکنیکهای ایستا برای مدیریت انرژی در دو سطح سختافزار و نرمافزار اجرا میشوند. در سطح سختافزار، بهعنوان نمونه با تغییر سطح ولتاژ و فرکانس پردازنده، مصرف کلی انرژی را بهصورت پویا کاهش میدهد و در سطح نرمافزار با استفاده از مجازیسازی در سرور واحد و تجمیع ماشینهای مجازی در چندین سرور، مصرف انرژی را مدیریت میکند[4]. تجمیع ماشین مجازی از طریق مهاجرت زنده انجام میشود و تعداد ماشینهای مجازی بر روی تعداد کمتری از ماشینهای فیزیکی قرار میگیرند و موجب کاهش مصرف انرژی میشوند[5]. تجمیع ماشین مجازی شامل تشخیص میزبان فرابار، انتخاب ماشین مجازی برای مهاجرت، تشخیص سرور فروبار و قرارگیری ماشین مجازی میباشد. یکی از مفروضات اصلی پژوهش انتخاب ماشین مجازی کاندیدای مهاجرت میباشد. انتخاب نامناسب ماشین مجازی برای مهاجرت میتواند مصرف انرژی را تا حد زیادی افزایش دهد. بنابراین انتخاب ماشین مجازی برای مهاجرت از اهمیت زیادی برخوردار است. انتخاب میتواند بر اساس الگوی درخواست کاربران و پیشبینی بار کاری ماشین مجازی صورت پذیرد. پیشبینی بار کاری و تحلیل پیشبینی به عنوان مفروض دوم و یک فرآیند اولیه قبل از انتخاب ماشین مجازی میباشد[6]. این روش پیشبینی بار کاری، قادر به تطبیق سناریوی بار کاری فعلی با سناریوهای گذشته و برنامهریزی منابع به ماشینهای مجازی مختلف به روشی کارآمد است. نوع مشابهی از این روش برای تطبیق پذیری پویا در ابر با در نظر گرفتن دادههای تاریخی برای شناسایی الگوهای کاربرد مشابه با مجموعه رکورد فعلی استفاده میشود. با توجه به مطالب بیان شده پرسشهای اصلی پژوهش شامل موارد زیر میباشد:
1) چگونه میتوان بر اساس الگوی درخواست کاربران پیشبینی بار کاری ماشین مجازی را انجام داد؟
2) آیا مجموعه داده مناسبی به منظور پیشبینی بار کاری ماشین مجازی وجود دارد؟
3) با توجه به اهمیت کاهش مصرف انرژی و لزوم پیشبینی دقیق، چه مدلی میتوان برای افزایش دقت پیشبینی ارائه کرد؟
برای پاسخ به سوالات فوق، میتوان ماشینهای مجازی را در کلاسهای حساس به تأخیر یا غیر حساس به تأخیر دستهبندی کرد، سپس بر این اساس، ماشینهای مجازی را برای مهاجرت انتخاب نمود[6]. کلاس حساس به تأخیر مربوط ماشینهای مجازی است برای اجرای برنامههایی با زمان پاسخگویی کم و کارایی بالا در نظر گرفته میشوند و کلاس غیر حساس به تأخیر عموماً برای اجرای برنامههایی میباشد که نسبت به تداخل حساس نیستند. در این پژوهش، بهمنظور پیش بینی بار کاری از ماشینهای مجازی موجود در سرویس ابری مایکروسافت آزور استفاده شده است. مجموعه داده آزور یک مجموعه داده دارای برچسب است و بار کاری ماشینهای مجازی در این مجموعه داده در دو برچسب حساس یا غیر حساس به تأخیر قرار دارند.
اخیراً استفاده از تکنیکهای یادگیری ژرف بهعنوان راهحلهای مؤثری در این زمینه معرفیشدهاند. زیرا، برای انتخاب بهینه، پیشبینی و استخراج ویژگیهای سطح بالا ماشینهای مجازی بسیار حائز اهمیت است. یادگیری ژرف شاخهای از یادگیری ماشین است و توانایی استخراج الگوهای غیرخطی از پیشبینی حجم کار ماشین مجازی را دارند. [7, 8] ازاینرو استفاده از تکنیکهای یادگیری ژرف میتواند در طبقهبندی ماشین مجازی مؤثر باشد؛ یادگیری ژرف میتواند همبستگی چندگانه بین ماشینهای مجازی را بر اساس بار کار قبلی خود استخراج میکند و بار کاری آینده آنها را با دقت بالا پیشبینی کند. پیشبینی بار کاری ماشین مجازی به تصمیمگیریها برای برنامهریزی ظرفیت و استفاده از مکان مناسب و مهاجرت ماشین مجازی کمک میکند[9]. در مجموعه داده آزور که مربوط به ماشینهای مجازی سرویس ابری مایکروسافت آزور میباشد، اکثر ماشینهای مجازی دارای برچسب غیر حساس به تأخیر میباشند؛ بنابراین بنابراین توزیع نمونهها در این مجموعه داده به صورت نامتوازن است. با توجه به موارد بیان شده اهداف اصلی مقاله شامل موارد زیر است:
1) پیشبینی بار کاری ماشینهای مجازی مجموعه داده آزور به منظور انتخاب ماشین مجازی کاندیدای مهاجرت، با استفاده از ترکیب شبکه عصبی پیچشی1 و واحد برگشتی دروازهدار2.
2) با توجه به اینکه تعداد ماشینهای مجازی موجود در کلاس غیر حساس به تأخیر نسبت به کلاس دیگر بیشتر است و عدم توزیع یکنواخت نمونهها در دو کلاس دقت طبقه بند را به سمت کلاس اکثریت منحرف کند و آموزش مدل را تحت تأثیر قرار بدهد؛ بنابراین لازم است تا برای مقابله با این مشکل مجموعه داده موردنظر متوازن شود و در این پژوهش از تکنیک افزایش تصادفی کلاس اقلیت3 برای این منظور استفاده میشود.
در ادامه، بخش دوم از این مقاله به کارهای پیشین اختصاص دارد. در بخش سوم روش پیشنهادی تشریح میگردد. در بخش چهارم آزمایشهای مربوط به مدل پیشنهادی بر روی مجموعه داده مایکروسافت آزور بررسی میشود و در بخش پنجم نتیجهگیری و کارهای آینده بیان میشود.
2. کارهای پیشین
تکنیکهای انتخاب ماشین مجازی را میتوان در دو دسته هوشمند و غیرهوشمند دستهبندی کرد. شکل (1) یک ردهبندی از روشهای موجود را نشان میدهد.
شکل 2. رده بندی روشهای انتخاب ماشین مجازی[5] |
برخی از روشهای غیرهوشمند انتخاب ماشین مجازی شامل مواردی همچون انتخاب تصادفی، کمترین زمان مهاجرت، کمترین بهرهوری و حداکثر ضریب همبستگی میباشند. در انتخاب تصادفی، یک ماشین مجازی بهصورت تصادفی انتخاب میشود[10]. کمترین زمان مهاجرت میتواند بهعنوان روش دیگری برای مهاجرت ماشین مجازی در نظر گرفته شود و زمان مهاجرت یک ماشین مجازی برابر با مقدار حافظه مورداستفاده ماشین مجازی تقسیمبر پهنای باند میزبان (سرور فیزیکی که ماشین مجازی روی آن قرار دارد) میباشد. در روش دیگر ماشین مجازی که دارای کمترین بهرهوری پردازنده است، میتواند برای مهاجرت انتخاب شود. در روش حداکثر ضریب همبستگی، انتخاب بر اساس بیشترین همبستگی (از نظر بهرهوری پردازنده) در مقایسه با دیگر ماشینهای مجازی است[11]. ازآنجاییکه انتخاب ماشین مجازی یک مسئله کلیدی در کاهش مصرف انرژی است، تکنیکهای انتخاب هوشمند میتواند عملکرد بهتری در این زمینه داشته باشند و از طریق پیشبینی بار کاری ماشین مجازی انجام شود. پیشبینی عبارت است از تعیین مقدار یک متغیر وابسته برحسب مقادیر متغیر مستقل و مهمترین روش پیشبینی عددی، رگرسیون است. رافائل مورنو[12] مدل رگرسیون بردار پشتیبان را بهمنظور پیشبینی بار کاری ماشینهای مجازی در مجموعه داده کمپلوتنسه4 باهدف کاهش مصرف انرژی پیشنهاد داد. مدل پیشنهادی او دادههای ورودی را در فضای ویژگی با ابعاد بالا با نگاشت غیرخطی و با استفاده از تابع کرنل ترسیم میکند. سپس، یک مدل رگرسیون خطی برای برگشت به فضای ویژگی جدید مورداستفاده قرار میگیرد و نتایج بهتری در مقایسه با مدلهای غیرهوشمند است. رگرسیون خطی، رگرسیون سهتیغی5، رگرسیون لاسو و رگرسیون بردار پشتیبان تکنیکهایی هستند که استریکی[13] بر روی مجموعه داده آزور مورد آزمایش قرار داد. نتایج حاصل از آزمایش وی نشاندهنده برتری رگرسیون بردار پشتیبان نسبت به سایر روشهای مبتنی بر رگرسیون است.
شاو و همکاران[14] تکنیکهای تجمعی6 را بر روی ماشین بردار پشتیبان، شبکه عصبی مصنوعی و لجستیک رگرسیون باهدف طبقهبندی ماشینهای مجازی آزور آزمایش کردند؛ در پژوهش آنها بهمنظور مقابله با عدم توازن دادهها در مجموعه داده، تعداد نمونههای کلاس اکثریت بهصورت تصادفی کاهش پیدا کرد. نتایج نشان میدهند که استفاده از متد بگینگ برای الگوریتم ماشین بردار پشتیبان، میتواند بهطور قابلتوجهی عملکرد مدل را افزایش دهد. همچنین استفاده از تکنیک بوستینگ بر روی درخت تصمیم7 در آزمایش ورما و شارما[15]، دارای دقت 74 درصد برای طبقهبندی ماشین مجازی میباشد. در پژوهشی که توسط ویتانتو[6] و همکاران انجام شد. آموزش شبکه عصبی مصنوعی بر روی مجموعه داده پلنتلب برای ۱00 ایپوک انجام شد. دقت شبکه عصبی برابر با 92/74 درصد روی مجموعه داده آموزشی و 05/75 درصد برای داده آزمایش است. ژانگ و همکاران[16] شبکه عصبی برگشتی8 را بهعنوان مدل پیشنهادی در مقایسه با مدل میانگین حرکت یکپارچه رگرسیون خودکار9 بر روی مجموعه داده گوگل، مورد ارزیابی قراردادند که رویکرد مبتنی بر شبکه عصبی برگشتی از دقت بالاتری برخوردار است. شبکه عصبی برگشتی برای پردازش دادههای سری زمانی مناسب است. بااینحال، از مشکل وابستگی بلند رنج میبرد که مانع پردازش یک دنباله بلند میشود[17]. برای غلبه بر چنین مشکلی ژو و همکاران[18] شبکه عصبی حافظه طولانی کوتاهمدت10 که قادر به یادگیری وابستگیهای بلندمدت است، را پیشنهاد دادند. رویکرد پیشنهادی با استفاده از مکانیسم توجه11 در مقایسه با شبکه عصبی برگشتی و واحد برگشتی دروازهدار برتری دارد. پاتل و میسرا [9] شبکه عصبی برگشتی، شبکه عصبی حافظهی کوتاهمدت طولاني، ماشین بولتزمن و شبکه عصبی پیچشی را بر روی مجموعه داده پلنتلب مورد آزمایش قرار دادند. در مقایسه بین روشهای موجود، شبکه عصبی حافظه طولانی کوتاهمدت عملکرد پیشبینی را بهبود میبخشند. اوهامه و همکاران[19] از ترکیب شبکه عصبی حافظه طولانی کوتاهمدت و اتورگرسیو12 برای پیشبینی بار کاری ماشینهای مجازی بر روی دادههای واقعی از 1750 ماشین مجازی در یک مرکز داده توزیعشده استفاده کردند. درروش پیشنهادی ورودی الگوریتم، سری زمانی پردازنده و حافظه است که با استفاده از دادههای تاریخی حجم کار تشکیل میشوند. ثابت بودن هر سری زمانی با استفاده از آزمون تقویت دیکی-فولر13 بررسی میشود. از مدل اتورگرسیو برای فیلتر کردن وابستگیهای خطی در بین سریهای زمانی چند متغیره و مدل شبکه عصبی حافظه طولانی کوتاهمدت انباشتهشده برای گرفتن روندهای غیرخطی در باقیماندههای محاسبهشده از مدل اتورگرسیو استفاده میشود که خطای پیشبینی را کاهش میدهد و همچنین تعمیمپذیری پایینی دارد. ترکیب اسپارس اتوانکدر14 و واحد برگشتي دروازهدار توسط چن و همکاران[20] باهدف کاهش مصرف انرژی با پیشبینی بار کاری ماشینهای مجازی روی مجموعه داده علیبابا و گوگل ارائه شد. مدل پیشنهادی دارای قابلیت تعمیم و پایداری بیشتری است و عملکرد بهتری در مقایسه با شبکه عصبی برگشتی، حافظه طولانی کوتاهمدت و واحد برگشتي دروازهدار دارد. یزدانیان و شریفیان[21] مدلی ترکیبی مبتنی بر شبکه عصبی پیچشی و شبکه عصبی حافظه طولانی کوتاهمدت پیشنهاد کردند. ویژگیهای استخراجشده از شبکه عصبی پیچشی بهمنظور پیشبینی بار کاری ماشین مجازی وارد شبکه عصبی حافظه طولانی کوتاهمدت میشود. مدل پیشنهادی آنها بسیار مؤثر برای پردازش توالیهای طولانی از دادههای تاریخی با هزینههای محاسباتی کم است. همچنین یزدانیان و شریفیان[22] یک معماری از شبکه عصبی مولد متخاصم15 برای پیشبینی بار کاری ماشینهای مجازی پیشنهاد دادند. معماری پیشنهادی آنها شامل یک پشته از شبکه عصبی حافظه طولانی کوتاهمدت به عنوان مولد16 است. دومین عنصر در ساختار شبکه عصبی مولد متخاصم که شبکه تشخیص دهنده17 است، که موجب بهبود کیفیت پیشبینی شبکه مولد میشود در واقع، وظیفه اصلی شبکه تشخیص دهنده، آموزش خصومتآمیز است که منجر به یادگیری پایدار و قوی شبکه تولید کننده میشود. یک شبکه پیچشی چند لایه و دو لایه کاملاً متصل نیز به عنوان تشخیص دهنده در معماری پیشنهادی آنها استفاده میشود. معماری پیشنهادی آنها قادر به شناسایی وابستگیهای غیرخطی و پیچیده بین نمونههای پی در پی از بار کار سریهای زمانی میباشد و در نتیجه بهبود قابل توجهی در دقت پیشبینی بار کار ماشین مجازی دارد که در تصمیم گیری مدیریت منابع آینده استفاده میشود.
در پژوهش جینگ بی و همکاران[23] در ابتدا، دادههای تاریخی موجود در ردیابی خوشه گوگل جمعآوری میشود. با تجزیه و تحلیل و سازماندهی اطلاعات کلیدی وظایف، تعداد وظایف و سوابق استفاده از منابع از جمله استفاده از پردازنده و رم، برای هر شیار زمانی شمارش میشوند. سپس، بار کار و سریهای زمانی استفاده از منابع به عنوان سریهای زمانی تاریخی مورد استفاده در آزمایشها به دست میآیند. در گام دوم، سه روش در مرحله پیشپردازش داده اتخاذ میشوند. با توجه به مقیاس بزرگ بار کار و سریهای زمانی کاربرد منابع، لگاریتم طبیعی ابتدا برای کاهش مقیاس دادههای اصلی استفاده میشود.علاوه بر این، یک فیلتر SG18 برای کاهش اطلاعات نویز موجود در دادههای اصلی استفاده و بعد از آن، نرمالسازی برای هر ویژگی از دادهها استفاد میشود. پس از پیشپردازش اطلاعات، حافظه طولانی کوتاهمدت دو طرفه19 و حافظه طولانی کوتاهمدت شبکهای20 برای آموزش و آزمایش دادههای سری زمانی با هم ادغام میشوند. مدل پیشنهادی آنها شامل یک لایه حافظه طولانی کوتاهمدت شبکهای است که در وسط دو لایه حافظه طولانی کوتاهمدت دو طرفه قرار دارد. بعد از آن، خروجی آن از طریق یک لایه تمام متصل برای تولید خروجی نهایی عبور میکند.
شیشیرا و همکاران[24] به منظور افزایش دقت طبقهبندی بر روی مجموعه داده آزور تکنیکی را برای استخراج ویژگی ارائه دادند. در پژوهش آنها پیشپردازش به منظور حذف نویز از دادههای اصلی انجام میشود. الگوریتم پردازش ویژگی سه فاکتور کلیدی را در محدوده تعریفشده مانند مصرف پردازنده، ظرفیت حافظه و دیسک تخمین میزند. بر اساس این الگوریتم متناسب با هر ورودی یک برچسب برای 3 فاکتور نامبرده در نظر گرفته میشود و برچسبها بر اساس یک آستانه از پیش تعریف شده اختصاص مییابند. به عنوان مثال اگر مصرف پردازنده کمتر از حداقل سطح انتظار باشد، به ورودی هیچ برچسب باری تخصیص داده نمیشود. اگر مقدار ویژگی بزرگتر از حداکثر سطح باشد، برچسب خارج از حد مجاز اختصاص داده میشود. در مورد مقادیر ویژگی که در محدوده مجاز قرار دارند 5 برچسب بار کاری که شامل بار سبک، بار ملایم، بار کم، بار زیاد و بار اضافه است، اختصاص داده میشود. برای اعتبار سنجی عملکرد مدل استخراج ویژگی پیشنهادی، شبکه عصبی مصنوعی و ماشین بردار پشتیبان را انتخاب شدند. مدل پیشنهادی در مقایسه با جنگل تصادفی و شبکه عصبی برگشتی دارای دقت بالاتری است.
1.2. بررسی مزایا و معایب پژوهشهای پیشین
روشهای هوشمند بیانشده در بخش کارهای پیشین هرکدام دارای نقاط قوت و ضعفی هستند که بررسی مزایا و معایب آنها میتواند در ارائه مدل پیشنهادی مؤثر باشد. جدول (1) برخی از مزایا و معایب پژوهشهای پیشین را نشان میدهد. در بین روشهای هوشمند بیانشده، استفاده از تکنیکهای یادگیری ژرف با توجه به قابلیت استخراج ویژگی بهصورت اتوماتیک، دارای نتایج بهتری نسبت به روشهای یادگیری ماشین میباشد[25]. از آنجایی که حجم کار ماشینهای مجازی در یک بازه زمانی و با توالی منظم جمعآوری میشوند؛ بنابراین برای پیشبینی، مدلهایی همچون شبکههای عصبی برگشتی که قادر به ثبت وابستگیهای بلندمدت هستند، دارای عملکرد بهتری میباشند. از طرفی شبکههای عصبی برگشتی دارای مشکلاتی همچون محوشدگی و انفجار گرادیان هستند و همچنین در استخراج ویژگیهای محلی عملکرد ضعیفی دارند. شبکههای عصبی پیچشی میتوانند در استخراج ویژگی های محلی به خوبی عمل کنند اما در استخراج وابستگیهای طولانی مدت ضعیف هستند. همانطور که در مطالعات قبلی مشاهده شد، مدلهای ترکیبی عملکرد خوبی داشته و موجب بهبود نتایج میشوند. دلیل استفاده از مدل های ترکیبی این است که مدل ها می توانند نقاط ضعف یکدیگر را بپوشانند و باعث هم افزایی شوند[26]. اما از سوی دیگر، مدلهای ترکیبی پیچیدهتر از سایر مدلها هستند. در این راستا، یک مدل ترکیبی مبتنی بر شبکه عصبی پیچشی و واحد برگشتی دروازهدار در این مقاله پیشنهاد شده است که هدف آن غلبه بر چالشهای ذکر شده است.
جدول 1. بررسی مزایا و معایب پژوهشهای پیشین
روش | جزییات مدل | داده | معیار ارزیابی | مزایا | معایب | مدل پیشنهادی |
رگرسیون بردار پشتیبان [11] | اندازه داده های آموزش، دوره تأخیر و پیشبینی حالت بعدی به عنوان پارامترهای مدل در نظر گرفته شده است، همچنین داده های یک دوره 4 هفتهای به عنوان داده آموزش در نظر گرفته میشود | مجموعه داده کمپلوتنسه | خطای میانگین مربعات و خطای میانگین مطلق | امکان پیشبینی بهصورت غیرخطی | طولانی بودن فاز آموزش دادهها (به دلیل بزرگ بودن مجموعه داده آموزش) | استفاده از یک مدل ترکیبی در کنار هم با تعداد پارامترهای کمتر علاوه بر افزایش دقت پیشبینی فاز آموزش را نیز کاهش میدهد. |
تکنیک بگینگ روی ماشین بردار پشتیبان [13] | ویژگیها با استفاده از ضریب همبستگی پیرسون انتخاب شده است (ویژگی های انتخاب شده عبارتند از: میانگین و حداکثر استفاده از پردازنده، شناسه اشتراک و میزان حافظه ماشین مجازی) همچنین برای مقابله با عدم توازن مجموعه داده از حذف تصادفی نمونههای کلاس اکثریت استفاده شده است | ماشینهای مجازی آزور | دقت، صحت و فراخوانی | افزایش دقت طبقهبندی نسبت به طبقه بند منفرد، کاهش بیش برازش | همبستگي مثبت بين طیقهبندها، ميزان واريانس و درنتیجه خطا را افزايش خواهد داد | حذف نمونهها از کلاس اکثریت به منظور توازن در مجموعه داده موجب از بین رفتن اطلاعات مفید میشود. بنابراین در مدل پیشنهادی از افزایش نمونهها در کلاس اقایت استفاده شده است. |
تکنیک بوستینگ روی درخت تصمیم [14] | با همبستگی پیرسون، پارامترهای اصلی شامل (بار کاری در هر روز از هفته، بار کاری آخر هفته، تعداد شکست زمان بیکاری و زمان اوج کار سرور مجازی) انتخاب میشود. | یک مجموعه داده ازمخزن UCI | دقت | افزایش دقت طبقهبندی | انتخاب تعداد مناسب از طبقهبند پایه | استفاده از دو تکنیک ژرف موجب افزایش دقت طبقهبندی میشود. |
شبکه عصبی مصنوعی [6] | برای مقابله با عدم تعادل دادهها از آرایههای وزنی برای محاسبه توابع تلفات مورداستفاده قرار میگیرند. آموزش با استفاده از اندازه دستهای ۱۰۰ برای ۱00 ایپوک انجام میشود. | مجموعه داده پلنتلب | دقت | امکان دستهبندی بهصورت غیرخطی | افزایش پیچیدگی مدل با افزایش تعداد لایهها | برای مقابله با عدم تعادل دادهها از آرایههای وزنی برای محاسبه توابع تلفات استفاده میشود که موجب پیچیدگی مدل خواهد شد. در این پژوهش توازن مجموعه داده در مرحله پیش پردازش انجام میشود. |
شبکه عصبی برگشتی [15] | ترکیبی از 3 گره ورودی ، 10 گره پنهان 10 گام زمانی و نرخ یادگیری 0.01 برای پیشبینی مصرف پردازنده و ترکیبی از 5 گره ورودی ، 10 گره پنهان 10 گام زمانی و نرخ یادگیری 0.005 برای پیش بینی رم | مجموعه داده خوشه گوگل | خطای جذر میانگین | مناسب برای پردازش دادههای سری زمانی | محوشدگی و انفجار گرادیان | استفاده از شبکه عصبی واحد برگشتی دروازهدار در معماری مدل پیشنهادی قادر به حل چالش محو شدگی گرادیان در مواجه با دادههای دارای توالی میباشد. |
شبکه عصبی حافظه طولانی کوتاهمدت و مکانیسم توجه [16] | مدل شامل یک شبکه رمزگذار و یک شبکه رمزگشایی مبتنی بر شبکه عصبی حافظه کوتاهمدت طولاني با 64 واحد پنهان و یک بردار زمینه میباشد. | مجموعه داده علیبابا | خطای جذر میانگین مربعات | بهبود دقت پیشبینی | افزایش پیچیدگی محاسباتی | استفاده از تعداد لایههای کم در معماری مدل پیشنهادی موجب کاهش پیچیدگی محاسباتی میشود. |
شبکه عصبی حافظه کوتاهمدت طولاني[8] | استفاده پردازنده ماشینهای مجازی به مدت 7 روز به عنوان مجموعه آموزش. برای پیشبینی حجم کار تنها 2880 فواصل زمانی وجود دارد که 70٪ برای آموزش و 30٪ برای آزمایش استفاده میشود. | مجموعه داده پلنتلب | خطای میانگین مطلق | حل مشکل محوشدگی و انفجار گرادیان | ضعف در استخراج ویژگی محلی | شبکه عصبی پیچشی در معماری مدل پیشنهادی قادر به استخراج ویژگیهای محلی خواهد بود. |
شبکه عصبی حافظه طولانی کوتاهمدت و اتورگرسیو[17]
| از مدل اتورگرسیو برای فیلتر کردن وابستگیهای خطی در بین سریهای زمانی چند متغیره استفاده میشود بعد از آن از یک شبکه عصبی حافظه کوتاهمدت طولاني انباشته با ۱۰۰ بلوک (یا نورون) و تابع فعالسازی ریلو استفاده شده است | 1750 ماشین مجازی در یک مرکز داده توزیع شده | خطای میانگین مطلق و خطای جذر میانگین | فیلتر کردن وابستگیهای خطی در بین سریهای زمانی چند متغیره | قابلیت تعمیم پایین | مدل پیشنهادی با استفاده از تکنیک حذف تصادفی قابلیت تعمیم بالایی دارد. |
اسپارس اتوانکدر و واحد برگشتي دروازهدار [18] | اسپارس اتوانکدر برای فشردهسازی ابعاد دادههای ورودی و واحد برگشتی دروازهدار برای پیشبینی بار کاری استفاده میشود. معیارهای اساسی مرتبط با پیشبینی ، از جمله شناسه ماشین مجازی، زمان شروع، استفاده از پردازنده، میزان حافظه، استخراج میشود. ۵۰ % از نمونهها برای آموزش، ۲۵ % برای اعتبار سنجی و ۲۵ % برای تست هستند. همچنین تعداد دورههای آموزشی ۱۰۰ و نرخ یادگیری۰.۰۳ میباشد. | مجموعه داده علیبابا و خوشه گوگل | خطای میانگین مربعات | قابلیت تعمیم و پایداری بالا | افزایش پیچیدگی محاسباتی | استفاده از تعداد لایههای کم در معماری مدل پیشنهادی موجب کاهش پیچیدگی محاسباتی میشود. |
شبکه عصبی پیچشی و حافظه طولاني کوتاه مدت[19] | میزان استفاده از پردازنده و رم توسط شبکه عصبی پیچشی استخراج میشود و در ادامه از دو لایه شبکه عصبی حافظه طولانی کوتاهمدت برای پیشبینی حالت بعدی استفاده شده است. همچنین و برای مقابله با بیشبرازش، از تکنیک دراپاوت استفاده شد. | مجموعه داده خوشه گوگل | خطای جذر میانگین | مناسب برای پردازش توالیهای طولانی | افزایش تعداد پارامترها و افزایش زمان آموزش مدل | تعداد لایههای کمتر باعث کاهش تعداد پارامترها و در نتیجه کاهش زمان آموزش شده است. |
شبکه عصبی مولد متخاصم[20] | یک پشته از شبکه عصبی حافظه طولانی کوتاهمدت به عنوان مولد و یک شبکه پیچشی چند لایه و دو لایه کاملاً متصل نیز به عنوان تشخیص دهنده در معماری پیشنهادی است. | مجموعه داده پلنتلب | خطای میانگین مربعات | افزایش دقت پیشبینی برای دادههای دارای توالی | افزایش تعداد لایهها و در نتیجه افزایش زمان آموزش | تعداد لایههای کمتر باعث کاهش تعداد پارامترها و در نتیجه کاهش زمان آموزش شده است. |
حافظه طولانی کوتاهمدت[21] | یک لایه حافظه طولانی کوتاهمدت شبکهای که در وسط دو لایه حافظه طولانی کوتاهمدت دو طرفه قرار دارد. بعد از آن، خروجی آن از طریق یک لایه تمام متصل برای تولید خروجی نهایی عبور میکند. | مجموعه داده خوشه گوگل | خطای میانگین مربعات | مناسب برای پردازش توالیهای طولانی | زمان آموزش طولانی | تعداد لایههای کمتر باعث کاهش تعداد پارامترها و در نتیجه کاهش زمان آموزش شده است. |
شبکه عصبی مصنوعی و ماشین بردار پشتیبان[22] | پردازش ویژگی سه فاکتور کلیدی را در محدوده تعریفشده مانند مصرف پردازنده، ظرفیت حافظه و دیسک تخمین میزند و متناسب با هر ورودی یک برچسب برای 3 فاکتور نامبرده در نظر گرفته میشود و برچسبها بر اساس یک آستانه از پیش تعریف شده اختصاص مییابند. | ماشینهای مجازی آزور | دقت | افزایش دقت طبقهبندی | انتخاب ویژگی با این روش مستلزم افزایش زمان و هزینه است | استفاده از دو تکنیک ژرف موجب انتخاب ویژگی به صورت اتوماتیک هستند. |
3. روش پیشنهادی
در این بخش از مقاله روش پیشنهادی تشریح خواهد شد که شامل مراحل پیشپردازش، ساخت مدل دستهبندی پیشنهادی و آموزش مدل خواهد بود. شکل (3) دیاگرام کلی روش پیشنهادی را نشان میدهد.
شکل 3. دیاگرام کلی روش پیشنهادی |
مراحل نشان داده شده در دیاگرام فوق در زیر بخش های بعدی تشریج خواهند شد.
1.3. پیشپردازش
مراحل پیشپردازش در پژوهش حاضر شامل مراحل زیر است:
پاکسازی داده: با توجه به اینکه اطلاعات مربوط به ماشین مجازی در یک بازه زمانی مشخص از یک یا چند مرکز داده جمعآوری میشوند بنابراین ریسک جمعآوری داده ناقص بالا میرود. همچنین ممکن است برخی از نمونهها بهدرستی برچسبگذاری نشده باشند؛ بنابراین در این پژوهش بهمنظور پاکسازی داده مجموعه رکوردهایی که دارای برچسبهای ناشناخته هستند از مجموعه داده حذف میشوند تا روند پیشبینی را دچار اخلال نکنند.
متوازنسازی داده: در این پژوهش بهمنظور مقابله با عدم توازن نمونهها در کلاسهای مختلف، از تکنیک افزایش تصادفی نمونههای کلاس اقلیت استفاده میشود. مزیت این روش نسبت به روش کاهش تصادفی نمونههای کلاس اکثریت21 این است که در این روش نمونههای ارزشمند حذف نمیشوند. همچنین نسبت به روشهای دیگر مانند حساس به هزینه22 سریعتر اجرا میشوند[27, 28]. با توجه به اینکه در استفاده از تکنیکهای یادگیری ژرف، تعداد نمونههای بیشتر تأثیر مثبت در آموزش مدل دارد، افزایش نمونهها در کلاس اقلیت میتواند عملکرد آموزش مدل را بهبود دهد[29].
تبدیل ویژگی: ویژگیهای در نظر گرفته شده برای ماشینهای مجازی میتوانند از نوع اسمی باشند. بنابراین در مقاله حاضر بهمنظور تبدیل ویژگیهای با نوع اسمی به ویژگیهای عددی از روش کدبندی برچسب23 استفادهشده است. روش کدبندی برچسب به تبدیل ویژگیها به فرم قابلفهم برای الگوریتمهای یادگیری ماشین و شبکه عصبی اطلاق میشود. این روش برای هر مقداری عددی با شروع از صفر تا 1n- در نظر میگیرد[30]. علت انتخاب این روش در این پژوهش این است که کدبندی برچسب ابعاد مجموعه داده پس از اعمال تغییر نمیکند.
انبوهش داده24: انبوهش داده نیز یک مرحله از پیشپردازش داده است که شامل عملیاتی است که بتوان در پی آن از ترکیب دو یا چند ویژگی، ویژگی جدیدی ایجاد کرد. این ویژگی جدید باید بتواند در کنار سایر ویژگیهای پیشین اطلاعات موجود در یک مجموعه داده را مؤثرتر و کاملتر از ویژگیهای اولیه نشان دهد[31]. یکی از اهداف انبوهش داده در این پژوهش کاهش تعداد ویژگیها است. علت انتخاب مرحله انبوهش داده در این پژوهش علاوه بر کاهش بعد این است که درواقع با انبوهش داده ارزش ویژگیها بیشتر خواهد شد. همچنین با انبوهش داده، دادههای پایدارتری وجود خواهد داشت.
نرمالسازی: در این مقاله از روش نرمالسازی حداقل-حداکثر25 برای نرمالسازی دادههای ورودی استفاده میشود. این روش یک تبدیل خطی بر روی مجموعه دادههای اصلی انجام میدهد و همچنین رابطه بین مقادیر دادههای اصلی را حفظ میکند. با توجه به اینکه همبستگی بین دادهها و روابط بین متغیرهای مستقل در پیشبینی مؤثر است، بنابراین از این روش نرمالسازی در این پژوهش استفادهشده است. رابطه (1) فرمول این نرمالسازی را نشان میدهد:
(1) | ՛= |
در رابطه فوق Min(A) و Max(A) به ترتیب حداقل و حداکثر مقدار یک ویژگی و x برابر با مقدار ویژگی فعلی میباشند.
خروجی مرحله پیشپردازش داده، شامل دادهای است که رکوردهایی با برچسب ناشناخته از آن حذف شده است، ویژگیهای موجود به منظور ایجاد ویژگی جدید با هم ترکیب شدهاند، ویژگیهایی که به صورت رشته بودند به فرم عددی تبدیل شدند. همچنین تعداد نمونههای دو کلاس با تکنیک متوازنسازی بیان شده برابر است و درنهایت مقادیر متعیرها بین صفر و یک نرمال شدهاند.
2.3. مدل دستهبند26 پیشنهادی
مدل ارائهشده در این مقاله شامل شبکه عصبی پیچشی و واحد برگشتی دروازهدار است. همانطور که در شکل (3) نشان داده شد، بعد از مراحل پیشپردازش، در فرایند یادگیری ابتدا از شبکه عصبی پیچشی استفاده میشود. این شبکه متشکل لایه پیچشی و ادغام بیشینه27 میباشد. لایه پیچشی از 64 فیلتر با اندازه 3 تشکیلشده است که با ضرب داخلی در ورودی، نقشههای ویژگی28 را میسازند. عناصر فیلترها درواقع وزنهای شبکه عصبی میباشد واضح است که خروجی حاصل از شبکه پیچشی 64 نگاشت ویژگی میباشد. مقادیر خروجی از لایه پیچشی باید از تابع فعالسازی غیرخطی ریلو عبور کنند. در غیر این صورت شبکه قادر به یادگیری الگوهای غیرخطی موجود در دادهها نخواهد بود. استراتژی ادغام بیشینه پس از لایه پیچشی و باهدف کاهش اندازه نقشههای ویژگی به کار ميرود و میتواند باعث انتخاب ویژگیهای نامتغیر و با ارزش بیشتر شود. نتایج بهدستآمده از لایه پیچشی و لایه ادغام توسط لایه صاف29 تبدیل به بردار یکبعدی خواهند شد. با توجه به اینکه دادههای مربوط به اطلاعات ماشین مجازی در یک بازه زمانی مشخص و با یک توالی منظم جمعآوریشدهاند؛ بنابراین برای استخراج ویژگیهای بلندمدت به واحد برگشتی دروازهدار ارسال میشوند. جزییات مدل پیشنهادی در شکل (4) آمده است. همانطور که در شکل (4) نشان داده شد. خروجی شبکه عصبی پیچشی بهعنوان ورودی واحد برگشتی دروازهدار در نظر گرفته میشود زیرا شبکه عصبی پیچشی در استخراج وابستگیهای بلندمدت عملکرد ضعیفی دارد. البته میتوان شبکه عصبی پیچشی را با افزایش تعداد لایهها برای دادههای سری زمانی به کار برد اما این کار موجب افزایش هزینه محاسباتی خواهد شد[8, 32]. از طرفی واحد برگشتی دروازهدار قادر به حل این مشکل میباشد. همچنین وجود دروازههای بازنشانی30 و بهروزرسانی31 در معماری این شبکه مشکلات مربوط به شبکه عصبی برگشتی مانند محوشدگی و انفجار گرادیان را حل میکند و نسبت به شبکه عصبی حافظه طولانی کوتاهمدت دارای پارامترهای کمتری برای آموزش است[32].
داده ورودی |
فیلتر |
نگاشت ویژگی |
ادغام بیشینه |
تبدیل به بردار |
دراپ اوت |
X‹1› |
X |
سافتمکس |
X‹2› |
X‹n› |
واحد دروازهدار برگشتی |
لایه تمام متصل |
شکل4. جزییات مدل پیشنهادی |
معماری واحد برگشتی دروازهدار در شکل (5) آمده است. دروازههای بازنشانی و بهروزرسانی در اصل دو بردارند که با استفاده از آنها تصمیم گرفته میشود چه اطلاعاتی به خروجی منتقلشده و چه اطلاعاتی منتقل نشود[33]. نکته خاص درباره این دروازهها این است که این دروازهها را میتوان آموزش داد تا اطلاعات مربوط به گامهای زمانی قبل را بدون آنکه در طی گامهای زمانی مختلف دستخوش تغییر شوند، حفظ کند. دروازه بهروزرسانی وظیفه کنترل جریان اطلاعات جدید را بر عهده دارد. این دروازه مشخص میکند آیا در گام زمانی فعلی باید از اطلاعات جدید مورداستفاده قرار گیرد یا خیر و اگر بلی به چه میزان. دروازه بازنشانی نیز مشخص میکند چه میزان از اطلاعات گام زمانی قبل با اطلاعات گام زمانی فعلی به گام زمانی بعد منتقل شود. بهطور دقیقتر با صفر بودن این سویچ این دروازه در عمل شبکه را وادار میکند بهگونهای عمل کند که گویا در حال خواندن اولین بخش از دنباله ورودی است و اینطور شبکه را قادر به فراموشی حالت محاسبهشده قبلی میکند و به همین صورت میتواند با فاصله گرفتن از صفر، حالت مابینی را فراهم آورد وجود این دروازهها به این شکل است که مکانیسم کنترلی بسیار دقیقی را ایجاد میکند. این مکانیسم کنترلی توسط تابع فعالساز سیگموید است که مقدار 0 یا 1 برمیگرداند و تصمیم میگیرد حافظه قبلی چقدر به ورودی جاری مربوط میشود و بر اساس ورودی میتواند تصمیم بگیرد[34].
شكل 5 . معماری کلی واحد برگشتی دروازه دار
با توجه به شکل(5) ورودی مرحله فعلی با c<t-1> نشان دادهشده است که خروجی واحد قبلی نیز میباشد همچنین خروجی واحد فعلی که ورودی واحد بعدی نیز هست با c<t> نمایش دادهشده است. در این شکل x<t> ورودی و yˆ<t> بهعنوان خروجی برای این واحد است. Γu و Γr به ترتیب دروازه بهروزرسانی و دروازه بازنشانی هستند و مقدار آنها توسط رابطه (2) و (3) محاسبه میشود. c˜<t> کاندید وضعیت پنهان است که مشابه شبکه عصبی برگشتی سنتی در رابطه (4) محاسبه میشود و c<t> نیز از رابطه(5) به دست میآید.
(2) | Γu=σ(Wu[c〈t-1〉,x〈t〉] + bu) |
(3) | Γr=σ(Wr[c〈t-1〉,x〈t〉] + br) |
(4) | c˜<t>=tanh(Wc[Γr*c〈t-1〉,x〈t〉] + bc) |
(5) | c<t>=(1–Γu) * c<t–1> + Γu * c˜<t> |
در روابط فوق (bc، br،bu) برابر بایاس، σ و tanh به ترتیب توابع فعالسازی سیگمویید و تانژانت هایپربولیک هستند و (Wu، Wr، Wc) ماتریس وزن دهی را نشان میدهند. در ادامه بهمنظور جلوگیری از بیش برازش32 از تکنیک حذف تصادفی (دراپاوت)33 استفاده میشود[7, 35]. نتایج بهدستآمده از لایههای قبل را میتوان با محاسبه مقدار تمام نورونها در لایههای به هم متصل بهطور کامل به دست آورد. در قسمت آخر از تابع دستهبند سافتمکس برای احتمال تعلق به کلاس استفاده خواهد شد. سافتمکس بهعنوان یک تابع فعالساز غیرخطی در لایهی خروجی شبکه عصبی و برای مشکلات مربوط به دستهبندی استفاده میشوند[36]. خروجیهای این تابع بهگونهای نرمالسازی شدهاند که مجموع آنها عدد یک باشد و مطابق رابطه (6) محاسبه میشود:
(6) | P(Y=k|X=xi)=esk / ∑ jesj |
در رابطه فوق s بهعنوان ورودی k بعدی از اعداد حقیقی است. esk تابعنمایی استاندارد برای هر عنصر از بردار ورودی اعمال میشود. مخرج کسر در رابطه فوق تضمین میکند که تمام مقادیر خروجی تابع به 1 برسد و هر یک در محدوده صفر و یک باشند. برای ادامه باید امتیاز کلاس درست بیشینه شود. برای این کار میتوان لگاریتم آن را بیشینه کرد و برای کمینه کردن تابع هزینه میتوان لگاریتم را در یک منفی ضرب کرد. مطابق رابطه (7):
(7) | Li=-log )es yi / ∑ jesj ( |
فرآیند آموزش مدل روی مجموعه داده آموزشی در شکل (6) نشان دادهشده است. ابتدا داده آموزشی بهعنوان ورودی وارد میشوند. وزنهای اولیه با مقادیر تصادفی مقداردهی میشوند. در فرآیند پیشخور34، وزنها توسط هر نورون در داده ورودی ضرب شده و با مقادیر بایاس جمع میشوند. در مراحل آموزش، مقدار پارامترها که شامل وزن و بایاس است توسط شبکه در عملیات پس انتشار35 تنظیم خواهد شد تا وزن بهینه به دست بیاید. بدینصورت که بعد از هر ایپوک در فرآیند آموزش اختلاف مقادیر واقعی و مقادیر پیشبینیشده بهعنوان تابع خطا36 در نظر گرفته میشود، گرادیان تابع خطا نسبت به وزن محاسبه میشود و در ایپوک بعدی وزنها بهگونهای بهروزرسانی میشوند که مقدار تابع خطا کمینه شود. به تعداد ایپوکهای در نظر گرفتهشده مراحل فوق تکرار خواهند شد و زمانی که در نتایج تغییر قابلتوجهی حاصل نشود مدل به همگرایی رسیده است.
شکل 5. فلوچارت آموزش مدل |
4. آزمایشها
در این بخش ابتدا مجموعه داده، معیار ارزیابی، نیازهای سختافزاری و نرمافزاری موردنیاز معرفی میشود و بعدازآن به توصیف آزمایشها پرداخته خواهد شد.
1.4. مجموعه داده
مجموعه داده برچسب دار شامل اطلاعات مربوط بهتمامی ماشینهای مجازی مایکروسافت آزور است37 که به مدت 3 ماه از تاریخ 16 نوامبر 2016 تا 16 فوریه 2017 جمعآوریشده است[37]. توصیفی مجموعه داده آزور در جدول (2) آمده است.
جدول 2. توصیف مجموعه داده عمومی آزور
ردیف | مشخصات مجموعه داده | تشریح |
1 | نوع ذخیرهسازی مجموعه داده | رکوردی (ماتریسی) |
2 | ابعاد مجموعه داده | دوبعدی |
3 | تعداد سطر (تعداد نمونهها) | 1048578 |
4 | تعداد ستون (تعداد ویژگیها) | 10 ستون ویژگی و یک ستون برچسب |
5 | نوع ویژگی | اسمی (بهصورت رشته) و عددی |
6 | داده مفقود | ندارد |
7 | برچسب ناشناخته | دارد |
8 | تعداد برچسبها | 2 |
9 | توزیع نمونهها در کلاس | نامتوازن |
10 | فرمت ذخیرهسازی | csv |
ماشینهای مجازی آزور بهمنظور ارائه خدمات به دو گروه زیرساخت بهعنوان سرویس38 و پلت فرم بهعنوان سرویس39 تقسیمبندی میشوند و حجم کار بین این دو گروه ماشین مجازی تعریف میشود. بر این اساس حجم کار ماشینهای مجازی آزور در گروه اول 52 درصد و حجمکار گروه دوم 48 درصد بر اساس شمارش تعداد ماشینهای مجازی میباشد[37]. تعداد ماشینهای مجازی گروه اول کمی بیشتر از گروه دوم است، درحالیکه ماشینهای مجازی گروه دوم مصرف منابع را با تقریباً ۶۱ درصد از کل ساعات اصلی کنترل میکند. بهمنظور استفاده از خدمات و سرویسهای آزور کاربران میتوانند یک یا چند اشتراک ایجاد کنند و ماشینهای مجازی را در یک ناحیه انتخابی مستقر کنند. تمام ماشینهای مجازی در یک استقرار دریک خوشه انتخابی در یک ناحیه (میتواند شامل یک یا چند مرکز داده باشد) یعنی مجموعه بزرگی از سرورهایی که در آن استقرار برای جابهجایی نیاز دارند اجرا میشوند. استقرار ممکن است قبل از پایان یافتن آن بر اساس درخواست کاربران بزرگ یا کوچک شود[37]. در این مجموعه داده برای هر ماشین مجازی ویژگیهایی در نظر گرفتهشده است. این مجموعه داده شامل 10 ستون ویژگی و یک ستون برچسب داده است. معرفی و تشریح ویژگیهای مجموعه داده آزور در جدول (3) آمده است.
جدول3. ویژگی های ماشین مجازی در مجموعه داده آزور
ردیف | ویژگی | نوع | تشریح |
1 | شناسه ماشین مجازی | رشته | مرجع شناسایی منحصربهفرد مربوط به هر ماشین مجازی موجود در آزور میباشد |
2 | شناسه اشتراک | رشته | مرجع شناسایی برای هر اشتراک آزور است و هر اشتراک میتواند تعدادی ماشین مجازی با توجه به اهداف خود در اختیار داشته باشد |
3 | شناسه استقرار | رشته | یک مرجع شناسایی منحصربهفرد برای ماشین مجازی در یک خوشه انتخابی در یک ناحیه |
4 | زمانسنج ایجاد ماشین مجازی | عددی | زمانی که ماشین مجازی برای اولین بار شروع به کار میکند |
5 | زمانسنج حذف ماشین مجازی | عددی | زمانی که کار ماشین مجازی خاتمه مییابد |
6 | حداقل استفاده از پردازنده | عددی | اندازهگیریهای مصرفی مربوط به فواصل ۵ دقیقهای هستند |
7 | میانگین استفاده از پردازنده | عددی | اندازهگیریهای مصرفی مربوط به فواصل ۵ دقیقهای هستند |
8 | حداکثر استفاده از پردازنده | عددی | اندازهگیریهای مصرفی مربوط به فواصل ۵ دقیقهای هستند |
9 | شمارنده هسته مجازی ماشین مجازی | عددی | شامل تعداد هستههای ماشین مجازی میباشد |
10 | حافظه ماشین مجازی | عددی | حافظه ماشین مجازی برحسب گیگابایت محاسبه میشود |
ماشینهای مجازی در این مجموعه داده میتوانند در دو کلاس حجم کار قرار بگیرند. این دو کلاس عبارتاند از کلاس حساس به تأخیر (تعاملی) و کلاس غیر حساس به تأخیر. کلاس تعاملی در مورد تخصیص ماشین مجازی به اجرای برنامههایی است که حساس به تأخیر هستند و به زمان پاسخگویی کم و کارایی بالا نیاز دارند. نمونههایی از این نوع برنامهها شامل برنامههای بازی آنلاین است که از دادههای زمان واقعی، پخش فیلم و برنامههای وب استفاده میکنند. کلاس غیر حساس به تأخیر عموماً برای اجرای برنامههایی که نسبت به تداخل حساس نیستند در نظر گرفته میشود. نمونههایی از این نوع بارهای کاری شامل بارهای کاری دستهای مانند پردازش دادههای مالی برای اتوماسیون کردن یک شرکت است. تعدادی از نمونههای این مجموعه داده نیز دارای برچسب ناشناخته هستند. دو کلاس حجم کار بر اساس تجزیهوتحلیل سریهای زمانی متوسط استفاده از پردازنده در یک دوره 3 روزه و با استفاده از الگوریتم تبدیل سریع فوریه بهمنظور پیشبینی حجم کار ماشینهای مجازی برچسب زده میشوند. الگوریتم تبدیل سریع فوریه با توجه به اینکه میتواند تناوبی را در مقیاسهای زمانی مختلف تشخیص دهد بهعنوان یک الگوریتم ایده آل برای مشخص کردن حجم کار ماشینهای مجازی در نظر گرفته میشود.
در این مجموعه داده میزان استفاده از پردازنده در فواصل زمانی 5 دقیقه یکبار اندازهگیری شده است با توجه به فواصل زمانی تعریفشده و بر اساس توزیع تجمعی40 برای متوسط و حداکثر استفاده از پردازنده، 60 درصد از ماشینهای مجازی دارای متوسط استفاده از پردازنده و 40 درصد از ماشینهای مجازی دارای حداکثر استفاده از پردازنده میباشند. بر این اساس میزان استفاده از پردازنده در درصد زیادی از ماشینهای مجازی کم است، بهخصوص برای بار کاری گروه اول یعنی ماشینهای مجازی که برای خدمات زیرساخت بهعنوان سرویس هستند. یکی از دلایلی که استفاده واقعی از پردازنده گروه اول کم است، مربوط به ماشینهای مجازی میباشد که برای آزمایش عملکرد و مقیاسپذیری مورداستفاده قرار میگیرند. بهطور مثال ماشینهای مجازی که ایجاد میشوند اما بدون انجام هیچ کار واقعی بهسرعت از بین میروند. در این مجموعه داده 15 درصد از ماشینهای مجازی برای آزماش عملکرد و مقیاسپذیری مورداستفاده قرار گرفتند که این ماشینها متعلق به گروه اول میباشند. با توجه به موارد فوق تجزیهوتحلیل تناوبی، ماشینهای مجازی را که بهاندازه کافی طولانی کار میکنند و حداکثر استفاده از پردازنده رادارند، هدف قرار میدهد تا یک الگوی قابلاعتماد در مدتزمان موردنظر(حداقل 3 روز) را شناسایی کند. یک نمونه از ماشین مجازی در کلاس حساس به تاخیر و یک نمونه از ماشین مجازی متعلق به کلاس غیر حساس به تاخیر در جدول (4) آمده است.
جدول4. مشخصات نمونهها برای هر دو کلاس موجود
ردیف | ویژگی | کلاس حساس به تاخیر | کلاس غیر حساس به تاخیر |
1 | شناسه ماشین مجازی | H5CxmMoVcZSpjgGbohnVA3R+7uCTe/hM2ht2uIYi3t7KwX | x/XsOfHO4ocsV99i4NluqKDuxctW2MMVmwqOPAlg4wp8m |
2 | شناسه اشتراک | BSXOcywx8pUU0DueDo6UMol1YzR6tn47KLEKaoXp0a | VDU4C8cqdr+ORcqquwMRcsBA2l0SC6lCPys0wdg |
3 | شناسه استقرار | 3J17LcV4gXjFat62qhVFRfoiWArHnY763HVqqI6orJCfV8 | Pc2VLB8aDxK2DCC96itq4vW/zVDp4wioAUiB3Ho |
4 | زمانسنج ایجاد ماشین مجازی | 0 | 0 |
5 | زمانسنج حذف ماشین مجازی (بر حسب ثانیه) | 1539300 | 2591700 |
6 | حداقل استفاده از پردازنده | 981360/33 | 194309/10 |
7 | میانگین استفاده از پردازنده | 181784/6 | 424094/3 |
8 | حداکثر استفاده از پردازنده | 000000/100 | 369869/99 |
9 | شمارنده هسته مجازی ماشین مجازی | 1 | 1 |
10 | حافظه ماشین مجازی (بر حسب گیگابایت) | 75/. | 75/1 |
2.4. معیار ارزیابی
بهمنظور ارزیابی مدل پیشنهادی از معیار ارزیابی دقت41، صحت42 و فراخوانی43 استفاده میشود و به ترتیب مطابق رابطه (8)، (9) و (10) محاسبه میشوند:
|
(9) |
|
(10)
در روابط فوق TP و TN به ترتیب نمونههای مثبت و منفی هستند که درست طبقهبندی شدهاند. همچنین FP و FN به ترتیب نمونههای مثبت و منفی هستند که نادرست طبقهبندی شدهاند. همچنین به منظور پیشبینی میزان مصرف پردازنده از معیار خطای جذر میانگین مربعات استفاده شده است که از رابطه (11) محاسبه میشود:
(11) |
|
ابر پارامتر | مقدار |
نوع شبکه عصبی | شبکه عصبی پیچشی و واحد برگشتی دروازهدار |
تابع دستهبند | سافتمکس |
تابع فعالسازی | ریلو |
تعداد فیلتر | 64 |
اندازه کرنل | 3 |
اندازه پولینگ | 2 |
تعداد واحد برگشتی دروازهدار | 64 |
تعداد نورونهای لایه تمام متصل | 128 |
اندازه دستهها | 64 |
نرخ دراپاوت | 3/0 |
تعداد دوره (ایپوک) | 100 |
بهینهسازی وزنها | آدام46 |
نرخ یادگیری | 01/0 |
تابع خطا | آنتروپی متقابل47 |
5.4. نتایج پیادهسازی
اجرای فرآیند آموزش مدل بر روی مجموعه داده آموزشی طی 100 گام انجام میشود. تعداد نمونههای آموزشی 519866 و تعداد نمونههای اعتبار سنجی 57763 میباشد. نمودار همگرایی مدل روی داده آموزش و اعتبارسنجی بر اساس دقت در شکل (11) و بر اساس خطا در شکل (12) نشان دادهشده است. استفاده از تکنیک حذف تصادفی از بیشبرازش مدل جلوگیری کرده است و بیشرین میزان دقت بر روی دادههای اعتبارسنجی در ایپوک 84 اتفاق افتاده است.
شکل 10. نمودار همگرایی مدل بر اساس دقت
شکل 11. نمودار همگرایی مدل بر اساس خطا
ماتریس آشفتگی برای دو کلاس تعاملی (حساس به تأخیر) و غیر حساس به تأخیر در شکل (13) آمده است.
شکل 12. ماتریس آشفتگی برای طبقهبندی دو کلاس
تعداد192543 نمونه به عنوان مجموعه آزمایش در نظر گرفته شده است. با توجه به ماتریش آشفتگی، تعداد 86055 نمونه در کلاس غیر حساس به تأخیر و همچنین تعداد 95747 نمونه در کلاس تعاملی(حساس به تأخیر)، توسط مدل درست تشخیص داده شدهاند. تعداد 10543 نمونه موجود در کلاس غیر حساس به تأخیر توسط مدل در کلاس تعاملی و به صورت مشابه تعداد 198 نمونه متعلق به کلاس تعاملی در کلاس غیر حساس به تأخیر بر اساس پیشبینی مدل دستهبندی شده است. میزان دقت بر اساس مدل پیشنهادی و با استفاده از تکنیک افزایش تصادفی نمونهها در کلاس اقلیت، برابر 79/94 میباشد. همچنین این مقدار با استفاده از تکنیک کاهش تصادفی نمونهها در کلاس اکثریت و حالتی که نمونهها به صورت نامتوازن در مجموعه داده وجود داشتند مقایسه شده است. جدول (6) میزان دقت برحسب درصد را برای مدل پیشنهادی و سایر مدلها نشان میدهد.
جدول 6. مقایسه میزان دقت برحسب درصد
ردیف | نام مدل | میزان دقت برحسب درصد |
1 | لجستیک رگرسیون[13] | 44/70 |
2 | ماشین بردار پشتیبان[14] | 34/72 |
3 | شبکه عصبی مصنوعی[38] | 06/84 |
4 | شبکه عصبی پیچشی[39] | 89/91 |
5 | شبکه عصبی برگشتی[16] | 88/92 |
6
| مدل پیشنهادی+ کاهش نمونههای کلاس اکثریت | 76/92
|
مدل پیشنهادی+ بدون متوازن سازی | 16/93 | |
مدل پیشنهادی+ افزایش نمونههای کلاس اقلیت | 42/94 |
همچنین جدول (7) میزان صحت و جدول (8) میزان فراخوانی را برای مدل پیشنهادی و سایر مدلها نشان میدهد.
جدول 7. مقایسه میزان صحت برای هر دو کلاس
ردیف | نام مدل | میزان صحت | |
تعاملی | غیر حساس به تأخیر | ||
1 | لجستیک رگرسیون[13] | 68/0 | 81/0 |
2 | ماشین بردار پشتیبان[14] | 64/0 | 89/0 |
3 | شبکه عصبی مصنوعی[38] | 71/0 | 79/0 |
4 | شبکه عصبی پیچشی[39] | 80/0 | 92/0 |
5 | شبکه عصبی برگشتی[16] | 84/0 | 93/0 |
6 | مدل پیشنهادی+ کاهش نمونههای کلاس اکثریت |
87/0 |
96/0 |
مدل پیشنهادی+ بدون متوازنسازی | 64/0 | 95/0 | |
مدل پیشنهادی+ افزایش نمونههای کلاس اقلیت |
88/0 |
97/0 |
جدول 8. مقایسه میزان فراخوانی برای هر دو کلاس
ردیف | نام مدل | میزان فراخوانی | |
تعاملی | غیر حساس به تأخیر | ||
1 | لجستیک رگرسیون[13] | 85/0 | 59/0 |
2 | ماشین بردار پشتیبان[14] | 94/0 | 46/0 |
3 | شبکه عصبی مصنوعی[38] | 83/0 | 64/0 |
4 | شبکه عصبی پیچشی[39] | 84/0 | 84/0 |
5 | شبکه عصبی برگشتی[16] | 93/0 | 86/0 |
6
| مدل پیشنهادی+ کاهش نمونههای کلاس اکثریت |
96/0 |
86/0 |
مدل پیشنهادی+ بدون متوازنسازی | 64/0 | 95/0 | |
مدل پیشنهادی+ افزایش نمونههای کلاس اقلیت |
98/0 |
96/0 |
به منظور ارائه تحلیل بهتری از پیچیدگی مدل پیشنهادی، تعداد دورهها، تعداد پارامترهای قابل آموزش و زمان آموزش برای مدل پیشنهادی و سایر مدلها در جدول (9) نشان داده شده است.
جدول 9. مقایسه دوره آموزش، مدت زمان اجرا و تعداد پارامترهای قابل آموزش
ردیف | نام مدل | ایپوک | پارامتر مدل | زمان آموزش (ثانیه) |
1 | شبکه عصبی مصنوعی | 100 | 16896 | 31/588 |
2 | شبکه عصبی پیچشی | 100 | 17154 | 52/946 |
3 | شبکه عصبی برگشتی | 100 | 20960 | 14/967 |
4 | (شبکه عصبی پیچشی + حافظه کوتاه مدت طولانی) | 100 | 33410 | 43/1702 |
5 | مدل پیشنهادی
| 100 | 25346 | 87/1577 |
همچنین به منظور مقایسه دقیقتر بار کاری ماشینهای مجازی در مجموعه داده مایکروسافت آزور، پیشبینی میزان مصرف پردازنده مرکزی با استفاده از مدل پیشنهادی و سایر مدلهای مبتنی بر رگرسیون مورد بررسی قرار گرفت. شکل (14) پیشبینی کمترین میزان مصرف پردازنده مرکزی را نشان میدهد. همانطور که در شکل (14) نشان داده شده است کمترین میزان مصرف پردازنده با استفاده از مدل پیشنهادی به خوبی پیشبینی شده است و دارای خطای کمی در داده آزمایش است. (15) نیز نشاندهنده پیشبینی بیشترین میزان مصرف پردازنده مرکزی است. مدل پیشنهادی در پیشبینی بیشترین میزان مصرف پردازنده مرکزی عملکرد ضعیفی دارد.
شکل 14. پیشبینی کمترین میزان مصرف پردازنده مرکزی با استفاده از مدل پیشنهادی
شکل 15. پیشبینی بیشترین میزان مصرف پردازنده مرکزی با استفاده از مدل پیشنهادی
همچنین شکل (16) پیشبینی میانگین مصرف پردازنده مرکزی را با استفاده از مدل پیشنهادی در گامهای زمانی متفاوت بر روی مجموعه داده آموزش و آزمایش نشان میدهد.
شکل 16. پیشبینی میانگین میزان مصرف پردازنده مرکزی با استفاده از مدل پیشنهادی
با توجه به اینکه در مطالعات پیشین پیشبینی میانگین میزان مصرف پردازنده مرکزی به عنوان معیاری برای ارزیابی عملکرد مدلهای پیشنهاد شده مورد بررسی قرار گرفته است[13]، بنابراین در این مقاله برای مقایسه دقیقتر بین مدلهای مبتنی بر رگرسیون و مدل پیشنهادی از میانگین میزان مصرف پردازنده مرکزی استفاده میشود. مقایسه میزان خطای جذر میانگین مربعات به منظور پیشبینی میانگین میزان مصرف پردازنده برای مدلهای مبتنی بر رگرسون و مدل پیشنهادی در جدول (10) نشان داده شده است.
جدول 10. میزان خطای جذر میانگین مربعات برای مدلهای مبتنی بر رگرسون و مدل پیشنهادی
ردیف | نام مدل | میزان خطای جذر میانگین مربعات |
1 | رگرسیون خطی | 38/14 |
2 | رگرسیون لاسو | 37/14 |
3 | رگرسیون سهتیغی | 64/14 |
4 | رگرسیون بردار پشتیبان | 32/15 |
5 | مدل پیشنهادی | 73/3 |
6.4. بحث
معیارهای اندازهگیری نشاندهنده برتری مدل پیشنهادی نسبت به مدلهای دیگر میباشد. در بیان برتری مدل پیشنهادی میتوان به موارد زیر اشاره کرد:
1) استفاده از تکنیک افزایش تصادفی نمونه ها در کلاس اقلیت بهمنظور مقابله با عدم توازن در مجموعه داده، موجب عملکرد بهتر در طبقهبندی شده است. زیرا در داده متوازن دقت مدل به سمت کلاس اکثریت منحرف نمیشود. در روش حذف تصادفی نمونه ها در کلاس اکثریت، نمونه های با ارزش از بین میروند. مزیت روش حذف تصادفی نمونه ها این است که زمان آموزش را کاهش میدهد، اما با توجه به اینکه مدل پیشنهادی دارای تعداد پارامترهای زیادی است، از این رو کاهش نمونهها بر روی آموزش مدل تاثیر خوبی نخواهند داشت، بنابراین در این پژوهش از افزایش تصادفی نمونهها در کلاس اقلیت استفاده شده است. یکی از مزیتهای این روش پیاده سازی آسان میباشد.
2) استفاده از تکنیکهای یادگیری ژرف در مقایسه با روشهای کلاسیک یادگیری ماشین از عملکرد بهتری در پیشبینی بار کاری ماشین مجازی برخوردارند زیرا با استخراج ویژگیها بهصورت اتوماتیک، میتواند همبستگی چندگانه بین ماشینهای مجازی را بر اساس حجم کار قبلی استخراج میکند و بار کاری آینده آنها را با دقت بالا پیشبینی کند.
3) استفاده از یک مدل ترکیبی ژرف در این پژوهش میتواند دقت طبقهبندی را افزایش دهد. در واقع مزیت استفاده از این دو مدل در کنار هم این است که نقاط قوت و ضعف هر دو مدل بیانشده بهمنظور دسترسی بهدقت بیشتر باهم همپوشانی دارند و استفاده از مزایای هر دو روش موجب همافزایی48 شده است.
4) شبکه های ژرف دارای چندین لایهی پنهان جدا از لایه های ورودی و خروجی هستند و با استفاده از تعداد لایههای بیشتر موجب افزایش عملکرد در طبقهبندی میشوند، در حالی که شبکههای عصبی سطحی49 از لایههای مخفی کمتری بین لایه های ورودی و خروجی استفاده میکنند[40, 41] . مدل پیشنهادی با استفاده از تعداد لایههای کمتر بهدقت بالاتری دست یافتهاست و با توجه به اینکه از تعداد لایههای کمتری در معماری مدل پیشنهادی استفاده شده است. تعداد لایههای کمتر باعث کاهش قابلتوجهی در پارامترهای قابل یادگیری شده است. این امر علاوه بر کاهش زمان آموزش، موجب کاهش پیچیدگی محاسباتی مدل نیز خواهد شد.
5) همانطور که قبلا بیان شد در این پژوهش از تکنیک افزایش تصادفی نمونهها در کلاس اقلیت برای متوازن کردن مجموعه داده استفاده شده است. یکی از معایب این روش این است که موجب بیش برازش در مدل میشود. زیرا در این روش نمونههای کلاس اقلیت کپی میشوند تا به تعداد نمونهها در کلاس اکثریت برسند. برای غلبه بر این چالش از تکنیک دراپاوت استفاده شده است. استفاده از تکنیک دراپاوت در معماری مدل پیشنهادی علاوه کاهش بیش برازش، موجب بهبود قابلیت تعمیمپذیری در مدل شده است که در نهایت منجر به افزایش پایداری مدل خواهد شد.
5. نتیجهگیری
پیشبینی دقیق در انتخاب ماشین مجازی کاندید مهاجرت موجب کاهش مصرف انرژی در مراکز داده ابری خواهد شد. این کار از طریق طبقهبندی ماشین مجازی در کلاس حجم کار امکانپذیر خواهد بود. در این مقاله طبقهبندی ماشینهای مجازی آزور با استفاده از ترکیب دو شبکه عصبی پیچشی و واحد برگشتی دروازهدار انجام شد. مدل پیشنهادشده در این پژوهش با استفاده از مزایای هرکدام از مدلهای بیانشده با دقت 42/94 موجب بهبود عملکرد در طبقهبندیشده است که نسبت به سایر مدلها برتری دارد.
جمعآوری دادههای واقعی از حجم کار ماشین مجازی امکان عدم توازن در داده را در پی خواهد داشت. کار با دادههای نامتوازن مشکلاتی مانند مدل جانبدارانه و ردهبندی اشتباه را به وجود میآورد. به همین دلیل در این پژوهش از تکنیک افزایش تصادفی نمونهها در کلاس اقلیت بهمنظور مقابله با عدم توازن نمونهها در دو کلاس استفاده شده است. این تکنیک میتواند با افزایش نمونههای آموزشی با توجه به افزایش تعداد پارامترهای مدل موجب بهبود عملکرد طبقهبندی شود؛ اما از طرفی افزایش تعداد نمونهها زمان آموزش را افزایش خواهد داد.
پژوهش حاضر بر پیشبینی بار کاری ماشین مجازی تاکیید دارد و پیشبینی بارکاری ماشین مجازی یک گام اولیه در مدیریت منابع به خصوص ادغام پویای ماشین مجازی میباشد. با توجه به اینکه ادغام پویای ماشین مجازی شامل 4 مرحله اساسی است که عبارتند از تشخیص سرور فروبار، شناسایی سرور فرابار، انتخاب ماشین مجازی و جایابی ماشین مجازی. از طرفی هر کدام از مراحل میتواند به عنوان پژوهشی مستقل بررسی شود و از آنجایی که در این پژوهش تنها پیشبینی بار کاری به منظور انتخاب مناسب ماشین مجازی مورد بررسی قرار گرفته است، بنابراین در آینده با ارائه الگوریتم مناسب برای مراحل دیگر، تعداد مهاجرتها و میزان مصرف انرژی در یک مرکز داده مجازی مورد آزمایش قرار خواهد گرفت.
استفاده از مدل پیشنهادی در طبقهبندی ماشین مجازی میتواند در کاربردهای دیگری همچون امنیت و مدیریت درخواست کاربر نیز استفاده شود. همچنین مدل پیشنهادی را میتوان برای شناسایی سرورهای فرابار و فروبار در مراکز داده ابری به کار برد.
علاوه بر موارد ذکر شده، میتوان از سایر مجموعههای داده برای ارزیابی مدل پیشنهادی استفاده کرد. همچنین میتوان از ترکیبی از سایر مدلهای شبکه عصبی برای طبقه بندی استفاده نمود. همانطور که قبلا ذکر شد، مجموعه داده های مورد استفاده در این مقاله نامتعادل است، بنابراین برای غلبه بر این چالش، میتوان از شبکههای مولد متخاصم50 (GAN) برای افزایش نمونههای کلاس اقلیت استفاده کرد.
مراجع
[1] A. Yousafzai et al., "Cloud resource allocation schemes: review, taxonomy, and opportunities," Knowledge and Information Systems, vol. 50, no. 2, pp. 347-381, 2017.
[2] I. Hamzaoui, B. Duthil, V. Courboulay, and H. Medromi, "A Survey on the Current Challenges of Energy-Efficient Cloud Resources Management," SN Computer Science, vol. 1, no. 2, pp. 1-28, 2020.
[3] A. Beloglazov, "Energy-efficient management of virtual machines in data centers for cloud computing," 2013.
[4] S. Singh and I. Chana, "A survey on resource scheduling in cloud computing: Issues and challenges," Journal of grid computing, vol. 14, no. 2, pp. 217-264, 2016.
[5] M. H. Sayadnavard, A. T. Haghighat, and A. M. Rahmani, "A reliable energy-aware approach for dynamic virtual machine consolidation in cloud data centers," The Journal of Supercomputing, vol. 75, no. 4, pp. 2126-2147, 2019.
[6] J. N. Witanto, H. Lim, and M. Atiquzzaman, "Adaptive selection of dynamic VM consolidation algorithm using neural network for cloud resource management," Future generation computer systems, vol. 87, pp. 35-42, 2018.
[7] H. Sadr, M. M. Pedram, and M. Teshnehlab, "Multi-View Deep Network: A Deep Model Based on Learning Features From Heterogeneous Neural Networks for Sentiment Analysis," IEEE Access, vol. 8, pp. 86984-86997, 2020.
[8] H. Sadr and M. Teshnehlab, "Efficient Method Based on Combination of Deep Learning Models for Sentiment Analysis of Text," Signal and Data Processing, vol. 19, no. 1, pp. 19-38, 2022.
[9] Y. S. Patel and R. Misra, "Performance comparison of deep VM workload prediction approaches for cloud," in Progress in Computing, Analytics and Networking: Springer, 2018, pp. 149-160.
[10] H. Khani and H. Khanmirza, "Randomized routing of virtual machines in IaaS data centers," PeerJ Computer Science, vol. 5, p. e211, 2019.
[11] A. Beloglazov, J. Abawajy, and R. Buyya, "Energy-aware resource allocation heuristics for efficient management of data centers for cloud computing," Future generation computer systems, vol. 28, no. 5, pp. 755-768, 2012.
[12] R. Moreno-Vozmediano, R. S. Montero, E. Huedo, and I. M. Llorente, "Efficient resource provisioning for elastic Cloud services based on machine learning techniques," Journal of Cloud Computing, vol. 8, no. 1, p. 5, 2019.
[13] M. Hariharasubramanian, "Improving application infrastructure provisioning using resource usage predictions from cloud metric data analysis," Rutgers University-School of Graduate Studies, 2018.
[14] R. Shaw, E. Howley, and E. Barrett, "An intelligent ensemble learning approach for energy efficient and interference aware dynamic virtual machine consolidation," Simulation Modelling Practice and Theory, vol. 102, p. 101992, 2020.
[15] N. Verma and A. Sharma, "Workload prediction model based on supervised learning for energy efficiency in cloud," in 2017 2nd International Conference on Communication Systems, Computing and IT Applications (CSCITA), 2017, pp. 66-71: IEEE.
[16] W. Zhang, B. Li, D. Zhao, F. Gong, and Q. Lu, "Workload prediction for cloud cluster using a recurrent neural network," in 2016 International Conference on Identification, Information and Knowledge in the Internet of Things (IIKI), 2016, pp. 104-109: IEEE.
[17] H. Sadr and M. Nazari Soleimandarabi, "ACNN-TL: attention-based convolutional neural network coupling with transfer learning and contextualized word representation for enhancing the performance of sentiment classification," The Journal of Supercomputing, vol. 78, no. 7, pp. 10149-10175, 2022.
[18] Y. Zhu, W. Zhang, Y. Chen, and H. Gao, "A novel approach to workload prediction using attention-based LSTM encoder-decoder network in cloud environment," EURASIP Journal on Wireless Communications and Networking, vol. 2019, no. 1, p. 274, 2019.
[19] S. Ouhame and Y. Hadi, "Multivariate workload prediction using Vector Autoregressive and Stacked LSTM models," in Proceedings of the New Challenges in Data Sciences: Acts of the Second Conference of the Moroccan Classification Society, 2019, pp. 1-7.
[20] Z. Chen, J. Hu, G. Min, A. Y. Zomaya, and T. El-Ghazawi, "Towards accurate prediction for high-dimensional and highly-variable cloud workloads with deep learning," IEEE Transactions on Parallel and Distributed Systems, vol. 31, no. 4, pp. 923-934, 2019.
[21] P. Yazdanian and S. Sharifian, "Cloud Workload Prediction Using ConvNet And Stacked LSTM," in 2018 4th Iranian Conference on Signal Processing and Intelligent Systems (ICSPIS), 2018, pp. 83-87: IEEE.
[22] P. Yazdanian and S. Sharifian, "E2LG: a multiscale ensemble of LSTM/GAN deep learning architecture for multistep-ahead cloud workload prediction," The Journal of Supercomputing, pp. 1-31, 2021.
[23] J. Bi, S. Li, H. Yuan, and M. Zhou, "Integrated deep learning method for workload and resource prediction in cloud systems," Neurocomputing, vol. 424, pp. 35-48, 2021.
[24] S. Shishira and A. Kandasamy, "A Novel Feature Extraction Model for Large-Scale Workload Prediction in Cloud Environment," SN Computer Science, vol. 2, no. 5, pp. 1-7, 2021.
[25] F. Mohades Deilami, H. Sadr, and M. Tarkhan, "Contextualized Multidimensional Personality Recognition using Combination of Deep Neural Network and Ensemble Learning," Neural Processing Letters, pp. 1-18, 2022.
[26] Z. Khodaverdian, H. Sadr, and S. A. Edalatpanah, "A shallow deep neural network for selection of migration candidate virtual machines to reduce energy consumption," in 2021 7th International Conference on Web Research (ICWR), 2021, pp. 191-196: IEEE.
[27] B. Santoso, H. Wijayanto, K. Notodiputro, and B. Sartono, "Synthetic over sampling methods for handling class imbalanced problems: a review," in IOP conference series: earth and environmental science, 2017, vol. 58, no. 1, p. 012031.
[28] S. Soleymanpour, H. Sadr, and M. Nazari Soleimandarabi, "CSCNN: cost-sensitive convolutional neural network for encrypted traffic classification," Neural Processing Letters, vol. 53, no. 5, pp. 3497-3523, 2021.
[29] H. Sadr, M. M. Pedram, and M. Teshnehlab, "Convolutional neural network equipped with attention mechanism and transfer learning for enhancing performance of sentiment analysis," Journal of AI and data mining, vol. 9, no. 2, pp. 141-151, 2021.
[30] E. Jackson and R. Agrawal, "Performance Evaluation of Different Feature Encoding Schemes on Cybersecurity Logs," in 2019 SoutheastCon, 2019, pp. 1-9: IEEE.
[31] M. P. Kalashami, M. M. Pedram, and H. Sadr, "EEG Feature Extraction and Data Augmentation in Emotion Recognition," Computational Intelligence and Neuroscience, vol. 2022, 2022.
[32] H. Sadr, M. M. Pedram, and M. Teshnehlab, "A robust sentiment analysis method based on sequential combination of convolutional and recursive neural networks," Neural Processing Letters, vol. 50, no. 3, pp. 2745-2761, 2019.
[33] J. Chung, C. Gulcehre, K. Cho, and Y. Bengio, "Empirical evaluation of gated recurrent neural networks on sequence modeling," arXiv preprint arXiv:1412.3555, 2014.
[34] Y. Wang, M. Liu, Z. Bao, and S. Zhang, "Short-term load forecasting with multi-source data using gated recurrent unit neural networks," Energies, vol. 11, no. 5, p. 1138, 2018.
[35] S. Wager, S. Wang, and P. S. Liang, "Dropout training as adaptive regularization," Advances in neural information processing systems, vol. 26, 2013.
[36] H. Sadr, M. M. Pedram, and M. Teshnelab, "Improving the performance of text sentiment analysis using deep convolutional neural network integrated with hierarchical attention layer," International journal of information and communication technology research, vol. 11, no. 3, pp. 57-67, 2019.
[37] E. Cortez, A. Bonde, A. Muzio, M. Russinovich, M. Fontoura, and R. Bianchini, "Resource central: Understanding and predicting workloads for improved resource management in large cloud platforms," in Proceedings of the 26th Symposium on Operating Systems Principles, 2017, pp. 153-167.
[38] E. Patel, A. Mohan, and D. S. Kushwaha, "Neural network based classification of virtual machines in IaaS," in 2018 5th IEEE Uttar Pradesh Section International Conference on Electrical, Electronics and Computer Engineering (UPCON), 2018, pp. 1-8: IEEE.
[39] A. M. Aslam and M. Kalra, "Using Artificial Neural Network for VM Consolidation Approach to Enhance Energy Efficiency in Green Cloud," in Advances in Data and Information Sciences: Springer, 2019, pp. 139-154.
[40] M. A. Wani, F. A. Bhat, S. Afzal, and A. I. Khan, Advances in deep learning. Springer, 2020.
[41] A. Plebe and G. Grasso, "The unbearable shallow understanding of deep learning," Minds and Machines, vol. 29, no. 4, pp. 515-553, 2019.
پانویسها
[1] Convolution Neural Network (CNN)
[2] Gated Recurrent Unit(GRU)
[3] Random Over-Sampling(ROS)
[4] https://goo.gl/Jez9Kg
[5] Ridge Regression
[6] Ensemble learning
[7] Boosted Tree
[8] Recurrent Neural Network (RNN)
[9] Autoregressive Integrated Moving Average (ARIMA)
[10] Long Short-Term Memory (LSTM)
[11] Attention
[12] Vector Autoregressive (VAR)
[13] Augmented Dickey-Fuller (ADF)
[14] Sparse Autoencoder
[15] Generative Adversarial Networks (GAN)
[16] Generator
[17] Discriminator
[18] Savitzky–Golay filter
[19] Bidirectional LSTM
[20] Grid LSTM
[21] Random Under-Sampling (RUS)
[22] Cost-Sensitive
[23] Label Encoding
[24] Data Aggregation
[25] Min-Max normalization
[26] Classifier
[27] Max Pooling
[28] Feature map
[29] Flatten
[30] Reset Gate
[31] Update Gate
[32] Overfitting
[33] Dropout
[34] Feedforward
[35] Backpropagation
[36] Loss Function
[37] https://github.com/Azure/AzurePublicDataset
[38] Infrastructure as a Service(IaaS)
[39] Platform as a Service (PaaS)
[40] Cumulative Distribution Function (CDF)
[41] Accuracy
[42] Precision
[43] Recall
[44] VM Lifetime
[45] VM Core Hour
[46] Adam
[47] Cross-Entropy
[48] Synergy
[49] Shallow
50 Generative Adversarial Networks (GANs)