Use of conditional generative adversarial network to produce synthetic data with the aim of improving the classification of users who publish fake news
Subject Areas :arefeh esmaili 1 * , Saeed Farzi 2
1 - University student
2 - Assistant Professor
Keywords: Fake news publisher user detection, Imbalanced datasets, Generative Adversarial Network, Graph of user interaction, Node Embedding.,
Abstract :
For many years, fake news and messages have been spread in human societies, and today, with the spread of social networks among the people, the possibility of spreading false information has increased more than before. Therefore, detecting fake news and messages has become a prominent issue in the research community. It is also important to detect the users who generate this false information and publish it on the network. This paper detects users who publish incorrect information on the Twitter social network in Persian. In this regard, a system has been established based on combining context-user and context-network features with the help of a conditional generative adversarial network (CGAN) for balancing the data set. The system also detects users who publish fake news by modeling the twitter social network into a graph of user interactions and embedding a node to feature vector by Node2vec. Also, by conducting several tests, the proposed system has improved evaluation metrics up to 11%, 13%, 12%, and 12% in precision, recall, F-measure and accuracy respectively, compared to its competitors and has been able to create about 99% precision, in detecting users who publish fake news.
Parikh, S.B. and P.K. Atrey. "Media-rich fake news detection: A survey. " in 2018 IEEE Conference on Multimedia Information Processing and Retrieval (MIPR). 2018. IEEE.
[2] Kochkina, E., M. Liakata, and A. Zubiaga, "All-in-one: Multi-task learning for rumour verification. " arXiv preprint arXiv:1806.03713, 2018.
[3] Tacchini, E., et al., "Some like it hoax: Automated fake news detection in social networks. " arXiv preprint arXiv:1704.07506, 2017.
[4] Shu, K., et al., "Fake news detection on social media: A data mining perspective. " ACM SIGKDD explorations newsletter, 2017. 19(1): p. 22-36.
[5] Inuwa-Dutse, I., M. Liptrott, and I. Korkontzelos, "Detection of spam-posting accounts on Twitter. " Neurocomputing, 2018. 315: p. 496-511.
[6] Bindu, P., R. Mishra, and P.S. Thilagam, "Discovering spammer communities in Twitter. " Journal of Intelligent Information Systems, 2018. 51(3): p. 503-527.
[7] de Souza, J.V., et al., "A systematic mapping on automatic classification of fake news in social media. " Social Network Analysis and Mining, 2020. 10(1): p. 1-21.
[8] Grinberg, N., et al., " Fake news on Twitter during the 2016 US presidential election. " Science, 2019. 363(6425): p. 374-378.
[9] Maaten, L.v.d. and G. Hinton, "Visualizing data using t-SNE. " Journal of machine learning research, 2008. 9(Nov): p. 2579-2605.
[10] Gheewala, S. and R. Patel. "Machine learning based Twitter Spam account detection: a review. " in 2018 Second International Conference on Computing Methodologies and Communication (ICCMC). 2018. IEEE.
[11] Gaonkar, S., et al. " Detection Of Online Fake News: A Survey. " in 2019 International Conference on Vision Towards Emerging Trends in Communication and Networking (ViTECoN). 2019. IEEE.
[12] Hardalov, M., I. Koychev, and P. Nakov. " In search of credible news. " in International Conference on Artificial Intelligence: Methodology, Systems, and Applications. 2016. Springer.
[13] Goodfellow, I., et al. "Generative adversarial nets. " in Advances in neural information processing systems. 2014.
[14] Douzas, G. and F. Bacao, "Effective data generation for imbalanced learning using conditional generative adversarial networks. " Expert Systems with applications, 2018. 91: p. 464-471.
[15] Mirza, M. and S. Osindero, "Conditional generative adversarial nets. " arXiv preprint arXiv:1411.1784, 2014.
[16] Grover, A. and J. Leskovec. "node2vec: Scalable feature learning for networks. " in Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 2016. ACM.
[17] Conroy, N.K., V.L. Rubin, and Y. Chen, "Automatic deception detection: Methods for finding fake news. " Proceedings of the Association for Information Science and Technology, 2015. 52(1): p. 1-4.
[18] Bondielli, A. and F. Marcelloni, "A survey on fake news and rumour detection techniques. " Information Sciences, 2019. 497: p. 38-55.
[19] Mohammadrezaei, M., M.E. Shiri, and A.M. Rahmani, "Identifying fake accounts on social networks based on graph analysis and classification algorithms. " Security and Communication Networks, 2018. 2018.
[20] Yang, C., R. Harkreader, and G. Gu, "Empirical evaluation and new design for fighting evolving twitter spammers. " IEEE Transactions on Information Forensics and Security, 2013. 8(8): p. 1280-1293.
[21] Wang, A.H. "Don't follow me: Spam detection in twitter. " in 2010 international conference on security and cryptography (SECRYPT). 2010. IEEE.
[22] Benevenuto, F., et al. "Detecting spammers on twitter. " in Collaboration, electronic messaging, anti-abuse and spam conference (CEAS). 2010.
[23] Masood, Faiza, et al. "Spammer detection and fake user identification on social networks." IEEE Access 7 (2019): 68140-68152.
[24] Xie, Y., et al. "A Fake News Detection Framework Using Social User Graph. " in Proceedings of the 2020 2nd International Conference on Big Data Engineering. 2020.
[25] KARUNAKAR, M.G., et al., " ADAPTIVE DETECTING FAKE PROFILES IN ONLINE SOCIAL NETWORKS. "
[26] Della Vedova, M.L., et al. "Automatic online fake news detection combining content and social signals. " in 2018 22nd Conference of Open Innovations Association (FRUCT). 2018. IEEE.
[27] Shu, K., et al. "defend: Explainable fake news detection. " in Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019.
[28] Guacho, G.B., et al. "Semi-supervised content-based detection of misinformation via tensor embeddings. " in 2018 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining (ASONAM). 2018. IEEE.
[29] Shu, K., et al. "The role of user profiles for fake news detection. " in Proceedings of the 2019 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining. 2019.
[30] Shu, K., S. Wang, and H. Liu. "Beyond news contents: The role of social context for fake news detection. " in Proceedings of the Twelfth ACM International Conference on Web Search and Data Mining. 2019.
[31] Hamdi, T., et al. "A Hybrid Approach for Fake News Detection in Twitter Based on User Features and Graph Embedding. " in International Conference on Distributed Computing and Internet Technology. 2020. Springer.
[32] Aphiwongsophon, S. and P. Chongstitvatana. "Detecting fake news with machine learning method. " in 2018 15th International Conference on Electrical Engineering/Electronics, Computer, Telecommunications and Information Technology (ECTI-CON). 2018. IEEE.
[33] Hussain, M.G., et al., "Detection of Bangla Fake News using MNB and SVM Classifier. " arXiv preprint arXiv:2005.14627, 2020.
[34] Li, Y., et al., "Exploiting similarities of user friendship networks across social networks for user identification. " Information Sciences, 2020. 506: p. 78-98.
[35] Vijayaraghavan, S., et al., "Fake News Detection with Different Models. " arXiv preprint arXiv:2003.04978, 2020.
[36] Jadhav, S.S. and S.D. Thepade, "Fake news identification and classification using DSSM and improved recurrent neural network classifier. " Applied Artificial Intelligence, 2019. 33(12): p. 1058-1068.
[37] Ajao, O., D. Bhowmik, and S. Zargari. "Fake news identification on twitter with hybrid cnn and rnn models. " in Proceedings of the 9th international conference on social media and society. 2018.
[38] Zhang, J., B. Dong, and S.Y. Philip. "Fakedetector: Effective fake news detection with deep diffusive neural network. " in 2020 IEEE 36th International Conference on Data Engineering (ICDE). 2020. IEEE.
[39] Verma, A., V. Mittal, and S. Dawn. "FIND: Fake information and news detections using deep learning. " in 2019 Twelfth International Conference on Contemporary Computing (IC3). 2019. IEEE.
[40] Ruan, N., R. Deng, and C. Su, "GADM: Manual fake review detection for O2O commercial platforms. " Computers & Security, 2020. 88: p. 101657.
[41] Hosseinimotlagh, S. and E.E. Papalexakis. "Unsupervised content-based identification of fake news articles with tensor decomposition ensembles. " in Proceedings of the Workshop on Misinformation and Misbehavior Mining on the Web (MIS2). 2018.
[42] Yang, S., et al. "Unsupervised fake news detection on social media: A generative approach. " in Proceedings of the AAAI Conference on Artificial Intelligence. 2019.
[43] Phan, T.D. and N. Zincir‐Heywood, "User identification via neural network based language models. " International Journal of Network Management, 2019. 29(3): p. e2049.
[44] Mateen, M., et al. "A hybrid approach for spam detection for Twitter. " in 2017 14th International Bhurban Conference on Applied Sciences and Technology (IBCAST). 2017. IEEE.
[45] Chen, C., et al., "Statistical features-based real-time detection of drifted twitter spam. " IEEE Transactions on Information Forensics and Security, 2016. 12(4): p. 914-925.
[46] Volkova, S., et al. "Separating facts from fiction: Linguistic models to classify suspicious and trusted news posts on twitter. " in Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2017.
[47] Mahmoodabad, S.D., S. Farzi, and D.B. Bakhtiarvand. "Persian rumor detection on twitter. " in 2018 9th International Symposium on Telecommunications (IST). 2018. IEEE.
[48] Wang, W., et al. "Global-and-Local Aware Data Generation for the Class Imbalance Problem. " in Proceedings of the 2020 SIAM International Conference on Data Mining. 2020. SIAM.
[49] Rout, N., D. Mishra, and M.K. Mallick, "Handling imbalanced data: A survey", in International Proceedings on Advances in Soft Computing, Intelligent Systems and Applications. 2018, Springer. p. 431-443.
[50] Chen, H. and L. Jiang, " Efficient GAN-based method for cyber-intrusion detection. " arXiv preprint arXiv:1904.02426, 2019.
[51] Lee, J. and K. Park, "GAN-based imbalanced data intrusion detection system. " Personal and Ubiquitous Computing, 2019: p. 1-8.
[52] Kim, J.-Y., S.-J. Bu, and S.-B. Cho. "Malware detection using deep transferred generative adversarial networks. " in International Conference on Neural Information Processing. 2017. Springer.
[53] Radford, A., L. Metz, and S. Chintala, "Unsupervised representation learning with deep convolutional generative adversarial networks. " arXiv preprint arXiv:1511.06434, 2015.
[54] Kovács, G., "An empirical comparison and evaluation of minority oversampling techniques on a large number of imbalanced datasets. " Applied Soft Computing, 2019. 83: p. 105662.
[55] Chawla, N.V., et al., "SMOTE: synthetic minority over-sampling technique. " Journal of artificial intelligence research, 2002. 16: p. 321-357.
[56] Batista, G.E., R.C. Prati, and M.C. Monard, "A study of the behavior of several methods for balancing machine learning training data. " ACM SIGKDD explorations newsletter, 2004. 6(1): p. 20-29.
[57] Han, H., W.-Y. Wang, and B.-H. Mao. "Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning. " in International conference on intelligent computing. 2005. Springer.
[58] Cieslak, D.A., N.V. Chawla, and A. Striegel. "Combating imbalance in network intrusion datasets. " in GrC. 2006.
[59] De La Calleja, J. and O. Fuentes. "A Distance-Based Over-Sampling Method for Learning from Imbalanced Data Sets. " in FLAIRS Conference. 2007.
[60] He, H., et al. "ADASYN: Adaptive synthetic sampling approach for imbalanced learning. " in 2008 IEEE international joint conference on neural networks (IEEE world congress on computational intelligence). 2008. IEEE.
[61] Dong, Y. and X. Wang. "A new over-sampling approach: random-SMOTE for learning from imbalanced data sets. " in International Conference on Knowledge Science, Engineering and Management. 2011. Springer.
[62] Lee, H., J. Kim, and S. Kim, "Gaussian-Based SMOTE Algorithm for Solving Skewed Class Distributions. " International Journal of Fuzzy Logic and Intelligent Systems, 2017. 17(4): p. 229-234.
[63] Ma, L. and S. Fan, "CURE-SMOTE algorithm and hybrid algorithm for feature selection and parameter optimization based on random forests. " BMC bioinformatics, 2017. 18(1): p. 1-18.
[64] Koziarski, M. and M. Wożniak, "CCR: A combined cleaning and resampling algorithm for imbalanced data classification. " International Journal of Applied Mathematics and Computer Science, 2017. 27(4): p. 727-736.
[65] Breuer, Adam, Roee Eilat, and Udi Weinsberg. "Friend or Faux: Graph-Based Early Detection of Fake Accounts on Social Networks." Proceedings of The Web Conference 2020. 2020.
[66] Liu, Yang, and Yi-Fang Brook Wu. "FNED: A Deep Network for Fake News Early Detection on Social Media." ACM Transactions on Information Systems (TOIS) 38.3 (2020): 1-33.
[67] Liao, Hao, Qixin Liu, and Kai Shu. "Incorporating User-Comment Graph for Fake News Detection." arXiv preprint arXiv:2011.01579 (2020).
[68] Balaanand, Muthu, et al. "An enhanced graph-based semi-supervised learning algorithm to detect fake users on Twitter." The Journal of Supercomputing 75.9 (2019): 6085-6105.
[69] Fawcett, Tom. "An introduction to ROC analysis." Pattern recognition letters 27.8 (2006): 861-874.
دو فصلنامه علمي فناوري اطلاعات و ارتباطات ایران | سال سیزدهم، شمارههاي 47 و 48، بهار و تابستان 1400 |
|
استفاده از شبکه مولد متخاصم شرطی برای تولید داده مصنوعی با هدف بهبود کلاسبندی کاربران منتشرکننده اخبار جعلی
عارفه اسمعیلی* سعید فرضی**
*کارشناس ارشد نرم افزار، گروه مهندسی کامپیوتر، دانشگاه صنعتی خواجه نصیر الدین طوسی
** استادیار گروه مهندسی کامپیوتر، دانشگاه صنعتی خواجه نصیر الدین طوسی
تاریخ دریافت:19/07/1399 تاریخ پذیرش:02/12/1399
نوع مقاله: پژوهشی
چکیده
سالیان درازی است که اخبار و پیامهای جعلی در جوامع انسانی منتشر میگردد و امروزه با فراگیرشدن شبکههای اجتماعی در بین مردم، امکان نشر اطلاعات نادرست بیشتر از قبل شده است. بنابراین، شناسایی اخبار و پیامهای جعلی به موضوع برجستهای در جوامع تحقیقاتی تبدیل شده است. ضمناً، شناسایی کاربرانی که این اطلاعات نادرست را ایجاد میکنند و در شبکه نشر میدهند، از اهمیت بالایی برخوردار است. این مقاله، به شناسایی کاربرانی که با زبان فارسی اقدام به انتشار اطلاعات نادرست در شبکه اجتماعی توئیتر میکنند، پرداخته است. در این راستا، سیستمی بر مبنای ترکیب ویژگیهای بافتار-کاربر و بافتار-شبکه با کمک شبکه مولد متخاصم شرطی برای متوازنسازی مجموعه داده پایهریزی شده است. همچنین، این سیستم با مدلکردن شبکه اجتماعی توئیتر به گراف تعاملات کاربران و تعبیه گره به بردار ویژگی توسط Node2vec، کاربران منتشرکننده اخبار جعلی را شناسایی میکند. علاوه بر این، با انجام آزمایشات متعدد، سیستم پیشنهادی تا حدود 11% ، 13 % ،12 % و 12 % به ترتیب در معیارهای دقت، فراخوانی، معیار اف و صحت نسبت به رقبایش بهبود داشته است و توانسته است دقتی در حدود 99% در شناسایی کاربران منتشرکننده اخبار جعلی ایجاد کند.
کلید واژگان: شناسایی کاربر منتشرکننده اخبار جعلی، مجموعه دادههای نامتوازن، شبکه مولد متخاصم، گراف تعاملات کاربران، تعبیه گره.
1 مقدمه
از زمانهای گذشته تاکنون اطلاعات و پیامهای جعلی همواره وجود داشته است [1]، که برای جوامع بشری مشکلات فراوانی ایجاد کرده است [2].
نویسنده مسئول: عارفه اسمعیلی arefehesmaili@email.kntu.ac.ir
در نتیجه، همواره اطمینان از درستی خبر درجوامع بشری احساس شده است [3]. امروزه نیز با پیشرفت و گسترش شبکههای اجتماعي و دسترسي آسان به آنها، شبکههای اجتماعي به پلتفرم مناسبی برای دنبالکردن رخداد و اخبار جهان تبدیل شدهاند [4]. علاوه بر این، در این شبکهها اجازه انتشار اطلاعات متنوع و زیاد، بدون چک کردن اعتبار1 آنها داده ميشود [5]. بنابراين، کاربران میتوانند با ایجاد حساب جعلي2، انواع جديدی از اطلاعات مخرب3 و نادرست را در شبکههای اجتماعی توليد و منتشر کنند. به طور مثال، هرزنامهها4 نوعي فعاليت مخرب هستند که کاربران جعلی5 پيامهای ناخواستهای را به صورت پيامهای کلاهبرداری، پيامهايي شامل ويروس و غيره ازطريق آنها ارسال ميکنند [6]. اکثر اخبار جعلی در زمینههای مسائل اعتقادی، اقتصادی و سیاسی وجود دارد [7]. برای اشاره به نمونهای از این نوع فعالیتها، میتوان به انتخابات آمریکا در سال 2016 اشاره کرد که مطالعه منابع خبری جعلي در آخرين هفته انتخابات توسط مردم، روی نتايج انتخابات اثرگذار بوده است [8]. همانطور که مشهود است، اين پيامها اعتبار شبکههای اجتماعی را کاهش میدهد و امنيت کاربران و حريم شخصي آنها را نيز تحت تاثير خود قرار ميدهد [10]. بنابراین، شناسایی اخبار و پیامهای جعلی در بین جوامع تحقیقاتی به موضوع برجستهای تبدیل شده است. شبکههای اجتماعی آنلاین6 مانند توئیتر، فیسبوک و لینکدین و غیره به دلیل فراگیری و استفاده بیشتر از آنها در بین مردم نسبت به گذشته تبدیل به بستری برای انتشار اطلاعات و اخبار نادرست شده است [11]. ضمناً، توئیتر به علت تبدیلشدن به مجرایی برای انتشار اخبار بلادرنگ در بین دولتمردان و افراد تحصیلکرده، پلتفرم مناسبی برای انتشار اخبار جعلی شده است7. ضمناً، چون اکثرکاربران توئیتر اقدام به تبادل اطلاعات با زبان انگلیسی میکنند، بیشتر تحقیقات بر روی این زبان صورت گرفته است [12] و از توجه به زبانهای مهم دیگری مانند فارسی که منابع زبانشناسیکمتری برای آنها وجود دارد، غفلت شده است.
علیرغم اینکه مطالعات انجامشده در حوزه شناسایی اخبار جعلی معمولاً بر روی متن خبر انجام شده است، شناسایی کاربر منتشرکننده این اخبار نیز از اهمیت ویژهای برخوردار است [6]. کاربران منتشرکننده اخبار جعلی در این مقاله، حساب کاربری هستند که حداقل یک بار پیامی حاوی خبر جعلی در شبکه اجتماعی منتشر کردهاند. در این مقاله، یک سیستم پیشنهادی برای شناسایی کاربران منتشرکننده اخبار جعلی مبتنی بر ترکیب ویژگیهای مبتنی بر کاربر-شبکه پیشنهاد داده شده است. از چالشهایی که در این حوزه وجود داشت، میتوان به 1) عدم توازن کلاسها در مجموعه داده و 2) معرفی سیستمی برای شناسایی کاربران جعلی از کاربران عادی اشاره کرد. برای رفع چالش اول، از روش یادگیری عمیق، شبکه مولد متخاصم شرطی8 برای متوازنسازی مجموعه داده استفاده شده است و برای رفع چالش دوم، با مدلکردن شبکه اجتماعی توئیتر به گراف وزندار و جهتدار و ترکیب اطلاعات کاربران با ویژگیهایی که باتعبیه9 گره به بردار ویژگی (Node2vec) به دست میآیند، کلاسبندی برای دستهبندی کاربران منتشرکننده اخبار جعلی از کاربران عادی طراحی شده است. ضمناً، در این مقاله از مجموعه داده جمعآوریشده توئیتر فارسی در بازه دو هفتهای مدت وقوع زلزله کرمانشاه ایران در سال 1396 استفاده شده است، که با برچسبگذاری دستی10 دادهها، توسعهداده شده است. به کمک انجام آزمایشات مختلف و متنوع بر روی مجموعه داده که با اهداف معینی صورت گرفته است، برتری سیستم پیشنهادی در مقایسه با رقبای خود چون روش بیش نمونهبرداری اقلیت مصنوعی11، Borderline-SMOTE، ADASYN،CCR ، Cure-SMOTE، Gaussian-SMOTE،Random-SMOTE ، Distance-SMOTE، Cluster-SMOTE و غیره در معیارهای ارزیابی چون صحت12، فراخوانی13، معیار اف14 و دقت15 نشان داده شده است.
نوآوری مقاله ما به صورت زیر خواهد بود:
· گسترش مجموعه داده فارسی در شبکه اجتماعی توئیتر، برای شناسایی کاربران منتشرکننده اخبار جعلی
· معرفی سیستمی برای کلاسبندی کاربران منتشرکننده اخبار جعلی و کاربران عادی
در بخش بعدی دستهبندی برکارهای گذشته در این حوزه انجام شده است. در ادامه، خلاصهای از شبکه مولد متخاصم و شبکه مولد متخاصم شرطی و روش تعبیه گره (Node2vec) ارائه خواهد شد. همچنین، در بخش 3 سیستم پیشنهادی مقاله و در بخش 4 آزمایشات تکمیلی و نتایج ارزیابی نمایش داده شده است. نهایتاً، به ترتیب در بخش 5 و 6 نتیجهگیری و مراجع استفاده شده، شرح داده شده است.
2 کارهای مرتبط و پیشزمینه
2.1 پیشزمینه
در این بخش از مقاله، خلاصهای از شبکه مولد متخاصم و شبکه مولد متخاصم شرطی و سپس، روش تعبیه گره به بردار (Node2vec) بهطورخلاصه تشریح میگردد.
v شبکه مولد متخاصم و شبکه مولد متخاصم شرطی:
شبکه مولد متخاصم بر مبنای رقابت بین دو مؤلفه تولیدکننده و تمایزدهنده پایهریزی شده است. هدف فریب دادن است. هدف ایجاد تمایز بین نمونههای تولیدی G و نمونههای موجود در مجموعه داده است. هر دو مؤلفه سعی در باهوش کردن یکدیگر دارند. با بازخورد گرفته شده از نمونههای تولیدیتوسط، عملکرد G بهبود مییابد. همچنین، اگر بتواند به راحتی نمونههای واقعی را از نمونههای تولیدی تشخیص دهد، G کیفیت نمونههای تولیدی خود را کاهش میدهد. مؤلفه تولیدکننده به صورت تعریف میشود که Z فضای اختلال16 با بعد دلخواه است و همچنین، X فضای داده است که هدف G به دست آوردن توزیع داده است. مؤلفه تمایزدهنده به صورت D: X → [0, 1] تعریف میشود و احتمال اینکه نمونه از مجموعه داده یا از G میآید، را تخمین میزند. این دو مؤلفه در یک بازی کمینه-بیشینه17 مطابق رابطه 1 با هم به رقابت میپردازند:
(1) |
|
| |||||||||||||
|
|
| ||||||||||||
(2) |
|
(3) |
|
(4) |
|
|
شکل 1. شبکه مولد متخاصم شرطی [15] |
v Node2vec: Node2vec روش یادگیری نیمهناظر برای تعبیه21 گره به نقاطی در فضای برداری با بعد کمتر با حفظ بیشترین همسایگی است. این روش دو معادله22 هموفیلی و ساختاری را در نظر میگیرد. در معادلات هموفیلی23 گرهها میتوانند مبتنی بر جامعهای24 که به آن تعلق دارند، سازماندهی شوند و در معادله ساختاری25 گرهها میتوانند براساس نقش ساختاری خود در شبکه، سازماندهی شوند. به طور مثال، در شکل2 گره C , E در دو جامعه مجزا قرار دارند ولی نقش ساختاری یکسانی دارند. گرههایA , C به یک جامعه تعلق دارند.
|
شکل 2. نمونه گراف |
این روش بر روی دو هدف تمرکز دارد. هدف اول آن، تعبیه گرههایی که به یک جامعه تعلق دارند، در نزدیکی یکدیگر است و همچنین، هدف دوم آن، تعبیه گرهها با نقش ساختاری یکسان در گراف در نزدیکی یکدیگر است. بنابراین، برای تحقق این دو هدف، Node2vec با وزندهی یالهای گراف به صورت شکل 3، و با پیادهروی تصادفی26 روی گراف و با ترکیب جستجوی اول سطح27 برای معادلات ساختاری و با جستجوی اول عمق28 برای معادلات هموفیلی، دنبالهای از گرهها در گراف ایجاد میکند که شبیه به دنبالهای از کلمات در جمله خواهد بود. سپس، همانطور که در شکل4 مشهود است با کمک ابزار Word2vec و بهرهگیری از Skip-gram دنباله ایجادشده را به بردار ویژگی تبدیل میکند [16].
| |
| |
شکل 3. نحوه وزندهی به یالها. فرض شده است که در پیادهروی تصادفی از گره t به v رفته شده است، حال باید مشخص شود از گره v به کدام گره خواهد رفت که طبق معادله وزندهی میشود و جهت حرکت مشخص خواهد شد [16] .
| |
| |
شکل 4. مراحل Node2vec |
2.2 کارهای مرتبط
اولین سایت اجتماعی با نام Six degree.com در سال 1997 میلادی شروع به کارکرد ولی خیلی زود کنار گذاشته شد [10]. بعد از آن شبکههای اجتماعی چون فیسبوک، لینکدین، اینستاگرام، توئیتر و غیره برای برقراری ارتباط کاربران سراسر جهان با یکدیگر، یافتن اخبار و به اشتراکگذاری رویدادها به صورت تصویر، متن، ویدئو و غیره پا به عرصه ظهور گذاشتند. از طرفی با گسترش و فراگیری این شبکهها در بین مردم، شبکههای اجتماعی نوظهور تبدیل به پلتفرم مناسبی برای انتشار اطلاعات غلط، لینکهای هرزنامه، پیامهای ناخواسته و ساخت حسابهای جعلی شدهاند [7].
اخبار جعلی عمداً برای فریبدادن خواننده نوشته میشوند، که نادرستی آنها توسط منابع موثق قابل اثبات است [17]. اما شایعات اطلاعاتی هستند که درستی آنها توسط منبع رسمی تایید نشده است و در حال پخششدن در بین افراد هستند [18]. کاربران مخرب، به دنبال نقض حریم خصوصی کاربران دیگر یا سوء استفاده از نام و اعتبار آنها با ایجاد حساب جعلی هستند [19]. توئیتر یکی از رایجترین وب سایتهایی است که میکروبلاگینگ رایگان شامل ارسال تصویر، ویدئو، متن و غیره را در اختیار کاربرانش قرار داده است [20]. کاربران توئیتر برای تبادل اطلاعات میتوانند از پیامهای کوتاهی شامل حداکثر 280 کاراکتر که به آنها توئیت29 گفته میشود، استفاده کنند [21]. ضمناً، ارتباطات جهتدار خواهد بود، یعنی هر کاربر دنبالکننده30 و دنبالشونده31 خود را دارد. همچنین، توئیت میتواند در شبکه بازنشر شود که به آن ریتوئیت32 گویند. ضمناً، میتوان در جواب توئیتی پاسخی گذاشت. کاربران توئیتر معمولاً از هشتگ برای مشخصکردن موضوع خاص در توئیت خود استفاده میکنند. هشتگهای مشهور به موضوعات روز33 تبدیل میشوند [22].
مطالعات گستردهای در شبکه اجتماعی توئیتر برای شناسایی اقدامات فریبکارانه مبتنی بر آدرس اینترنتی، محتوای جعلی، شناسایی کاربر جعلی، استخراج هرزنامه در موضوعات روز انجام شده است [23]. محققان در ابتدا مدلی پیشنهاد دادند که هرزنامهها را از طریق آدرس اینترنتی آنها فیلتر میکرد. به همین منظور، توئیتر توسط Bot Maker امکان حذف هرزنامهها توسط آدرس اینترنتی آنها را فراهم آورد. اما محققان دریافتند که 90 درصد هرزنامهها با استفاده از آدرس اینترنتی جدید از فیلتر گذر میکردند که باعث شکست این ایده شد. اخیراً، محققان به دنبال روشهایی برای استفاده از الگوریتمهای مبتنی بر یادگیری ماشین هستند [10]. شناسایی کاربران و اخبار جعلی یک کلاسبندی شامل دو کلاس است که شامل دستهبندی کاربران و اخبار، به جعلی و عادی است. کارهای انجام شده درحوزه استخراج ویژگیهای موردنیاز برای کلاسبندها به دو دسته 1) مبتنی بر محتوا34 و 2) مبتنی بر بافتار35 تقسیم میگردد. در ویژگیهای مبتنی بر محتوا به قواعد زبانشناسی مانند نحو36، معنا37، واژه38 در متن توجه میشود. از آنجا که ساختار زبانشناسی متن عادی میتواند توسط متن جعلی تقلید شود [24]، ویژگیهای مبتنی بر بافتار به روی کار آمدند. همچنین، این ویژگی نیز شامل دو دسته مبتنی بر شبکه39 و مبتنی بر کاربر40 است. در ویژگیهای مبتنی بر بافتار-کاربر به ویژگیهای آماری چون شماره حساب، آدرس اینترنتی موجود در توئیت، عکس پروفایل کاربران، تعداد پست ایجاد شده توسط کاربر، تعداد دنبالکننده و دنبالشونده، سن و غیره توجه میشود. امکان تقلید و جعل در این نوع ویژگیها نیز به کمک ایجاد پست و خرید دنبالکننده و غیره وجود دارد. برای جلوگیری از این موضوع، از ویژگیهای مبتنی بر بافتار - شبکه مانند الگوی انتشار، چگالی، ضریب خوشهبندی41، تعداد ریتوئیت، دفعات انتشار پست، پسندیدن42 یک پست و تعاملات کاربر با خبر و غیره میتوان استفادهکرد. دستهبندی انواع ویژگیها برای شناسایی اخبار و کاربر جعلی در شکل5 آمده است.
|
شکل 5 . گونه شناسی انواع ویژگیها و مثالهایی از هر گروه برای شناسایی اخبار و کاربر جعلی |
کارونکار و همکارانش [25]، برای شناسایی پروفایل کاربران جعلی در فیسبوک از روشهای زبانشناسی استفاده کردهاند که امکان تقلید این نوع ویژگی توسط کاربران جعلی وجود دارد. برای جلوگیری از این موضوع، در این مقاله، به ویژگیهای مبتنی بر شبکه و بافتار-کاربر توجه شده است. دلا ودووا و همکارانش [26]، کای شو و همکارانش [27]، جیزل باستیداس گواچو و همکارانش [28] از ترکیب ویژگیهای مبتنی بر محتوا و شبکه برای تشخیص اخبار جعلی استفاده کردهاند، که به دلیل استفاده از ویژگیهای مبتنی بر محتوا بر مشکل شروع سرد43 غلبه پیدا کردهاند؛ شروع سرد به معنای ایجاد و انتشار پستی به تازگی در شبکه است که کاربری آن را نپسندیده یا بازنشر نکرده است و الگوی گسترش آن در شبکه هنوز تکمیل نشده است. سویتلانا ولکووا و همکارانش [46]، بر روی اخبار فریب، تبلیغات، هجو و غیره در زمان حمله تروریستی بروکسل در سال 2016 و با در نظر گرفتن متن توئیت و تعاملات کاربران در شبکه توئیتر کار کردهاند؛ این نویسندگان از ایده آموزش شبکه عصبی بر روی مجموعه داده متوازن استفاده کردهاند. ضمناً، هائو لیائو و همکارانش [67]، با ساخت گرافی بین کاربر و نظرات کاربر در شبکه اجتماعی به دنبال استخراج ویژگیهای محتوا و شبکه برای شناسایی اخبار جعلی بودهاند. ضمناً، این نویسندگان برای تعبیه اطلاعات به بردار از روشهای مبتنی بر مکانیزم توجه44 که باعث حذف زیادی از اطلاعات نامرتبط میشود، استفاده کردهاند. کای شو و همکارانش [30]، گرافی بین پاسخ کاربر بر روی خبر، کاربر دریافتکننده و ارسالکننده خبر تشکیل داده است و از ترکیب ویژگیهای مبتنی بر محتوا و شبکه برای تشخیص اخبار جعلی استفاده کرده است و به ویژگیهای بافتار-کاربر توجه نکردهاند؛ با این تفاوت که این نویسنده در مقاله دیگری [29]، از ترکیب دو ویژگی بافتار-کاربر و بافتار-شبکه برای شناسایی کاربر جعلی استفاده کردهاند. طارق حمدی و همکارانش [31]، از ترکیب ویژگیهای کاربر و شبکه با کمک تعبیه گره به بردار (Node2vec) برای شناسایی منبع فرستنده اخبار جعلی استفاده کردهاند ولی در این پژوهش، ترکیب این نوع ویژگیها بر روی مجموعه داده نامتوازن و در زبان فارسی بررسی شده است. موتو بالاآناند و همکارانش [68]، با زیر نظر گرفتن رفتار کاربر در بازه زمانی طولانی و ترکیب ویژگیهای مبتنی بر بافتار-کاربر و بافتار-شبکه کاربران جعلی را شناسایی کردهاند. سوپانیا آفی وان سیفان و همکارانش [32]، بررسیهایی بر روی اخبار سیل تایلند با اعمال ویژگیهای مبتنی بر کاربر انجام داده است. گلزار حسین و همکارانش [33]، برای شناسایی خبر جعلی در زبان بنگلادشی از ویژگیهای مبتنی بر محتوا کمک گرفتهاند؛ در صورتیکه، این ویژگی به تنهایی میتواند جعل شود و نیاز به استفاده از دیگر ویژگیها وجود دارد. از مزایای پژوهش این نویسندگان میتوان به ایجاد مجموعه داده جدید در زبان بنگلادشی که منابع زبان شناسی کمتری برای آن وجود دارد، اشاره کرد. یونگجون لی و همکارانش [34]، از ویژگیهای مبتنی بر کاربر استفاده کرده است و با ایجاد گراف به صورت پیشنهاد افراد شبیه به یکدیگر، به دنبال شناسایی کاربران جعلی هستند اما دادههای مورد استفاده در آزمایشات آنها متوازن هستند و به مشکل عدم توازن در مجموعه داده اشارهای نداشتهاند. سیراموینای ویجیاراغوان و همکارانش [35]، با اعمال روشهای زبانشناسی بر روی متن خبر با تعبیه متن با کمک بردار فراوانی اصطلاح- معکوس فراوانی متن45 و Word2vec و غیره به دنبال شناسایی اخبار جعلی است. اشروتیکا جدهاو و همکارانش [36]، برای اثبات عملکرد بهتر روشهای یادگیری عمیق در شناسایی اخبار جعلی از شبکههای عصبی بازگشتی46 و مدل معنایی ساختاریافته عمیق47 استفاده کرده است و همچنین، اولووسون آجاو و همکارانش [37]، با تمرکز بر ویژگیهای محتوایی به دنبال شناسایی اخبار جعلی است اما این نویسندگان به دلیل استفاده شبکه عصبی بازگشتی و شبکه عصبی پیچشی48 در کارهای آتی خود اشاره داشتهاند که به مجموعه داده بزرگتری نیاز دارند تا نتایج بهتری به دست آوردند. ژانگ و همکارانش [38]، با ایجادگرافی بین نویسنده و اخبار و موضوع اخبار و ترکیب با اطلاعات محتوایی به دنبال شناسایی اخبار جعلی است. ابیشک ورما و همکارانش [39]، با ایجاد مجموعه دادهای در اخبار هند و اعمال ویژگیهای محتوایی با کمک روشهای یادگیری عمیق سعی در شناسایی خبر جعلی دارند. ضمناً، این نویسندگان بر روی مجموعه داده متوازن کار کردهاند. نا روان و همکارانش [40]، از ویژگیهای مبتنی بر کاربر از جمله موقعیت جغرافیایی برای شناسایی بازبینگر جعلی49 استفاده کردهاند. بیندو و همکارانش [6]، معتقد است کاربران جعلی با یکدیگر تشکیل جامعه میدهند. به همین منظور، از الگوریتمهای خوشهبندی برای شناسایی جامعه کاربران جعلی استفاده کرده است. یوجینیو توچینی و همکارانش [3]، تنها بر روی گراف کاربرانی که در فیسبوک، پست یکدیگر را پسندیدن کار کرده است و همچنین، آدام بروئر و همکارانش [65]، برای شناسایی حساب کاربران جعلی فقط ازگراف اتصالات در شبکه استفاده کردهاند که این ویژگی در زمانهایی که شروع سرد در شبکه وجود دارد، کارایی ضعیفی از خود نشان میدهد، به همین دلیل، در این مقاله از ویژگی بافتار-کاربر هم استفاده شده است. سید مهدی حسینی مطلق و همکارانش [41]، از الگوریتم خوشهبندی براساس ویژگیهای مبتنی بر محتوا برای شناسایی اخبار جعلی استفاده کرده است. شو یانگ و همکارانش [42]، از ویژگی مبتنی بر شبکه برای شناسایی کاربر جعلی استفاده کردهاند که مشکل شروع سرد در کار آنها نیز دیده میشود. تائن فان و همکارانش [43]، از نحوه نگارش کاربر و با تعبیه متن نگارش شده به بردار ویژگی، حساب کاربران جعلی را شناسایی میکند. محمدرضا محمدرضایی و همکارانش [19]، با ایجاد گراف دوستی بین کاربران و محاسبه معیارهای شباهت مانند جاکارد و کسینوس و غیره اقدام به شناسایی کاربران جعلی میکند، همچنین، آنها از روش بیش نمونهبرداری اقلیت مصنوعی برای ایجاد توازن در مجموعه داده استفاده کردهاند. اما در این مقاله، علاوه بر ویژگی شبکه بر روی ویژگیهای کاربر هم کار شده است و برای متوازنسازی داده از روشهای مبتنی بر یادگیری عمیق به کمک شبکه مولد متخاصم شرطی استفاده شده است. همچنین، ملیک متین و همکارانش [44]، برای شناسایی کاربرانی که در شبکه توئیتر هرزنامه ایجاد میکنند، از ترکیب سه ویژگی یعنی مبتنی بر محتوا، بافتار-کاربر و بافتار-شبکه استفاده کرده است، اما باید اثرگذاری مدل آنها در شرایط نامتوازن بودن مجموعه داده نیز بررسی گردد. چائو چن و همکارانش [45]، برای شناسایی هرزنامههای موجود در توئیتر از ویژگیهای مبتنی بر بافتار استفاده کرده است. در این مقالات نیز مشکل عدم توازن داده مطرح نیست. یانگ لیو و همکارانش [66]، با اعمال ویژگیهای مبتنی بر بافتار-کاربر و محتوا روی پاسخ کاربران، اخبار جعلی را شناسایی میکنند. ضمناً، آنها با کمک شبکه عصبی بر مشکل شروع سرد غلبه کردهاند. در شکل 6 دستهبندی از مطالب گفتهشده براساس ویژگی مورد استفاده مقالات نشان داده شده است.
[1] 1 Credibility
[2] 2 Fake account
[3] 3 Malicious
[4] 4 Spam
[5] 5 Fake users
[6] 6 Online Social Network (OSN)
[7] 7 https://blog.pixelfish.com.au/twitter-vs-facebook-vs-instagram-vs-linkedin
[8] 8 Conditional generative adversarial network (CGAN)
[9] 9 Embedding
[10] 10 Manual
[11] 11 Synthetic Minority Oversampling Technique (SMOTE)
[12] 12 Accuracy
[13] 13 Recall
[14] 14 F-measure
[15] 15 Precision
[16] 16 Noise
[17] 17 Min-Max
[18] 18 Mini-batch
[19] 19 Saturation
[20] 20 Gradient-Based
[21] 21 Embedding
[22] 22 Equivalence
[23] 23 Hemophilia
[24] 24 Community
[25] 25 Structural
[26] 26 Random walk
[27] 27 Breadth First Search (DFS)
[28] 28 Depth First Search (BFS)
[29] 29 Tweet
[30] 30 Follower
[31] 31 Following
[32] 32 Retweet
[33] 33 Trending Topic
[34] 34 Content-based
[35] 35 Context-based
[36] 36 Syntax
[37] 37 Semantic
[38] 38 Lexical
[39] 39 Network-based
[40] 40 User-based
[41] 41 Clustering Coefficient
[42] 42 Like
[43] 43 Cold start
[44] 44 Attention mechanism-based methods
[45] 45 Term Frequency - Inverse Document Frequency (TF-IDF)
[46] 46 RNN
[47] 47 Deep Structured Semantic Model (DSSM)
[48] 48 Convolutional Neural Network (CNN)
[49] 49 Fake reviewer
شکل 6 . گونه شناسی مقالات براساس ویژگیهای مورد استفاده در آنها
در شکل7 و8 سال انتشار مقالات با دو عدد آخر آن سال نشان داده شده است. به طور مثال، سال 2020 با 20 نمایش داده شده است. در شکل7 دستهبندی مقالات از دیدگاه استفاده از الگوریتمهای کلاسبندی و خوشهبندی و وجود توازن در مجموعه داده بررسی شده است. در شکل 8 مقالات از منظر سال انتشار و ویژگی مورد استفاده و مجموعه داده استفاده شده، دستهبندی شدهاند.
|
شکل 7. دستهبندی مقالات از منظر خوشهبندی/کلاسبندی و توازن در مجموعه داده |
شکل 8 . دستهبندی مقالات براساس ویژگیها و مجموعه داده مورد استفاده
با توجه به مطالعات انجام گرفته مشخص شد اکثر تحقیقات در این حوزه بر روی مجموعه داده متوازن صورت گرفته است و به مجموعه دادههای واقعی که عدم توازن داده در آنها وجود دارد، توجه اندکی شده است. بنابراین در این پژوهش، سیستمی برای شناسایی کاربران منتشرکننده اخبار جعلی با بهرهگیری از ویژگیهای مبتنی بر بافتار شامل ترکیب ویژگیهای شبکه با ویژگیهای مبتنی بر کاربر پیشنهاد داده شده است. علاوه بر این، در این سیستم، مدلی برای حل عدم توازن مجموعه داده واقعی به کمک شبکه مولد متخاصم شرطی ارائه شده است که با توجه به بررسیهای انجام شده نسبت به کارهای پیشین نوآوری به همراه دارد.
3 سیستم پیشنهادی
در این بخش جزئیات سیستم پیشنهادي به طور کامل شرح داده میشود. مراحل شناسایی کاربران منتشرکننده اخبار جعلی با یادگیری ماشین در این مقاله شامل شش مرحله میباشد که به طور خلاصه در شکل9 نمایش داده شده است:
شکل 9. مراحل سیستم پیشنهادی
مرحله اول شامل گردآوری مجموعه داده مناسب است. به همین منظور، در این مقاله از مجموعه داده شبکه توئیتر در زبان فارسی استفاده شده است. به همین منظور، از مجموعه داده "RumorTwitterKNTU" که به کمک رابط برنامهنویسی نرمافزار1 تعبیه شده توسط وب سایت توئیتر و twitter4j جمعآوری شده بود، استفاده شده است2. این مجموعه داده شامل 3598049 توئیت است که توسط 111981 کاربر که با زبان فارسی در بازه زمانی دو هفتهای از 3 آذر ماه سال 1396 تا 17 آذر ماه سال 1396 در مدت وقوع زلزله کرمانشاه ایران در توئیتر انتشار یافته است [47]. در مرحله دوم برچسبدهی دادهها به دو کلاس کاربران منتشرکننده اخبار جعلی وکاربران عادی صورت میگیرد، که در این مرحله از بین 4345 توئیت که از قبل در مجموعه داده با برچسب شایعه نامگذاری شده بود، طی فرآیند انسانی توسط نگارنده این مقاله، متن توئیتها با اطلاعات سایت شایعات3 بازبینی شده است. نهایتاً، 2878 توئیت با برچسب پیام جعلی نامگذاری شده است. در نتیجه، اگر حساب کاربری حداقل یک بار اخبار و اطلاعات جعلی در این مدت پست کرده باشد، آن حساب کاربری با عنوان "کاربر منتشرکننده اخبار جعلی" برچسبگذاری شده است. در نتیجه، 2129 کاربر با برچسب "کاربر منتشرکننده اخبار جعلی" و 109852 کاربر با برچسب "کاربر عادی" نامگذاری شده است. در نهایت، مجموعه داده استاندارد به نام "FakeUser_KNTU (FU_KNTU)" ایجاد گشت.
سپس لازم است تا ویژگیهای موردنیاز برای شناسایی کاربران منتشرکننده اخبار جعلی استخراج شود. این مقاله تمرکز خود را بر روی تأثیر ویژگیهای مبتنی بر بافتار که ترکیب ویژگیهای کاربر و شبکه است، گذاشته است. به همین منظور، در مرحله سوم برای استخراج ویژگیهای مبتنی بر کاربر، 28 ویژگی از اطلاعات کاربران در نظر گرفته شده است؛ در جدول 1 اطلاعات و تعاریف آنها قابل مشاهده است. نهایتاً، این ویژگیها به بردار ویژگی تبدیل شده است.
جدول 1. ویژگیهای مبتنی بر بافتار-کاربر و تعاریف آنها
نام ویژگی | تعریف ویژگی | ||||||||||||
1- Userid | عدد صحیحی است که نشاندهنده شناسه منحصر به فرد هر کاربر است. | ||||||||||||
2- uisDefaultProfileImage | آیا کاربر از عکس پیشفرض استفاده کرده است؟ | ||||||||||||
3- ugetFollowersCount | تعداد افرادی که کاربر را دنبال میکنند. | ||||||||||||
4- uisProfileUseBackgroundImage | آیا کاربر از عکس پسزمینهی پیشفرض استفاده کرده است؟ | ||||||||||||
5- uisDefaultProfile | آیا کاربر تم پروفایلش را عوض کرده است؟ | ||||||||||||
6- uisShowAllInlineMedia | آیا کاربر لینک ویدیو را گذاشته است و یا خود ویدئو را آپلود کرده است؟ | ||||||||||||
7- ugetFriendsCount | تعداد افرادی که کاربر آنها را دنبال میکند. | ||||||||||||
8- Uyear | سال ایجاد حساب کاربری | ||||||||||||
9- Umonth | ماه ایجاد حساب کاربری | ||||||||||||
10- Uday | روز ایجاد حساب کاربری | ||||||||||||
11- Uhour | ساعت ایجاد حساب کاربری | ||||||||||||
12- Uminute | دقیقه ایجاد حساب کاربری | ||||||||||||
13-Usecond | ثانیه ایجاد حساب کاربری | ||||||||||||
14- ugetFavouritesCount | تعداد توئیتهایی که این کاربر پسندیده است. | ||||||||||||
15- UgetUtcOffset | منطقه زمانی کاربر را نشان میدهد. | ||||||||||||
16- uisProfileBackgroundTiled | آیا پسزمینهی کاربر قالب کاشیکاری دارد؟ | ||||||||||||
17- ugetStatusesCount | تعداد توئیت و ریتوئیتهایی که توسط کاربر ایجاد شده است. | ||||||||||||
18- uisGeoEnabled | آیا منطقه زمانی کاربر فعال است؟ | ||||||||||||
19-uisVerified | این ویژگی نشان میدهد آیا کاربر مورد علاقه عموم مردم است؟ کاربرانی که تیک آبی کنار پروفایل خود دارند، یعنی مورد علاقه عموم مردم هستند . | ||||||||||||
20- uisTranslator | آیا کاربر مترجم است؟ | ||||||||||||
21- ugetListedCount | تعداد لیستهای عمومی که کاربر عضو آن است. | ||||||||||||
22- uTweetCountIn15Days | تعداد توئیت ایجاد شده توسط کاربر در بازه دو هفتهای جمعآوری اطلاعات | ||||||||||||
23- uRetweetCountIn15Days | تعداد ریتوئیت ایجاد شده توسط کاربر در بازه دو هفتهای جمعآوری اطلاعات | ||||||||||||
24- AlphaForSI | مقدار آن، از طریق رابطه 5 محاسبه شده است.
| ||||||||||||
25- SI |
| ||||||||||||
26- AlphaForSI2 | مقدار آن، از طریق رابطه 7 محاسبه شده است.
| ||||||||||||
27- SI2 | برای محاسبه اثرگذاری اجتماعی کاربر از رابطه 8 به دست آمده است.
| ||||||||||||
28- userAge | تفاوت زمان ساخت حساب کاربری و زمان گرفتن داده از توئیتر را نشان میدهد. |
نام الگوریتم | روش کار |
1- SMOTE | این روش، بین کِی نزدیکترین همسایه نمونه کلاس اقلیت و خود نمونه کلاس اقلیت داده مصنوعی تولید میکند [55]. |
2- Tomek links | این روش، دادههای کلاس اکثریت که در توزیع کلاس اقلیت هستند و به صورت خطی نمیتوان دو کلاس را از هم جدا کرد را حذف میکند و سپس داده مصنوعی تولید میکند [56]. |
3- ENN | این روش، اگر حداقل دو برچسب از سه همسایه دادههای موجود در هر دو کلاس اقلیت و اکثریت شبیه برچسب خود نمونه نباشد، نمونه را از مجموعه داده حذف میکند. نهایتاً، بعد از اعمال تمیزی16 داده مصنوعی تولید میکند [56]. |
4-Borderline-SMOTE (Borderline1,Borderline2) | این روش، به دنبال رسم خط جداکننده دقیقتر بین دو کلاس اقلیت و اکثریت است. سپس، نمونههای نزدیک خط مرزی را با ایجاد داده مصنوعی بیشتر میکند [57] . |
5- Cluster-Smote | این روش، ابتدا با اجرای الگوریتم k-means خوشههای کلاس اقلیت را پیدا میکند و بعد الگوریتم SMOTE را روی هر خوشه ایجادشده اعمال میکند، تا داده مصنوعی تولید کند [58]. |
6- Distance-SMOTE | این روش، ابتدا میانگین کِی نزدیکترین همسایه را پیدا میکند و سپس فاصله نمونه میانگین را با نمونه اصلی میسنجد و این فاصله را در عددی تصادفی بین صفر و یک ضرب میکند و نهایتاً شروع به تولید داده مصنوعی میکند [59]. |
7- ADASYN | این روش، توزیع وزندار بین نمونههای کلاس اقلیت در نظر میگیرد و دادههای مصنوعی بیشتری برای نمونههایی که یادگیری آنها سختتر است، ایجاد میکند و برای نمونههایی که یادگیری آنها آسانتر است، دادههای کمتری تولید میکند [60]. |
8- Random-SMOTE | این روش، با انتخاب دو نقطه به صورت تصادفی در فضای داده کلاس اقلیت، مثلثی بین نمونه کلاس اقلیت و دو نقطه انتخابی شکل میدهد. سپس، در مثلث ایجادشده به هر تعداد که لازم است تا مجموعه داده متوازن شود، داده مصنوعی تولید میکند [61]. |
9- Gaussian- SMOTE | این روش، برخلاف SMOTE که از توزیع احتمال یکنواخت و الگوریتم کِی نزدیکترین همسایه17 برای تولید داده مصنوعی برای کلاس اقلیت استفاده میکند، در این روش از ترکیب الگوریتم کِی نزدیکترین همسایه و توزیع احتمال گوسی استفاده میشود [62]. |
10- CURE-SMOTE | این روش، خوشهبندی کلاس اقلیت را با خوشهبندی توسط بازنمایی18 انجام میدهد و بعد از حذف داده پرت، داده مصنوعی تولید میکند [63]. |
11- CCR | این روش، ابتدا همسایههای نمونه کلاس اقلیت اگر شامل نمونه کلاس اکثریت باشد را حذف میکند و سپس، داده مصنوعی بیشتری برای نمونههایی که یادگیری آنها سختتراست، تولید میکند [64]. |
4.2 داده
همانطور که در بخش 3 توضیح داده شد، مجموعه داده توئیتر در زبان فارسی در مدت وقوع زلزله کرمانشاه در بازه زمانی دو هفتهای از 3 آذر ماه سال 1396 تا 17 آذر ماه سال 1396 به نام " FU_KNTU" برای شناسایی کاربران منتشرکننده اخبار جعلی توسط نگارنده جمعآوری و استفاده شده است. همانطور که در قسمت مقدمه اشاره شد، مجموعه داده در زبان فارسی در شبکه توئیتر به منظور استفاده در شناسایی کاربران منتشرکننده اخبار جعلی وجود نداشته است؛ بنابراین، از دستاوردهای این پژوهش میتوان به ایجاد این مجموعه داده و گسترش آن برای استفاده در پژوهشها اشاره کرد؛ این مجموعه داده از طریق لینک زیر قابل دسترسی است19. خلاصهای از اطلاعات این مجموعه داده در جدول 3 آمده است.
جدول 3 . خلاصهای از اطلاعات مجموعه داده
تعدادکاربر | 111981 |
تعداد توئیت | 3598049 |
تعداد خبر شایعه | 4345 |
تعداد خبر جعلی | 2878 |
تعداد کاربران منتشرکننده اخبار جعلی | 2129 |
تعداد کاربرانی که روی توئیت آنها پاسخ گذاشته شده است. | 55877 |
تعداد کاربران منتشرکننده اخبار جعلی که روی توئیت آنها پاسخ گذاشته شده است. | 1765 |
4.3 معیارهای ارزیابی
برای ارزیابی عملکرد روشهای مبتنی بر یادگیری ماشین، از معیارهایی استفاده میشود، که خلاصهای از تعاریف آنها در ادامه آمدهاست. به همین منظور، در ادامه برای ارزیابی سیستم پیشنهادی و مقایسه سیستم با رقبا از این معیارها استفاده شده است.
§ فراخوانی یا نرخ مثبت درست20 مشخص میکند چه تعداد از نمونههای مرتبط بازیابی شدهاند.
§ دقت مشخص میکند چه تعداد از نمونههای بازیابیشده واقعا مرتبط هستند.
§ صحت مشخص میکند چه نسبتی از نمونهها به طور صحیح کلاسبندی شدهاند.
§ نرخ مثبت کاذب21 مشخص میکند چه تعداد از نمونههای نامرتبط بازیابی شدهاند.
§ AUC_ROC22 نشان میدهد چه مقدار سیستم توانسته بین کلاسها تمایز ایجاد کند. مقدار آن از سطح زیر نموداری که در محور افقی آن، نرخ مثبت کاذب و در محور عمودی آن، نرخ مثبت درست قرار میگیرد، به دست میآید. اگر این مقدار بین 5/0 و 1 باشد، نشاندهنده احتمال بالای سیستم در ایجاد تمایز بین کلاسها است. اگر این مقدار برابر 5/0 باشد، به این معنا است که کلاسبند نمیتواند بین دو کلاس تمایز ایجاد کند. تعیین مقدار آستانه23 برای این نمودار به میزان اهمیت دادن به نرخ مثبت کاذب و نرخ مثبت درست در کلاسبندی بستگی دارد. در این مقاله، به جهت وجود اهمیت یکسان در بین دو کلاس، مقدار آستانه برابر مقدار 5/0 درنظر گرفته شده است [69].
§ زیان24 نشانمیدهد چه قدر پیشبینی سیستم روی یک نمونه خاص بد بوده است. اگر پیشبینی سیستم عالی باشد، مقدار آن برابر صفر است و بر عکس.
§ معیار اف نیز که ترکیبی از دقت و فراخوانی است، به صورت رابطه 9 تعریف میشود.
(9) | معیار-اف = |
مقدار | پارامتر |
5 | اندازه هسته25 |
128, 64, 32, 1 | تعداد لایههای فیلتر(تولیدکننده)26 |
32, 64, 128, 256 | تعداد لایههای فیلتر(تمایزدهنده)27 |
1,2 | تعداد گام حرکت28 |
100 | اندازه فضای پنهان29 |
64 | اندازه دسته30 |
v محاسبه ماتریس ورودی شبکه مولد متخاصم شرطی
شبکه مولد متخاصم از شبکه عصبی پیچشی در مؤلفههای خود استفاده میکند. بنابراین، ورودی شبکه مولد متخاصم شرطی یک ماتریس دوبعدی n*nاست؛ لازم است تا اطلاعات از شکل بردار یک بعدی n تایی به ماتریسی به ابعاد n*n تبدیل شود. برای تحقق این هدف سه ایده بررسی شده است. در ایده قطری(D)31 ویژگیها بر روی قطر اصلی قرار میگیرند و سایر سلولها صفر خواهند بود. در ایده جمع(S)32 ویژگیها در درایههای نظیر به نظیر با یکدیگر جمع میشوند. در ایده ضرب (M)33 ویژگیها در درایههای نظیر به نظیر ضرب میشوند.
هر سه ایده با 40000 بار تکرار گام در شبکه مولد متخاصم شرطی آزمایش شده است. نمودارهای صحت و زیان مؤلفه تمایزدهنده شبکه مولد متخاصم شرطی برای ایده قطری، جمعی، ضربی در شکل 12 رسم شده است. سطر اول ایده قطری و سطر دوم ایده جمعی و سطر سوم ایده ضربی را نشان میدهد. محور افقی نمودارها نشاندهنده تعداد گام اجرا شبکه مولد متخاصم شرطی و محور عمودی به تفکیک در هر نمودار از راست به چپ، نشاندهنده صحت و زیان تمایزدهنده است.
[1] 50 Application Programming Interface (API)
[2] 51 https://trlab.ir/res.php?resource_id=3
[4] 53 User’s social influence
[5] 54 Reply
[6] 55 Majority
[7] 56 Imbalanced Ratio (IR)
[8] 57 Resampling
[9] 58 Oversampling
[10] 59 Under-sampling
[11] 60 Local
[12] 61 Overlapping
[13] 62 Outlier
[14] 63 Cost-sensitive
[15] 64 Global
[16] 65 Cleaning
[17] 66 K- Nearest Neighbor (KNN)
[18] 67 Clustering Using Representatives (CURE)
[19] 68 https://trlab.ir/res.php?resource_id=7
[20] 69 True Positive Rate (TPR)
[21] 70 False Positive Rate (FPR)
[22] 71 Area Under the Curve(AUC)- Receiver Operating Characteristics (ROC)
[23] 72 Threshold
[24] 73 Loss
[25] 74 Kernel-size
[26] 75 layer-filters(generator)
[27] 76 layer-filters(discriminator)
[28] 77 strides
[29] 78 latent-size
[30] 79 batch-size
[31] 80 Diagonal
[32] 81 Sum
[33] 82 Multiply
|
شکل 12. سطر اول نمودارهای صحت و زیان تمایزدهنده برای ایده قطری، سطر دوم نمودارهای صحت و زیان تمایزدهنده برای ایده جمع، سطر سوم نمودارهای صحت و زیان تمایزدهنده برای ایده ضرب را نشان میدهد. |
تمایزدهنده قصد دارد مقدار زیان خود را کاهش دهد، در صورتیکه تولیدکننده باید با فریبدادن تمایزدهنده مانع ازکاهش زیان تمایزدهنده شود و باید بتواند صحت تمایزدهنده را نیز کاهش دهد. همانطور که در شکل 12 نشانداده شده است، این اتفاق به درستی در ایده قطری رخ داده است و در دو ایده جمعی و ضربی تولیدکننده نتوانسته تمایزدهنده را فریب دهد. در نتیجه، ورودی قطری برای آموزش شبکه مولد متخاصم شرطی و ادامه آزمایشات در نظر گرفته شده است.
v تعیین شرط پایان آموزش شبکه مولد متخاصم شرطی
شرط پایان آموزش شبکه مولد متخاصم شرطی براساس تعداد گام تکرار تعیین شده است. به همین منظور، برای نشاندادن کیفیت دادههای مصنوعی تولید شده، این دادهها همراه با دادههای واقعی به کلاسبند، ماشین بردار پشتیبان1 داده شده است. بدیهی است، هرچه معیارهای ارزیابی کلاسبند بالاتر باشد، نشان میدهد که دادههای مصنوعی تولید شده توسط شبکه مولد متخاصم شرطی به خوبی ویژگیهای دادههای واقعی را یادگرفتهاند. در شکل 13 محور افقی تعداد گامها و محور عمودی معیارهای ارزیابی دقت، فراخوانی، معیار-اف و صحت هر گام را نشان میدهد. همانطور که در شکل 13 مشهود است ، طبق فرضیات در نظر گرفته شده، 10000 گام برای آموزش شبکه بر روی ترکیب ویژگیهای مبتنی بر بافتار-کاربر و بافتار-شبکه نتایج بهتری تولید کرده است.
شکل 13. نمودار "الف" تعداد گام و نتایج "فراخوانی " هر گام ، نمودار "ب" تعداد گام و نتایج "دقت" هر گام ، نمودار "ج" تعداد گام و نتایج "صحت" هر گام و نمودار "د" تعداد گام و نتایج "معیار-اف" هر گام در کلاسبند svm را نشان میدهد.
نمودار صحت و زیان برای 10000 گام در شکل 14 رسم شده است. محور افقی نمودارها نشاندهنده تعداد گام اجرا شبکه مولد متخاصم شرطی و محور عمودی به تفکیک در هر نمودار نشاندهنده صحت و زیان هر مؤلفه است. همچنین، با کمک ابزار کاهش بعد T-SNE دادههای مصنوعی تولیدی برای کاربر منتشرکننده اخبار جعلی و دادههای کاربر منتشرکننده اخبار جعلی موجود در مجموعه داده در شکل 15 رسم شده است. در این شکل، دادههای تولیدی توسط شبکه مولد متخاصم شرطی برای کاربر منتشرکننده اخبار جعلی با دایره قرمزرنگ در نمودار نشان داده شده است و همچنین، دادههای اصلی مجموعه داده برای کاربر منتشرکننده اخبار جعلی با مربع سفیدرنگ در نمودار نشان داده شده است. در ابزار T-SNE هرچه دو داده به هم شبیهتر باشند، با فاصله کمتری کنار هم رسم میشوند [9]. همانطور که در شکل 15 با علامت ستاره مشخص شده است، شبکه مولد متخاصم شرطی هم توانسته به خوبی توزیع داده را یاد بگیرد و هم دادههای تولیدی مصنوعی جدید تولید کند.
[1] 83 Support Vector Machine (SVM)
|
شکل 14. "الف ، ب"به ترتیب، نمودار صحت و زیان تمایز دهنده و "ج ، د"به ترتیب، نمودار صحت و زیان تولیدکننده در 10000 گام را نشان میدهد. |
|
شکل 15. نمودار T-SNE، داده تولیدی مصنوعی و داده موجود در مجموعه داده برای کاربر منتشرکننده اخبار جعلی را نشان میدهد. |
بعد از آموزش با 10000 گام، 54112 داده مصنوعی با برچسب کاربر منتشرکننده اخبار جعلی به فرمت بردار ویژگی اولیه درآمد و به مجموعه داده قبلی اضافه گشت تا در مجموعه داده توازن ایجاد شود. نهایتاً، در مجموعه داده 55878 کاربر منتشرکننده اخبار جعلی و 55877 کاربر عادی با ترکیب ویژگیهای مبتنی بر بافتار-کاربر و بافتار-شبکه وجود دارد.
4.5.2 پارامترهای مؤثر در محاسبه ویژگیهای شبکهای
در روش Node2vec همانطور که در بخش پیشزمینه معرفی شد، تعیین دو پارامترp,q اهمیت ویژهای دارد. به طوریکه، اگر p<1 باشد، معادلات ساختاری با جستجوی اول سطح در گراف درنظر گرفته میشود و دید محلی از گراف ایجاد میکند. اما اگر q<1 باشد، معادلات هموفیلی با جستجوی اول عمق در گراف در نظر گرفته میشود و دید سراسری از گراف ایجاد میکند. درنهایت، اگر p=1,q=1 باشد، یعنی هر دو معادلات ساختاری و هموفیلی به یک اندازه در نظر گرفته میشود. نتیجه بررسی هرسه حالت روی گراف تعاملات بین کاربران در جدول 5 آمده است. حالت p=1,q=0.5 با توجه به عملکرد بهتر انتخاب میشود. این نشان دهندهی این است که کاربران منتشرکننده اخبار جعلی با یکدیگر تشکیل جامعه دادهاند.
جدول5 . بررسی تأثیر p,q
معیار-اف | فراخوانی | دقت |
|
35/0 | 35/0 | 35/0 | P=5/0,q=1 |
69/0 | 69/0 | 68/0 | P=1,q=5/0 |
59/0 | 59/0 | 59/0 | P=1,q=1 |
سایر پارامترهای مهم Node2vec در جدول 6 مشخص شده است.
جدول 6 . تعدادی از پارامترهای مهم Node2vec
پارامتر | مقدار |
تعداد پیادهروی به ازای هر گره1 | 10 |
طول گامهای2 پیادهروی تصادفی | 80 |
اندازه پنجره skip-gram | 10 |
4.5.3 بررسی تأثیر ویژگیها روی سیستم پیشنهادی
علائم اختصاری برای کاربر منتشرکننده اخبار جعلی با FUD، شبکه مولد متخاصم شرطی با CGAN، ورودی قطری با D و ویژگی مبتنی بر بافتار-کاربر3 با CUو ویژگی مبتنی بر بافتار-شبکه4 با CN نام گذاری شدهاند و از کلاسبند ماشین بردار پشتیبان و نیو بیز5 و کِی نزدیکترین همسایه برای این آزمایش استفاده شده است.
در هر سه نمودار شکلهای 16، 17 و 18 به ترتیب از سمت چپ نتایج کلاسبندها را با استفاده از مجموعه داده نامتوازن در شناسایی کاربران منتشرکننده اخبار جعلی با درنظر گرفتن ویژگیهای مبتنی بر بافتار-کاربر را نشان میدهد. همانطور که مشهود است، الگوریتمهای یادگیری ماشین در صورتیکه در کلاسهای مجموعه داده توازن وجود نداشته باشد، نتایج خوبی از خود نشان نمیدهند. بنابراین، در این مقاله برای ایجاد توازن از شبکه مولد متخاصم شرطی، کمک گرفته شده است. همانطور که مشهود است، صحت نمیتواند معیار خوبی برای ارزیابی در مجموعه دادههای نامتوازن باشد؛ به همین منظور، از معیارهای دیگری نیز استفاده شده است. سپس، نتایج کلاسبندها با استفاده از مجموعه داده متوازنشده با شبکه مولد متخاصم شرطی با تمرکز بر ویژگیهای مبتنی بر بافتار-کاربر نشان داده شده است. در آخر، نتایج کلاسبندها با استفاده از مجموعه دادهی متوازنشده با شبکه مولد متخاصم شرطی با تمرکز بر ترکیب ویژگیهای مبتنی بر بافتار-کاربر و ویژگیهای مبتنی بر بافتار-شبکه نشان داده شده است.
[1] 84 Number of walk per node
[2] 85 Walk Length
[3] 86 Context-User (CU)
[4] 87 Context-Network (CN)
[5] 88 Naive Bayes
|
شکل 16. به ترتیب از سمت چپ نتایج استفاده از مجموعه داده نامتوازن و سپس، نتایج استفاده ازمجموعه داده متوازنشده با CGAN با تمرکز بر ویژگی بافتار-کاربر و در آخر، نتایج استفاده ازمجموعه داده متوازنشده با CGAN با تمرکز برترکیب ویژگیهای بافتار-کاربر و بافتار-شبکه با کلاسبند SVM نشان داده شده است. |
|
شکل 17. به ترتیب از سمت چپ نتایج استفاده از مجموعه داده نامتوازن و سپس، نتایج استفاده ازمجموعه داده متوازنشده با CGAN با تمرکز بر ویژگی بافتار-کاربر و در آخر، نتایج استفاده ازمجموعه داده متوازنشده با CGAN با تمرکز برترکیب ویژگیهای بافتار-کاربر و بافتار-شبکه با کلاسبند Naïve Bayes نشان داده شده است. |
|
شکل 18. به ترتیب از سمت چپ نتایج استفاده از مجموعه داده نامتوازن و سپس، نتایج استفاده ازمجموعه داده متوازنشده با CGAN با تمرکز بر ویژگی بافتار-کاربر و در آخر، نتایج استفاده ازمجموعه داده متوازنشده با CGAN با تمرکز برترکیب ویژگیهای بافتار-کاربر و بافتار-شبکه با کلاسبند KNN نشان داده شده است. |
همانطور که در نمودارها مشاهده میشود، ترکیب دو ویژگی و ایجاد توازن در مجموعه داده با کمک شبکه مولد متخاصم شرطی، در عملکرد سیستم پیشنهادی نهایی (FUD+D+CGAN+CU+CN)، در هر سه کلاسبند بهبود ایجاد کرده است. به طور مثال، در شکل 18 سیستم پیشنهادی توانسته در کلاسبند KNN به اعداد 99%، 97% ، 98% ،98 % و 98% به ترتیب در معیارهای ارزیابی دقت، فراخوانی، معیار-اف، صحت و AUC-ROC دست پیدا کند.
4.6 مقایسه سیستم پیشنهادی با رقبا
در این مقاله برای تولید داده مصنوعی از شبکه مولد متخاصم شرطی استفاده شده است که بهبود عملکرد آن نسبت به استفاده از روشهای سایر رقبا برای تولید داده مصنوعی با تمرکز بر ترکیب ویژگیهای مبتنی بر بافتار-کاربر و مبتنی بر بافتار-شبکه در شکل 19 نشان داده شده است.
|
شکل 19. مقایسه سیستم پیشنهادی( شبکه مولد متخاصم شرطی) بانسخههای متفاوت روش بیش نمونهبرداری اقلیت مصنوعی در ترکیب ویژگیهای مبتنی بر بافتار-کاربر و مبتنی بر بافتار-شبکه |
همانطور که در نمودار شکل 19 مشاهده میشود، سیستم پیشنهادی این مقاله از تمام روشهای موجود برای متوازنسازی داده نامبردهشده عملکرد بهتری داشته است. برای مثال، حتی در مقایسه با نزدیکترین الگوریتم یعنی الگوریتم CURE به مقدار9%، 5 %،8 %، 9 % و همچنین، به نسبت الگوریتم پایهای مانند SMOTE به مقدار 11 %، 13 % ،12 % و 12 % به ترتیب در معیارهای دقت، فراخوانی، معیار اف و صحت بهتر عمل کرده است. باید اشاره داشت که با توجه به عملکرد بهتر نسبت به رقبا، سیستم پیشنهادی به دلیل استفاده از یادگیری عمیق از نظر پیچیدگی و زمان اجرا هزینه بالاتری به نسبت رقبایش دارد که در جدول 7 این مقایسه نشان داده شده است.
جدول 7. زمان اجرا (برحسب ثانیه) سیستم پیشنهادی در مقایسه با رقبا
سیستم پیشنهادی (استفاده از CGAN برای متوازنسازی داده) | CCR | Cure | Gaussian | Random | Adasyn | Distance | Cluster | Borderline2 | Borderline1 | ENN | TomekLinks | SMOTE | نام الگوریتم |
36/9559 | 42/39 | 29/46 | 26/20 | 3/17 | 51/23 | 48/17 | 97/47 | 43/25 | 56/22 | 15/271 | 88/277 | 96/29 | زمان اجرا
|
5 نتیجهگیری
با توجه به فراگیری شبکههای اجتماعی در بین مردم و امکان انتشار بیشتر اخبار و اطلاعات نادرست نسبت به گذشته و همچنین، اهمیت بالای شناسایی منبع منتشرکننده این اطلاعات نادرست، در این مقاله، یک سیستم برای شناسایی کاربران منتشرکننده اخبار جعلی که اقدام به انتشار نادرست در توئیتر در زبان فارسی کردهاند، پیشنهاد شده است. این سیستم بر مبنای استفاده از ویژگیهای مبتنی بر بافتار یعنی ترکیب ویژگیهای مبتنی بر کاربر و مبتنی بر شبکه پایهریزی شده است، که برای استخراج ویژگیهای مبتنی بر بافتار-کاربر از اطلاعات کاربران و برای استخراج ویژگیهای مبتنی بر بافتار-شبکه از تعبیه گره به بردار(Node2vec) برای تبدیل گراف تعاملات کاربران به بردار ویژگی کمک گرفته شده است. ضمناً، به دلیل عدم توازن در مجموعه داده از شبکه مولد متخاصم شرطی برای رفع این چالش استفاده شده است تا با تولید داده مصنوعی مجموعه داده به تعادل برسد. همچنین، عملکرد سیستم پیشنهادی به کمک کلاسبندها در طی دو سناریو تحلیل پارامتر حساسیت و مقایسه با رقبا بررسی شد. از دستاوردهای دیگر این مقاله میتوان به ایجاد و گسترش مجموعه داده جدید برای شناسایی کاربران منتشرکننده اخبار جعلی در شبکه توئیتر در زبان فارسی که منابع زبانشناسیکمتری دارد، به نام " FU_KNTU" در مدت وقوع زلزله کرمانشاه سال 1396 ایران اشاره کرد. با توجه به این موضوع که اکثر پژوهشهای اخیر در این حوزه بر روی مجموعه داده متوازن صورت گرفته است، از توجه به مجموعه دادههای نامتوازن که در دنیای واقعی وجود دارد، غفلت شده است. بنابراین، از مهمترین برتریهای سیستم پیشنهادی به طور متمایز نسب به پژوهشهای پیشین، میتوان به رفع چالش مجموعه داده نامتوازن با ایدهای جدید که در واقع، متوازنسازی با روش یادگیری عمیق به نام شبکه مولد متخاصم شرطی است، اشاره داشت. در نهایت نشان داده شد، سیستم پیشنهادی با یادگیری توزیعداده سراسری تا حدود 11% ، 13 % ،12 % و 12 % به ترتیب در معیارهای دقت، فراخوانی، معیار اف و صحت نسبت به رقبایش که بر روی یادگیری توزیع داده محلی تمرکز دارند، بهبود داشته است و توانسته است دقتی در حدود 99% در شناسایی کاربران منتشرکننده اخبار جعلی ایجاد کند. ضمناً، با ترکیب ویژگیهای مبتنی بر بافتار-کاربر و بافتار-شبکه عملکرد سیستم پیشنهادی افزایش داشته است. همچنین، با ترکیب این دو ویژگی، مشکل شروع سرد در شبکه وجود نخواهد داشت. اما باید به اینکه اشاره داشت که شبکه مولد متخاصم به دلیل استفاده از یادگیری عمیق زمان آموزش و پیچیدگی بیشتری نسبت به رقبایش دارد. در آخر، از کارهای آتی میتوان به تغییر ورودی شبکه مولد متخاصم شرطی اشاره کرد تا با عدم تبدیل ورودی به ماتریس، مقدار خطای حاصل از این فرض کاهش یابد. علاوه بر این، ترکیب ویژگیهای مبتنی بر محتوا و ویژگیهای ذکرشده و همچنین، تنظیم سایر پارامترها با آموزش بر روی مجموعه داده، سیستم دقیقتری خواهد ساخت. نهایتاً، روشی برای رفع پیچیدگی وکاهش زمان آموزش شبکه مولد متخاصم شرطی ارائه داد.
مراجع
[1] Parikh, S.B. and P.K. Atrey. "Media-rich fake news detection: A survey. " in 2018 IEEE Conference on Multimedia Information Processing and Retrieval (MIPR). 2018. IEEE.
[2] Kochkina, E., M. Liakata, and A. Zubiaga, "All-in-one: Multi-task learning for rumour verification. " arXiv preprint arXiv:1806.03713, 2018.
[3] Tacchini, E., et al., "Some like it hoax: Automated fake news detection in social networks. " arXiv preprint arXiv:1704.07506, 2017.
[4] Shu, K., et al., "Fake news detection on social media: A data mining perspective. " ACM SIGKDD explorations newsletter, 2017. 19(1): p. 22-36.
[5] Inuwa-Dutse, I., M. Liptrott, and I. Korkontzelos, "Detection of spam-posting accounts on Twitter. " Neurocomputing, 2018. 315: p. 496-511.
[6] Bindu, P., R. Mishra, and P.S. Thilagam, "Discovering spammer communities in Twitter. " Journal of Intelligent Information Systems, 2018. 51(3): p. 503-527.
[7] de Souza, J.V., et al., "A systematic mapping on automatic classification of fake news in social media. " Social Network Analysis and Mining, 2020. 10(1): p. 1-21.
[8] Grinberg, N., et al., " Fake news on Twitter during the 2016 US presidential election. " Science, 2019. 363(6425): p. 374-378.
[9] Maaten, L.v.d. and G. Hinton, "Visualizing data using t-SNE. " Journal of machine learning research, 2008. 9(Nov): p. 2579-2605.
[10] Gheewala, S. and R. Patel. "Machine learning based Twitter Spam account detection: a review. " in 2018 Second International Conference on Computing Methodologies and Communication (ICCMC). 2018. IEEE.
[11] Gaonkar, S., et al. " Detection Of Online Fake News: A Survey. " in 2019 International Conference on Vision Towards Emerging Trends in Communication and Networking (ViTECoN). 2019. IEEE.
[12] Hardalov, M., I. Koychev, and P. Nakov. " In search of credible news. " in International Conference on Artificial Intelligence: Methodology, Systems, and Applications. 2016. Springer.
[13] Goodfellow, I., et al. "Generative adversarial nets. " in Advances in neural information processing systems. 2014.
[14] Douzas, G. and F. Bacao, "Effective data generation for imbalanced learning using conditional generative adversarial networks. " Expert Systems with applications, 2018. 91: p. 464-471.
[15] Mirza, M. and S. Osindero, "Conditional generative adversarial nets. " arXiv preprint arXiv:1411.1784, 2014.
[16] Grover, A. and J. Leskovec. "node2vec: Scalable feature learning for networks. " in Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 2016. ACM.
[17] Conroy, N.K., V.L. Rubin, and Y. Chen, "Automatic deception detection: Methods for finding fake news. " Proceedings of the Association for Information Science and Technology, 2015. 52(1): p. 1-4.
[18] Bondielli, A. and F. Marcelloni, "A survey on fake news and rumour detection techniques. " Information Sciences, 2019. 497: p. 38-55.
[19] Mohammadrezaei, M., M.E. Shiri, and A.M. Rahmani, "Identifying fake accounts on social networks based on graph analysis and classification algorithms. " Security and Communication Networks, 2018. 2018.
[20] Yang, C., R. Harkreader, and G. Gu, "Empirical evaluation and new design for fighting evolving twitter spammers. " IEEE Transactions on Information Forensics and Security, 2013. 8(8): p. 1280-1293.
[21] Wang, A.H. "Don't follow me: Spam detection in twitter. " in 2010 international conference on security and cryptography (SECRYPT). 2010. IEEE.
[22] Benevenuto, F., et al. "Detecting spammers on twitter. " in Collaboration, electronic messaging, anti-abuse and spam conference (CEAS). 2010.
[23] Masood, Faiza, et al. "Spammer detection and fake user identification on social networks." IEEE Access 7 (2019): 68140-68152.
[24] Xie, Y., et al. "A Fake News Detection Framework Using Social User Graph. " in Proceedings of the 2020 2nd International Conference on Big Data Engineering. 2020.
[25] KARUNAKAR, M.G., et al., " ADAPTIVE DETECTING FAKE PROFILES IN ONLINE SOCIAL NETWORKS. "
[26] Della Vedova, M.L., et al. "Automatic online fake news detection combining content and social signals. " in 2018 22nd Conference of Open Innovations Association (FRUCT). 2018. IEEE.
[27] Shu, K., et al. "defend: Explainable fake news detection. " in Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019.
[28] Guacho, G.B., et al. "Semi-supervised content-based detection of misinformation via tensor embeddings. " in 2018 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining (ASONAM). 2018. IEEE.
[29] Shu, K., et al. "The role of user profiles for fake news detection. " in Proceedings of the 2019 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining. 2019.
[30] Shu, K., S. Wang, and H. Liu. "Beyond news contents: The role of social context for fake news detection. " in Proceedings of the Twelfth ACM International Conference on Web Search and Data Mining. 2019.
[31] Hamdi, T., et al. "A Hybrid Approach for Fake News Detection in Twitter Based on User Features and Graph Embedding. " in International Conference on Distributed Computing and Internet Technology. 2020. Springer.
[32] Aphiwongsophon, S. and P. Chongstitvatana. "Detecting fake news with machine learning method. " in 2018 15th International Conference on Electrical Engineering/Electronics, Computer, Telecommunications and Information Technology (ECTI-CON). 2018. IEEE.
[33] Hussain, M.G., et al., "Detection of Bangla Fake News using MNB and SVM Classifier. " arXiv preprint arXiv:2005.14627, 2020.
[34] Li, Y., et al., "Exploiting similarities of user friendship networks across social networks for user identification. " Information Sciences, 2020. 506: p. 78-98.
[35] Vijayaraghavan, S., et al., "Fake News Detection with Different Models. " arXiv preprint arXiv:2003.04978, 2020.
[36] Jadhav, S.S. and S.D. Thepade, "Fake news identification and classification using DSSM and improved recurrent neural network classifier. " Applied Artificial Intelligence, 2019. 33(12): p. 1058-1068.
[37] Ajao, O., D. Bhowmik, and S. Zargari. "Fake news identification on twitter with hybrid cnn and rnn models. " in Proceedings of the 9th international conference on social media and society. 2018.
[38] Zhang, J., B. Dong, and S.Y. Philip. "Fakedetector: Effective fake news detection with deep diffusive neural network. " in 2020 IEEE 36th International Conference on Data Engineering (ICDE). 2020. IEEE.
[39] Verma, A., V. Mittal, and S. Dawn. "FIND: Fake information and news detections using deep learning. " in 2019 Twelfth International Conference on Contemporary Computing (IC3). 2019. IEEE.
[40] Ruan, N., R. Deng, and C. Su, "GADM: Manual fake review detection for O2O commercial platforms. " Computers & Security, 2020. 88: p. 101657.
[41] Hosseinimotlagh, S. and E.E. Papalexakis. "Unsupervised content-based identification of fake news articles with tensor decomposition ensembles. " in Proceedings of the Workshop on Misinformation and Misbehavior Mining on the Web (MIS2). 2018.
[42] Yang, S., et al. "Unsupervised fake news detection on social media: A generative approach. " in Proceedings of the AAAI Conference on Artificial Intelligence. 2019.
[43] Phan, T.D. and N. Zincir‐Heywood, "User identification via neural network based language models. " International Journal of Network Management, 2019. 29(3): p. e2049.
[44] Mateen, M., et al. "A hybrid approach for spam detection for Twitter. " in 2017 14th International Bhurban Conference on Applied Sciences and Technology (IBCAST). 2017. IEEE.
[45] Chen, C., et al., "Statistical features-based real-time detection of drifted twitter spam. " IEEE Transactions on Information Forensics and Security, 2016. 12(4): p. 914-925.
[46] Volkova, S., et al. "Separating facts from fiction: Linguistic models to classify suspicious and trusted news posts on twitter. " in Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2017.
[47] Mahmoodabad, S.D., S. Farzi, and D.B. Bakhtiarvand. "Persian rumor detection on twitter. " in 2018 9th International Symposium on Telecommunications (IST). 2018. IEEE.
[48] Wang, W., et al. "Global-and-Local Aware Data Generation for the Class Imbalance Problem. " in Proceedings of the 2020 SIAM International Conference on Data Mining. 2020. SIAM.
[49] Rout, N., D. Mishra, and M.K. Mallick, "Handling imbalanced data: A survey", in International Proceedings on Advances in Soft Computing, Intelligent Systems and Applications. 2018, Springer. p. 431-443.
[50] Chen, H. and L. Jiang, " Efficient GAN-based method for cyber-intrusion detection. " arXiv preprint arXiv:1904.02426, 2019.
[51] Lee, J. and K. Park, "GAN-based imbalanced data intrusion detection system. " Personal and Ubiquitous Computing, 2019: p. 1-8.
[52] Kim, J.-Y., S.-J. Bu, and S.-B. Cho. "Malware detection using deep transferred generative adversarial networks. " in International Conference on Neural Information Processing. 2017. Springer.
[53] Radford, A., L. Metz, and S. Chintala, "Unsupervised representation learning with deep convolutional generative adversarial networks. " arXiv preprint arXiv:1511.06434, 2015.
[54] Kovács, G., "An empirical comparison and evaluation of minority oversampling techniques on a large number of imbalanced datasets. " Applied Soft Computing, 2019. 83: p. 1056.62.
[55] Chawla, N.V., et al., "SMOTE: synthetic minority over-sampling technique. " Journal of artificial intelligence research, 2002. 16: p. 321-357.
[56] Batista, G.E., R.C. Prati, and M.C. Monard, "A study of the behavior of several methods for balancing machine learning training data. " ACM SIGKDD explorations newsletter, 2004. 6(1): p. 20-29.
[57] Han, H., W.-Y. Wang, and B.-H. Mao. "Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning. " in International conference on intelligent computing. 2005. Springer.
[58] Cieslak, D.A., N.V. Chawla, and A. Striegel. "Combating imbalance in network intrusion datasets. " in GrC. 2006.
[59] De La Calleja, J. and O. Fuentes. "A Distance-Based Over-Sampling Method for Learning from Imbalanced Data Sets. " in FLAIRS Conference. 2007.
[60] He, H., et al. "ADASYN: Adaptive synthetic sampling approach for imbalanced learning. " in 2008 IEEE international joint conference on neural networks (IEEE world congress on computational intelligence). 2008. IEEE.
[61] Dong, Y. and X. Wang. "A new over-sampling approach: random-SMOTE for learning from imbalanced data sets. " in International Conference on Knowledge Science, Engineering and Management. 2011. Springer.
[62] Lee, H., J. Kim, and S. Kim, "Gaussian-Based SMOTE Algorithm for Solving Skewed Class Distributions. " International Journal of Fuzzy Logic and Intelligent Systems, 2017. 17(4): p. 229-234.
[63] Ma, L. and S. Fan, "CURE-SMOTE algorithm and hybrid algorithm for feature selection and parameter optimization based on random forests. " BMC bioinformatics, 2017. 18(1): p. 1-18.
[64] Koziarski, M. and M. Wożniak, "CCR: A combined cleaning and resampling algorithm for imbalanced data classification. " International Journal of Applied Mathematics and Computer Science, 2017. 27(4): p. 727-736.
[65] Breuer, Adam, Roee Eilat, and Udi Weinsberg. "Friend or Faux: Graph-Based Early Detection of Fake Accounts on Social Networks." Proceedings of The Web Conference 2020. 2020.
[66] Liu, Yang, and Yi-Fang Brook Wu. "FNED: A Deep Network for Fake News Early Detection on Social Media." ACM Transactions on Information Systems (TOIS) 38.3 (2020): 1-33.
[67] Liao, Hao, Qixin Liu, and Kai Shu. "Incorporating User-Comment Graph for Fake News Detection." arXiv preprint arXiv:2011.01579 (2020).
[68] Balaanand, Muthu, et al. "An enhanced graph-based semi-supervised learning algorithm to detect fake users on Twitter." The Journal of Supercomputing 75.9 (2019): 6085-6105.
[69] Fawcett, Tom. "An introduction to ROC analysis." Pattern recognition letters 27.8 (2006): 861-874.
Use of conditional generative adversarial network to produce synthetic data with the aim of improving the classification of users who publish fake news
Abstract
For many years, fake news and messages have been spread in human societies, and today, with the spread of social networks among the people, the possibility of spreading false information has increased more than before. Therefore, detecting fake news and messages has become a prominent issue in the research community. It is also important to detect the users who generate this false information and publish it on the network. This paper detects users who publish incorrect information on the Twitter social network in Persian. In this regard, a system has been established based on combining context-user and context-network features with the help of a conditional generative adversarial network (CGAN) for balancing the data set. The system also detects users who publish fake news by modeling the twitter social network into a graph of user interactions and embedding a node to feature vector by Node2vec. Also, by conducting several tests, the proposed system has improved evaluation metrics up to 11%, 13%, 12%, and 12% in precision, recall, F-measure and accuracy respectively, compared to its competitors and has been able to create about 99% precision, in detecting users who publish fake news.
Keywords: Fake news publisher user detection, Imbalanced datasets, Generative Adversarial Network, Graph of user interaction, Node Embedding.
The rights to this website are owned by the Raimag Press Management System.
Copyright © 2017-2024