ارائه ی مدلی برای عقیده کاوی در سطح ویژگی برای نظرات کاربران هتل ها
محورهای موضوعی :
الهام خلج
1
(دانشگاه صنعتی خواجه نصیرالدین طوسی)
شهریار محمدی
2
(دانشکده مهندسی صنایع، دانشگاه صنعتی خواجه نصیرالدین طوسی، ایران)
کلید واژه: تجزيه و تحليل احساسات, عقیده کاوی , الگوریتم ژنتیک, تجزیه و تحلیل نظرات در سطح ویژگی, داده کاوی,
چکیده مقاله :
امروزه بررسی نظرات و عقاید کاربران در بستر اینترنت بخش مهمی از فرآیند تصمیم¬گیری مردم در رابطه با انتخاب یک محصول یا استفاده از خدمات ارایه شده را شامل می¬شود. با وجود بستر اینترنت و دسترسی ساده به وبلاگ های مربوط به نظرات در زمینه صنعت گردشگری و هتلداری، منابع غنی و عظیمی از عقاید بصورت متن موجود می¬باشد که افراد میتوانند از روش¬های متن کاوی برای کشف عقاید دیگران استفاده کنند. با توجه به اهمیت نظر و عقاید کاربران در صنایع و بویژه صنعت گردشگری و هتلداری، مباحث عقیدهکاوی و تحلیل احساسات و کاوش متون نوشته شده توسط کاربران مورد توجه متصدیان امور قرار گرفته است . در این مقاله یک روش ترکیبی و جدید بر اساس یک رویکرد رایج در تحلیل احساسات، استفاده از واژگان برای تولید ویژگی¬هایی برای طبقه¬بندی بار احساسی نظرات ارائه شده است. بدین صورت که دو روش ساخت فهرست واژگان یکی با استفاده از روش¬های آماری و دیگری با استفاده از الگوریتم ژنتیکی ارائه شده است. واژگان فوق الذکر با فرهنگ واژگان احساس عمومی و استاندارد لیو بینگ آمیخته می¬شوند تا دقت طبقه بندی افزایش یابد.
Nowadays, online review of user’s sentiments and opinions on the Internet is an important part of the process of people deciding whether to choose a product or use the services provided. Despite the Internet platform and easy access to blogs related to opinions in the field of tourism and hotel industry, there are huge and rich sources of ideas in the form of text that people can use text mining methods to discover the opinions of. Due to the importance of user's sentiments and opinions in the industry, especially in the tourism and hotel industry, the topics of opinion research and analysis of emotions and exploration of texts written by users have been considered by those in charge. In this research, a new and combined method based on a common approach in sentiment analysis, the use of words to produce characteristics for classifying reviews is presented. Thus, the development of two methods of vocabulary construction, one using statistical methods and the other using genetic algorithm is presented. The above words are combined with the Vocabulary of public feeling and standard Liu Bing classification of prominent words to increase the accuracy of classification
[1].Kumar Ravi , Vadlamani Ravi. (2015) A survey on opinion mining and sentiment analysis: Tasks, approaches and applications. Knowledge-Based Systems.
[2].Zhang, Z., Zhang, Z., & Yang, Y. (2016) The power of expert identity: How websiterecognized expert reviews influence travelers' online rating behavior.Tourism Management, 55, 15–24.
[3].García-Pablos, A., Cuadros, M., & Linaza, M. T. (2016). Automatic analysis of textual hotel reviews. Information Technology & Tourism, 16(1), 45–69.
[4].Zhang Dapenga, Tu Jinghuaa, Zhou Lingxua,Yu Zhiyuan. (2020) Higher tourism specialization, better hotel industry efficiency? . International Journal of Hospitality Management
[5].Jorge A. Balazs, Juan D. Vel´asquez (2015)."Opinion Mining and Information Fusion: A Survey", Information Fusion.
[6].Luis Martin-Domingo,Juan Carlos Martín,Glen Mandsberg. (2019) Social media as a resource for sentiment analysis of Airport Service Quality (ASQ). Journal of Air Transport Management.
[7].Cheng, Kewei (2017). Unsupervised Sentiment Analysis with Signed Social Networks.Proceeding of the Thirty-First AAAI Conference on Artificial Intelligence, Febryary, pp3429-3435.
[8].Lui, T. W., Bartosiak, M., Piccoli, G., & Sadhya, V. ( 2018) Online review response strategy and its effects on competitive performance,Tourism Management.
[9].H.Keshavarz et al.(2017) Accurate frequency-based lexicon generation for opinion mining. Journal of Intelligent and Fuzzy System.
[10].Hamidreza Keshavarz, and Mohammad Saniee Abadeh. (2017) ALGA: Adaptive lexicon. Knowledge Based Systems.
[11].M.Mowlaei et al. (2020). Aspect-Based Sentiment Analysis using Adaptive Aspect-Based Lexicons. Pre-prof.
[12].D. H. a. C. K. J.S. Breese. (1998) Empirical analysis of predictive algorithms for collaborative filtering. in Conference on Uncertainty in Artificial Intelligence.
[13].K. M. E. Vozalis. (2003) Analysis of recommender systems’ algorithms. in Computer Mathematics and its Applications.
[14].Kashfia Sailunaz, Reda Alhajj. (2019) Emotion and Sentiment Analysis from Twitter Text. Computational Science.
[15].T.Chinsha et al. (2015) A syntactic approach for aspect based opinion mining. Proceedings of the 2015 IEEE 9th International Conference on Semantic Computing, pp.
[16].Amani K Samha et al. (2014) Aspect-Based Opinion Extraction from Customer, Computation and Language,April.
[17].M.Asghar,A Khan,SR Zahra, S Ahmad,FM Kundi. (2019) Aspect-based opinion mining framework using heuristic
patterns.Cluster Computing.Springer.22,7181-7199 [18].D. Tang, F. Wei, N. Yang, M. Zhou, T. Liu, and B. Qin. (2014). Learning Sentiment-Specific Word Embedding for Twitter
Sentiment Classification. Learning Sentiment-SpecificWord Embedding for Twitter Sentiment Classification.June. [19]. Mohammad.A et al. (2020) Using Lexicon-Based Opinion Mining to Gauge Customer Satisfaction. International Journal of Innovative Technology and Exploring Engineering (IJITEE),February.
[20].Samha.A (2020) Sentiment Analysis of Customers Opinions on Hotel Stays using Voted Classifier. Creative Commons Attribution 4.0 International License,May.
[21].Asch, Vincent Van. (2013). Macro- and micro-averaged evaluation measures.
[22].B. Liu. ( 2012) Sentiment Analysis and Opinion Mining. Morgan & Claypool Publishers.
[23].Boo, S., & Busser, J. A. (2018) Meeting planners' online reviews of destination hotels: A twofold content analysis approach. Tourism Management, 66(6), 287–301.
[24].Ali Ahania, Mehrbakhsh Nilashib ,Othman Ibrahimc , Louis Sanzognia ,Scott Weaven. (2019) Market segmentation and travel choice prediction in Spa hotels through TripAdvisor’s online reviews. International Journal of Hospitality Management, july, pp52-77.
[25].D.Tang et al. (2016). Aspect Level Sentiment Classification with Deep. Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. (pp. 214 224).
[26].Gerald Petz, Michał Karpowicz, Harald Fürschuß, Andreas Auinger, Václav Strˇítesky, Andreas Holzinger. (2015) Reprint of: Computational approaches for mining user’s opinions on the Web 2.0. Information Processing and Management.
[27].Hu, Y. H., Chen, Y. L., & Chou, H. L. (2017). "Opinion mining from online hotel reviews – a text summarization approach. Information Processing & Management.53(2), 436–449.
[28].K. Khan, B. B.Baharudin, A. Khan, and Fazal-e-Malik. (2009). Mining Opinion from Text Documents: A Survey. 3rd IEEE International Conference on Digital Ecosystems and Technologies.
[29].Li, J., Xu, L., Tang, L., Wang, S., & Li, L. (2018) Big data in tourism research: A literature review. Tourism Management.
[30]. Singh. M, T. Nafis, and N. Mani. ( 2016) Sentiment Analysis and Similarity Evaluation for Heterogeneous-Domain Product
Reviews. Computer Applications, vol. 144. [31].Ashraf Elnagar, Yasmin S. Khalifa and Anas Einea,( 2018). Hotel Arabic-Reviews Dataset Construction for Sentiment Analysis Applications,Springer, November,pp35-72.
[32].M.R. Martinez-Torresa , S.L. Tora. (2019) A machine learning approach for the identification of the deceptive reviews in the hospitality sector using unique attributes and sentiment orientation. Tourism Management.
[33].Pang, Bo, and Lillian Lee. (2008) Opinion mining and sentiment analysis. Foundations and Trends® in Information Retrieval. 2.1–2, pp. 1-135.
[34].Tsai, C. Y., Wang, M. T., & Tseng, H. T. (2015). The impact of tour guides' physical attractiveness, sense of humor, and seniority on guide attention and efficiency. Journal of Travel & Tourism Marketing, 33(6), 1–13.
[35].Amani K Samha, Yuefeng Li, Jinglan Zhang.(2019) Text Mining in Hotel Reviews: Impact of Words Restriction in Text Classification. in 1th International Conference on Knowledge Discovery and Information Retrieval.
[36].Zhan, Xing Fang and Justin (2015). Sentiment analysis using product review data. Big Data, pp. 2-5.
[37].Zhiping Houa, Fasheng Cuia, Yongheng Menga, Tonghui Lianb, Caihua Yuc. (2019) Opinion mining from online travel reviews: A comparative analysis of Chinese major OTAs using semantic association analysis. Tourism Management.
دو فصلنامه علمي فناوري اطلاعات و ارتباطات ایران | سال سیزدهم، شمارههاي49و50، پاییز و زمستان 1400 صص: 85_102 |
|
ارائهی مدلی برای عقیدهکاوی در سطح ویژگی سند برای نظرات کاربران هتلها
شهریار محمدی * الهام خلج**
*دانشیار، دانشکده مهندسی صنایع، گروه مهندسی فناوری اطلاعات، دانشگاه صنعتی خواجه نصیرالدین طوسی
** كارشناس ارشد دانشکده مهندسی صنایع، گروه مهندسی فناوری اطلاعات، دانشگاه صنعتی خواجه نصیرالدین طوسی
تاریخ دریافت: 04/11/1399 تاریخ پذیرش: 29/03/1400
نوع مقاله: پژوهشی
چکيده
امروزه بررسی نظرات و عقاید کاربران در بستر اینترنت بخش مهمی از فرآیند تصمیمگیری مردم در رابطه با انتخاب محصول یا استفاده از خدمات را شامل میشود. با وجود اینترنت و دسترسی ساده به وبلاگهای مربوط به نظرات در زمینه صنعت گردشگری و هتلداری، منابع غنی و عظیمی از عقاید بصورت متن موجود میباشد که میتوان از روشهای متن کاوی برای کشف دانش نهفته در این متون استفاده کرد. با توجه به اهمیت نظرات و عقاید کاربران در صنایع، بهویژه صنعت گردشگری و هتلداری، مباحث عقیدهکاوی و تحلیل احساسات مورد توجه متصدیان امور قرار گرفته است. در این مقاله یک روش ترکیبی و جدید بر اساس یک رویکرد رایج در تحلیل احساسات، استفاده از واژگان و الگوریتم ژنتیک برای تولید ویژگیهایی برای طبقهبندی بار احساسی نظرات ارائه شده است. بدینصورت که دو روش ساخت فهرست واژگان یکی با استفاده از روشهای آماری و دیگری با استفاده از الگوریتم ژنتیک ارائه شدهاست. واژگان فوق الذکر با فرهنگ واژگان احساس عمومی و استاندارد لیو بینگ آمیخته میشوند. نتایج نشان میدهد روش پیشنهادی از روشهای پایه براساس واژهنامههای احساسی روی این مجموعه داده بهتر عمل کرده و معیارهای ارزیابی صحت، دقت، بازخوانی و معیار F با استفاده از روش پیشنهادی، بهترتیب 94.65، 94.53، 93.89 و 95.17 میباشند.
واژههاي كليدي: متن کاوی، عقیده کاوی، تحلیل احساسات در سطح ویژگی، داده کاوی، الگوریتم ژنتیک، طبقه بندی.
1- مقدمه
تجزیه و تحلیل احساسات1 با هدف کشف خودکار نگرش اساسی انسانها نسبت به یک موجودیت انجام میشود. در حال حاضر، تجزیه و تحلیل احساسات از دادههای متنی به طور گستردهای برای ارزیابی رضایت مشتری و تجزیه و تحلیلها استفاده میشود [1] و [2].
تحلیل احساس و عقیده کاوی2 با استفاده از الگوریتمهای دادهکاوی و متنکاوی به صورت سیستماتیک و بدون نیاز به مطالعه تمامی متنهای موجود، عقاید، احساسات، ارزیابیها، رفتارها و گرایشهای کاربران را که بهصورت دادههای متن بیان شدهاند را آنالیز میکند. افزایش اهمیت تحلیلاحساس با رشد رسانههای اجتماعی مانند توئیتر، شبکههای اجتماعی، نظرسنجیهای آنلاین، وبلاگها و همچنین سهولت بازیابی آنلاین نظرات کاربران همزمان شدهاست. در پژوهش پیرمحمدیانی و محمدی بیان شدهاست که امروزه سیستمهای تحلیلاحساس تقریبا در همهی زمینهها مورد استفاده قرار میگیرند، زیرا آرا و عقاید در تمام فعالیتهای انسانی مهم بوده و تاثیر کلیدی بر فرآیندهای تصمیمگیری دارند[3]. در مطالعهی ژانگ و همکاران3 با اشاره به تاثیر توسعهی سریع فناوریهای وب 2.0 و محتوای تولید شده توسط کاربر4 ، به تحلیل و بررسی نظرات آنلاین دربارهی سفر در صنعت گردشگری پرداخته شده است. همچنین وبسایتهایی نظیرTripAdvisor5، Expedia6 که گردشگران نظرات، عقاید و تجربیات خود در استفاده از خدمات ارایه شده را به اشتراک میگذارند، معرفی شده است، این نوع وبسایتها محبوبترین منابع اطلاعاتی برای کسب اطلاعات در راستای تهیه برنامهی سفر و نحوهی رزرو بلیط و هتل هستند [4]. براساس پژوهش پابلوس و همکاران7 فنآوری تجزیه و تحلیل متن مبتنی بر پردازش زبان طبیعی8 میتواند بطور خودکار مقادیر زیادی از بررسیها و نظرات مشتری را از منظر مفهوم کلمه، بهکارگیرد. این روش به طور گستردهای در شناسایی موضوع و استخراج مفهوم نظر و متن، مورد استفاده قرارمیگیرد [5].
در اکثر مقالات مطالعه شده، پایه و اساس تحلیل احساس مبنی برشمارش کلمات احساسی و تعیین بار مثبت و یا منفی کل متن است[2، 6، 7] و [8، 9] نقطه ضعف این روش آن است که ممکن است در یک متن چند ویژگی بیان شده باشد و محاسبهی بار معنایی کلی نتایج دقیقی به همراه نداشته باشد. به عنوان مثال جملهی " دسترسی به مراکز خرید از هتل خوب است اما غذاها کیفیت مناسبی ندارند." در این نظر دو ویژگی مکان هتل و غذا مورد نظر بوده پس طبقهبندی کلی نظر مناسب نیست و توجه به هر دو ویژگی مناسبتر است.
اخیرا این موضوع مورد توجه دانشمندان فناوری اطلاعات قرار گرفته و روشهای مختلفی را مورد بررسی قرار دادهاند [8،10، 11، 12] اما کمتر از الگوریتم های فراابتکاری استفاده شده و همچنین با توجه به میزان سودآوری صنعت گردشگری و تاثیر مستقیم تجربه و نظر سایر گردشگران برای انتخاب دوباره خدمات ارایهشده و یا پیشنهاد انتخاب به سایرین، لزوم پرداختن بیشتر به این موضوع احساس میشود. بنابراین در این مقاله صنعت گردشگری و هتلداری مورد بررسی قرار گرفته است که در مقالههای قبلی کمتر مورد توجه بوده همچنین در این مقاله علاوه بر تعیین مثبت و یا منفی بودن نظرات در داده های متنی ویژگیهای خاص مربوط به هتل مورد توجه قرارگرفته، دراین مقاله ازروش پیشنهادی جدید ترکیب الگوریتم ژنتیک و فرهنگ واژگان احساسی استفاده شده است. تحلیل احساسات مشتریان در محیطهایی مثل خدمات گردشگری و هتلداری، بیمه، موسسات مالی و بانکها، خردهفروشیها، شرکتهای تجارت الکترونیک و فروش آنلاین و... میتواند بسیار کاربردی باشد[5].
1-1 هدف از تحقیق
این پژوهش بهدنبال راه حلی برای بهبود تحلیل حجم عظیمی از نظرات متنی میباشد که معمولا ساختار نیافته یا نیمهساختار هستند و برای انجام این کار سعی میشود طبقهبندی رتبهی احساسی واژگان دقیقتر از روشهای قبلی محاسبه گردد. سؤالاتی که در این پژوهش به آنها پرداخته میشود به شرح زیر هستند:
ü تأثیر بهرهگیری از الگوریتم ژنتیک بر بهبود پارامترهای ارزیابی طبقهبندی واژگان احساسی به چه صورت است؟
ü آیا طبقه بندی واژگان احساسی با روش ترکیبی بیان شده که ویژگیهای خاصی را نیز در نظر میگیرد، نتایج بهتری از روشهای پایه به همراه دارد؟
عقیدهکاوی یک فنآوری است که به طور خودکار با استفاده از ابزار و نرم افزارهای تجزیه و تحلیل متن، از جمله زبانرایانه و پردازش زبان طبیعی، دانستههای کامنتهای آنلاین را استخراج میکند. این نرمافزارها نظرها، ارزیابیها، نگرشها و احساس مردم را نسبت به سازمانها، اشخاص، افراد، موضوعها، اقدامها و ویژگیهای آنها را تجزیه و تحلیل میکند [1، 2، 13].
با توجه به گزارشUNEP9 در سال2016، برای هر دو کشور پذیرنده گردشگر و فرستندهی گردشگر، صنعتگردشگری کمک چشمگیری به تولید منافع اقتصادی آنان میکند. توسعهی صنعت گردشگری تا حد زیادی به رضایت مشتریان در خدمات هتل وابسته بوده و در نتیجه تخصص دراین زمینه یکی از عوامل مهم برای توسعهی این صنعت است. مطالعهی ژانگ و همکاران10 نشان میدهد اثربخشی کیفیت و خدمات ارایه شده در هتلها در تقویت صنعتگردشگری سهم بسزایی دارد[6]. طبق پژوهش بالاز و همکاران11، نظرات نقش اساسی را در فرآیند تصمیمگیری افراد و سازمانها دارند زیرا تأثیر عمیقی بر روی نگرش و اعتقادات افراد میگذارد. عقیدهکاوی و تحلیلاحساسات باعث میشود تا مشاغل تجارت الکترونیکی بتوانند دانش بیشتری از مشتریان و محصولات خود کسب کنند بدون اینکه هزینه نظرسنجیها را بپردازند [7].
کلیه تکنیکهای مورد استفاده برای استخراج نظر و عقیده میتوانند به دو طبقه اصلی تقسیم شوند:
ü رویکردهای مبتنی بر واژهها: این روش واژههای دارای باراحساسی متن را با تکیه بر یک فرهنگ واژگان احساسی و رویکرد دانشزبانی، طبقهبندی میکند که شامل یک رویکرد مبتنی بر بدنه و یک رویکرد مبتنی بر فرهنگ لغت است.
ü رویکرد یادگیری ماشین: از الگوریتمهای یادگیری ماشین بهرهمیبرد و میتواند به سه گروه تقسیم شود: یادگیری نظارت شده، یادگیری نیمه نظارت شده و یادگیری بدون نظارت [1، 2، 13].
در مقالهی سینگ و همکاران12 از این رویکرد برای کشف دانستههای نظرات متنی مربوط به محصولات مختلف با استفاده از یک روش طبقهبندی برای تجزیه و تحلیل، استفاده میشود[15].
2-1 سطوح عقیده کاوی
· استخراج افکار در سطح سند، احساسات غالب و کلی را بهجای موارد و جزئیات مطرح در مباحث در نظر میگیرد [13]. وظیفهی عقیده کاوی درسطح سند تعیین قطبیت کلی یک سند است که شامل چند جمله است.
· عقیده کاوی در سطح جمله، بطور ویژه متمرکز بر هر جمله است. خواه جمله بیانشده گرایش مثبت، منفی یا خنثی داشته باشد. طبقهبندی ذهنی یکی دیگر از وظایف در سطح جمله است که بخشهای ذهنی و عینی اسناد را استخراج میکند. مسئله تجزيه و تحليل مبتني بر سطح جمله نيز بههمين صورت تعريف ميشود با اين تفاوت که نتيجه تشخيص احساس براي هر جمله به طورجداگانه بررسي ميشود [16].
· استخراج ويژگيهای ارائهشده در یک متن یا نظر و بیان گرايش احساس مثبت و یا منفي بر روي آن ها، تجزيهوتحليل احساسات و یا عقیده کاوی در سطح ويژگي سند ناميده ميشود[9].
2-2 رویکردهای متفاوت برای عقیدهکاوی و تحلیل احساسات
رویکردهای مبتنی بر واژگان و نظارت نشده13: این رویکرد، در تعیین گرایش مثبت یا منفی متن بااستفاده از مجموعه قوانین و اکتشافهای حاصل از دانش و قواعد زبان شناسی مورد استفاده است. اقدامات معمول برای اجرای مرحله اول، علامتگذاری هرکلمه وتعیین گرایش احساسی مربوط به آن با کمک یک فرهنگ واژگان احساسی و در مرحله دوم، ترکیب کلمات و تحلیل احساسی و تاثیر ترکیب کلمات و درآخر، بررسی اینکه ترکیبها 14چگونه بر قطبیت و گرایش تأثیر میگذارند و این را در نمره احساسات نهایی منعکس میکنند. در نهایت مراحل بعدی شامل جمع بندی و مصورسازی نظر به کمک نرم افزار میباشد.
رویکردهای مبتنی بر یادگیری با نظارت15: با نام روشهای مبتنی بر یادگیری ماشین یا روشهای آماری برای طبقهبندی احساسات شناخته میشوند و از الگوریتمهای دادهکاوی تشکیلشده که الگوهای زیربنایی را از دادههای آموزش داده شده یا برچسب گذاریشده یاد میگیرند، سپس در مرحله بعدی الگوریتم برای طبقهبندی دادههای جدید بدون برچسب کلاس پیش بینی میشود، و سپس با استفاده از بازنمایی کلاسهای پیدا شده توسط الگوریتم به عنوان ورودی برای عقیده کاوی استفاده میشوند.
رویکردهای مبتنی بر مفهوم: این رویکرد شامل استفاده از علم هستی شناسی برای پشتیبانی از عقیده
کاوی و تحلیل احساسات است. هستی شناسی به عنوان مدلی تعریف می شود که دانش یک حوزه¬ی معین را برای کامپیوتر با دستورهای اگر و آنگاه مفهوم سازی می کند. معمولاً به صورت نمودارهایی ارائه می شود که در آن مفاهیم مدنظر، به گره¬های مرتبط با هم و بصورت متصل کشیده می شوند.
جدول 1. مروری کلی برمهمترین مقالات مطالعه شده مختص صنعت هتلداری
|
2-3 مراحل اصلی فرآیند
شامل جمع آوری داده ها، پیش پردازش متن، فرآیند اصلی، جمع بندی نتایج و تجسم بوسیله ی نمودارها و شکل ها است[5]. مرحله جمع آوری داده ها: در حال حاضر برای دستیابی به این کار دو رویکرد وجود دارد.
اول از طریق رابط برنامهنویسی وب سایت16 و دوم استفاده از خزندههای وب17 به منظور دستیابی به دادهها از وب سایتهای مورد نظر است.
مرحله پیش پردازش متن: متداول ترین تکنیک ها عبارتند از:
1- نشانه گذاری18 : که عملکرد آن باعث جدا کردن رشته متن کامل به لیستی از کلمات جداگانه میشود.
2- یافتن ریشه و بنکلمه 19: برای مثال واژههای شخص، اشخاص، شخصیت به بن آنها یعنی شخص تبدیل میشوند .
3- حذف کلمات بیاثر20: عملکرد آن باعث حذف واژگانی که برای ساخت زبان کاربرد داشته اما در محتوای معنایی آن تاثیر ندارند میشود. برخی از این کلمات درزبان انگلیسی ، a ، the و هستند.
4- بخشبندی جمله21: عملکرد آن باعث تبدیل پاراگرافها به جملات میشود.
5- برچسب گذاری بخشی از گفتار22: عملکرد آن باعث برچسب خوردن هرکلمه، یک جمله یا بخشی از گفتار است. مانند صفت، اسم، فعل، ضربالمثل یا پیشگفتار. کاربرد این روش به عنوان ویژگی فرآیند یادگیریماشین استفاده میشود.
3- روش پیشنهادی
در این مقاله، دو فرهنگ واژگان نظر آگاه بهزمینه با روشهاي FBSA23و ALGA24 بر روي مجموعه داده آموزشی نظرات ساخته میشود [17]. سپس، بر روي هر مجموعهداده، با استفاده از هرکدام از این دو فرهنگ واژگان نظر، ویژگیهایی محاسبه
میشوند. این ویژگیها در کنار ویژگیهای محاسبه شده با فرهنگ واژگان نظر عام منظوره لیوبینگ25 قرار میگیرند و به
این ترتیب، براي ویژگیهای حاصل، انتخاب ویژگی توسط آزمون t 26صورت میگیرد.
آزمون t برای تعیین اختلاف میانگین یک گروه با یک مقدار پیش فرض و یا میانگینهای دو گروه به کار میروند .در واقع، آزمون t یک نوع آمار استنباطی است برای تعیین اینکه آیا بین میانگین دو گروه اختلاف معنی داری وجود دارد یاخیر، چرا که
ممکن است در ویژگیهای خاصی مرتبط باشند. در انتها، مدلی براي دستهبندي از روي مجموعه دادههاي آموزشی ساخته میشود و بر روي مجموعه داده آزمایشی اعمال میشود.
روش FBSA مبتنی بر ایجاد فرهنگ واژگان احساسی با استفاده از کامنتها و نظرات است که با تناوب و میزان تکرار کلمات، بار احساسی آنها مشخص میشود و روش ALGA
فرهنگ واژگان احساسی نظرات و عقاید بیان شدهی متنی را با استفاده از الگوریتم ژنتیک میسازد [12] .
در روش پیشنهادی، در این بخش که از تولید واژگان توسط FBSA استفاده میشود، از روش تحلیل عبارات مبتنی بر فرکانس به دلیل تخمین دقیق رتبههای کلمات مثبت ومنفی استفاده شده است. در روش FBSA برای یافتن بار احساسی واژگان تمام کلمات در نظر گرفته میشود و یکی از مزیتهای این روش عدم حذف کلمات توقف27 است زیرا میتواند در نظرات هتلها تعیین کننده باشد. بدین صورت که رتبهی عبارت برای هر کلمه براساس فرکانسی از کلمات در مجموعه دادههای آموزشی محاسبه میشود. اگر فرض شود که p مجموعه داده داشته باشیم، D1 تا Dp شامل نظرات و برچسبها هستند که نیمی از آنها شامل نظرات مثبت و نیمی از آنها دارای نظرات منفی هستند. بنابراین، مجموعه دادههای آموزش و تست با مدل اعتبارسنجیk -دسته28 تقسیم میشوند. در این روش نمونه اصلی بهطور تصادفی به زیرنمونههایی با اندازه k تقسیم شده و در هر مرحله یک زیر نمونه مورد تحلیل قرار میگیرد.
از زیرنمونههای k، که در هرمرحله بصورت تصادفی بدست آمدهاند، یک زیرنمونه منفرد بهعنوان دادههای آزمایشی برای اعتبارسنجی الگوریتم و مدل ذخیره شده و زیرنمونههای دیگر که درواقع تعداد آنها حالا k-1 شدهاست نقش دادههای آموزشی را خواهند داشت. فرایند اعتبارسنجی، که k بار تکرار میشود، هر بار بصورت تصادفی مجموعه دادهای را انتخاب میکند، با هر یک ازاین نمونههای k دقیقا یک بار دادهها اعتبارسنجی میشوند. نتایج k میتواند برای برآورد میانگین مورد استفاده قرار بگیرد. در این روش همه مشاهدات برای آموزش و اعتبار مورد استفاده قرار میگیرند، و هر مشاهده برای اعتبارسنجی بهطور دقیق استفاده میشود و این مورد برتری این روش نسبت به نمونهگیری تصادفی تکراری است. لازم به ذکر است در این مقاله K برابر با 10 در نظر گرفته شده است. بنابراین، برای هر کلمه wj در مجموعه Diدادههای آموزشی، دو مقدار تجمعی تعریف میشود: فرکانسهای مثبت و منفی29.
(1)
در رابطهی (1) اگر کلاس مثبت باشد، از این رابطه استفاده میشود.
(2)
در رابطهی (2) اگر کلاس منفی باشد، از این رابطه استفاده میشود.
در این روابط، ni تعداد رکوردها در Di ، شماره رکورد k در مجموعه داده Di و
تعداد رخدادها در wi در
است. در دیگر کلمات،
و
تعداد رخدادی از wi در رکوردهای مثبت و منفی در Di مجموعه داده هستند.
در این روش، Di رکوردهای مجموعه دادههای آموزشی را شامل میشود و رکوردهای تست را در برنمیگیرد. مقایسه freq + و freq− تنها زمانی معنیدار است که تعداد سوابق مثبت و منفی برابر است زیرا رکوردهای تست در نظر گرفته نشده و بنابراین، دادههای آموزشی و تست برابر نیست.
به همین دلیل، از ضریب مبتنی بر سوابق در کلاسهای مثبت و منفی استفاده شده است و سپس فرکانس نرمال با استفاده از رابطهی (3) محاسبه میشود:
(3)
بنابراین، و
تعداد رکوردهای مثبت ومنفی را در Di مجموعه داده نشان میدهند. در رابطهی (4) از رتبه بندی عبارت برای هر کلمه در واژگان استفاده میشود که این مقدار برای هر کلمه محاسبه میشود:
(4)
در رابطهی فوق مقدار رتبه بین 1- تا 1+ است. هر چقدر این عدد به 0 نزدیکتر باشد، این کلمه به فاعل یا همان کلمهی ویژگی، نزدیکتر است. رتبهی نزدیک به 1+ مثبت بودن کلمه و رتبهی نزدیک به 1- منفی بودن کلمه را نشان میدهد. بطور مثال اگر کلمهی Love 28 بار در عبارت بصورت جداگانه ظاهر شود، و 3 بار بصورت منفی که 2 بار در یک نظر و 1 بار در نظر دیگر ، درمجموع بصورت و
نمایش داده میشود. پس از این مرحله، همان طور که در رابطهی (4) نشان داده شد، رتبهی کلمه پس از نرمال شدن محاسبه میشود. در ادامه پنج ویژگی برای طبقه بندی مجموعه دادهها بصورت زیر معرفی شده اند:
· Fpos: تعداد رتبههای کلمات مثبت در نظرات
· Fneg: تعداد رتبههای کلمات منفی در نظرات
· Pwords: تعداد کلمات مثبت دررکورد براساس رتبه
· Nword: تعداد کلمات منفی در رکورد براساس رتبه
· Score: مجموع همهی رتبهها در نظرات
در این روش، تولید واژگان مبتنی بر تحلیل عبارات فرکانسی به معنی این است که واژگان تولید شده در عبارت برای کل متن استفاده میشود. از آنجا که استثنائی برای مواردی است که نیاز است طبقه بندی شود، واژگان براساس مجموعه دادههای آموزشی تولید میشوند.
هر رکورد در مجموعه داده (هر نظر) باید به یک بردار ویژگی تبدیل شود. فرض شود که یک رکورد شامل “It is good” است، بردار ویژگی توسط جدول (2) محاسبه میشود.
جدول 2. بردار ویژگی It is good [17]
Score | NWoreds | PWords | FNeg | FPos |
0.663 | 1 | 2 | -0.186 | 0.849 |
در روش پیشنهادی هر رکورد به چندین ویژگی براساس طول جمله تبدیل میشود که در جدول(2) به پنج ویژگی تقسیم شده است. سپس این مدل برای مجموعه آموزشی ایجاد و برای مجموعه تست بکارمیرود.
هسته بردارویژگی از ویژگیهای فوق الذکر ساخته شده که بهصورت زیر است و در جدول (3) نشان داده شده است. این جدول درواقع، نمونهای از محاسبه ویژگیها برای یک رکورد خاص است که که با روش FBSA ایجاد شده است.
جدول 3. واژگان ساده ایجاد شده توسط روش FBSA [17]
Of | Good | Is | For | It |
-0.074 | +0.0621 | -0.186 | +0.307 | +0.228 |
واژگان نیز براساس دادههای آموزشی ایجاد میشود و برای محاسبهی ویژگیها براساس داده آموزش و تست بکار میرود. در این روش تفاوت بین کلمات بدون هشتگ(#) و با هشتگ نیز در نظر گرفته میشود، کلماتی که باهشتگ در نظر گرفته میشوند، نشان دهنده تاکید و مهم بودن است. لذا، در برخورد با چنین کلماتی به دو صورت رفتار میشود و این کلمات در مجموعه آموزشی بسته به مثبت یا منفی بودن نظر 2 بار شمارش می شوند .
در این مرحله فهرست واژگان احساسی مبتنی بر تحلیل فرکانس ساخته شد، در ادامه به تولید واژگان براساس ABALGA پرداخته میشود تا در نهایت این واژگان باهم ادغام شوند.
3-2 نحوهی استخراج ویژگیها و جنبههای مختلف مطرح شده در متن نظرات
در این مقاله از روش IOB- encoding که در کتابخانهی nltk.corpus.reader با دستور import ConllChunkCorpusReader فراخوانی می شود که، برای استخراج جنبههای مختلف و صریح بیان شده درهر توئیت استفاده شده است. در این روش کلمات به کار رفته در توئیتها برچسب گذاری میشوند که در آن B-POS نشانهی جنبهای است که در ابتدای توئیت شناسایی شده B، نشانهی شروع جنبهی جدید و O نشانهی عدم شناسایی به عنوان جنبه و ویژگی میباشد. نمونهای از خروجی در جدول (4) نمایش داده شده است.
جدول 4. توئیت های برچسب گذاری شده با IOB- encoding
Words:| Bathroom was clean , but bed is not comfort |
Labels:| B-POS O O O O B O O O |
در این مقاله از مجموعه دادهی مورد نظر 1000 توئیت بررسی شد و پنج ویژگی با جنبهی اصلی مختص هتل شناسایی شد و به صورتی که در جدول (5) نمایش داده شده، دستهبندی گردید تا بتوان جنبههای مهم را شناسایی و بار احساسی کلمات مطرح شده را در نظرات حول این ویژگیها شناسایی کرد .
جدول 5. دسته بندی جنبههای استخراج شده
Room | Meal | Service | Location | Value |
Bed Bathroom View Shower Air condition Bedsheets Tv Furniture
| Breakfast Lunch Dinner Coffee Tea Drink Restaurant Bar
| Check-in Check-out Staff Ticket Transport
| Railway View Airport Mall Far Close Near Metro distance market | Price Amount Rate Cheap Worth Low Money Economic Fee expensive |
در این مقاله یادگیری فهرست واژگان تطبیق شده با ویژگیها، با استفاده از الگوریتم ژنتیک و در سطح توییت طراحی شدهاست. هر توییت ممکن است یک جمله کوتاه یا یک جمله طولانی از 140 کاراکتر تا 280 کاراکتر باشد. روش پیشنهادی برای نظرات کاربران صنعت هتلداری استفاده میشود و در این مقاله متن نظرهای کوتاهتر و یا بلندتر مدنظر قرار نگرفته است.
در الگوریتم پیشنهادی، یک توالی ژنی تعریف میشود تا زمانی که کلمات موجود در مجموعه آموزش، مشغول یادگیری واژگان هستند، ادامه مییابد. هر ژن در توالی ژن ذکر شده دارای نمرهای برای کلمه مربوطه است. به عبارت دیگر، درصدد بهینه سازی رتبهی احساسی واژگان هستیم که این بهینه سازی با عملیات کراس آور و جهش که در الگوریتم ژنتیک در جهت ارائه بهترین راه حل صورت میگیرد، انجام میشود که درادامه تشریح شده است. در ALGA ، رتبههای کلمات، ژنها هستند. کمبود ALGA در مشکلات مبتنی بر جنبه از ساختار نظرات ناشی میشود.
بطور مثال در تحلیل نظرات، گاهی به هر توئیت یک برچسب نسبت داده میشود که این برچسب برای کل کلمات در نظر گرفته میشود. از طرفی دیگر هر جمله ممکن است جنبههای مختلفی داشته باشد که ناشی از بخشهای مختلف نظرمطرح شده باشد که نیاز به تجدید نظر دارد لذا همانطور که در بخش قبلی توضیح داده شد، جنبههای مختلف بیان شده درهر توئیت استخراج میشود.
3-3-1 ادبیات تحقیق (الگوریتم ژنتیک)
امروزه الگوریتم ژنتیک جایگاه ویژهای در میان الگوریتمهای بهینه سازی برای حل مسائل پیچیده دارد زیرا از لحاظ محاسباتی ساده، در عین حال قدرتمند است، همچنین در هر مرحله فضای جستجو در مجموعهی داده محدود نمیشود[19].
اﻟﮕﻮرﯾﺘﻢﻫﺎي ﻓﺮااﺑﺘﮑﺎري ﻫﻤﭽﻮن اﻟﮕﻮرﯾﺘﻢ ژﻧﺘﯿﮏ، یکی از الگوریتم های جستجو به حساب میآید و از ﻃﺮﯾﻖ ﺗﻌﺎﻣﻞ ﺑﺎ اﻋﻀﺎ، در ﭘﯽ ﯾﺎﻓﺘﻦ ﺟﻮاب ﺑﻬﯿﻨﻪي ﺳﺮاﺳﺮي ﻫﺴﺘﻨﺪ. در ﻫﻤﻪ اﯾﻦ اﻟﮕﻮرﯾﺘﻢ ﻫﺎ، ﺟﻮابﻫﺎي ﺑﻬﺘﺮ، ﺷﺎﻧﺲ ﺑﯿﺸﺘﺮي ﺑﺮاي ﺣﻀﻮر در ﺗﮑﺮارﻫﺎي ﺑﻌﺪي الگوریتم و ﺗﻮﻟﯿﺪ ﻧﺴﻞ ﺑﻌﺪ دارﻧﺪ که این ویژگی خاص " حیات مناسبترین30" موجب یافتن نتایج بهتر است[18].
ﺷﺮط ﭘﺎﯾﺎن اﻟﮕﻮرﯾﺘﻢ، رﺳﯿﺪن ﺑﻪ ﺣﺪاﮐﺜﺮ ﺗﻌﺪاد ﺗﮑﺮار از ﭘﯿﺶ ﺗﻌﯿﯿﻦ ﺷﺪه، ﻋﺪم ﺑﻬﺒﻮد ﺟﻮاب در ﭼﻨﺪ ﺗﮑﺮار ﭘﯿﺎﭘﯽ میباشد[20].
3-3-2 پیش پردازش
مراحل پیش پردازش در ABALGA شامل موراد زیر است:
ü جداسازی کلمات در هر بررسی31
ü حذف کلمات توقف
ü واژهای فیلتر شده براساس برچسبهای مثبت یا منفی
ü لمس کردن کلمات باقی مانده (به جز اصطلاح جنبه)
ü ساخت مجموعه ای از کلمات ریشه32 از مرحله قبل
ü حذف کلمات با فرکانس کمتر از 3
ü گرفتن پنجره با اندازه ثابت در حدود اصطلاحات
بعنوان نمونهای از پیش پردازش که در موارد بالا ذکر شد، منظور از جداسازی، تشخیص مرز کلمات در متون است، بدین صورت که متن را به دنبالهای از کلمات تبدیل میکند.
در مورد دوم، حذف کلمات توقف، برخی از کلمات همانند is ، the و... که ارزش احساساتی ندارند، از جمله حذف میشوند.
در مرحلهی فیلتر کردن حذف یا نگهداری برخی از کلمات میتواند در نظر گرفته شود. همچنین در مراحل بعد بازگردان شکل کلمه به حالت ریشه و بن، حذف کلمات کمتر از سه حرفی که ارزش محاسباتی ندارند.
در مرحلهی آخر، گرفتن پنجره با اندازه پنج در حدود جنبه یا اصطلاح room میتواند در توئیت “ The room was clean and I satisfied the view is good.” بصورت زیر در نظر گرفته میشود.در این مرحله تعداد کلمات توقف هم شمارش میشود و جدول (6) نشان داده شده است.
جدول6. پنجرهی کلمات در حدود جنبه
|
مرحلهی پیشپردازش هم برای مجموعه دادههای آموزش و هم
در ادامه الگوریتم ABALGA شامل ساختار کروموزومها33، تابع ایجاد34، برازندگی35 و تابع جهش36 و تابع کراس آور37 و انتخاب والد ها تشریح خواهند شد.
3-3-3 ساختار کروموزوم ها
کروموزمها در در الگوریتم ABALGA اطلاعات زیر را نگهداری میکنند:
· ژنها
· برازندگی
· سن
· استراتژی
موازی سازی با مجموعه ای از کلمات ریشه ذکر شده در بخش پیش پردازش، به عنوان یکی از پارامترهای ورودی در ABALGA ، یک توالی ژنی به طول یکسانی در این مجموعه قرار دارد. هر ژن برای یک کلمه ریشهی مربوطه در ورودی دارای یک رتبهی شناور در محدوده 1- تا 1 است. در مرحلهی اول رتبهها بهصورت تصادفی به هر ژن بصورت عددی در بازهی 1 - تا 1 داده میشود.
تابع برازندگی برای از بین بردن محاسبات زائد و سرعت بخشیدن بهکار میرود و در کروموزومها ذخیره میشود.
در روش پیشنهادی برای هر توالی ژن، تابع برازندگی فقط یک بار در جهت سرعت بخشیدن به روند، محاسبه میشود مگر اینکه با جهش یا کراس آور تغییر کند[19].
پارامتر سن تعداد دفعاتی را که توالی فعلی پس از انجام جهش یا کراس آور شکست خورده است، را شمارش میکند.
پس از رسیدن به حداکثر سنی، الگوریتم، کروموزومها را از مخزن پدر حذف میشوند و کروموزوم فرزند ایجاد میشود. این روند بعد از عمل جهش و کراس آور بوجود میآید[19].
کروموزوم همچنین اطلاعات استراتژی را که یکی از توابع ایجاد، جهش یا کراس آور است، ذخیره میکند و نشان میدهد که کدام عملکرد منجر به کروموزوم فعلی شده است.
3-3-4 تابع ایجاد
تابع ایجاد بعنوان ورودی طولی از کلمات را میگیرد و لیستی با همان طول را تولید میکند که حاوی مقادیر شناور تصادفی در دامنه 1- تا1+ است که در واقع رتبه کلمات در مجموعه کلمات است. بطور مثال مقدار ژن مربوطه واژه “polite” در کروموزم 1 میتواند 0.31+ باشد که نشانگر درجه احساسات نسبتاً مثبت براي واژهی مذكور است ، در حالي كه در كروموزوم 2 ، مقدار ژن مربوطه ميتواند 0.46- باشد ، كه نشان دهنده رتبه احساسات منفي است. نمونهای از این توالی در جدول (7) نشان داده شده است.
جدول7. نمونه ای از توالی های ژن ها در الگوریتم ژنتیک
Polite | fair | danger | warm | clean | Far | near | کلمات |
+0.80 | +0.23 | -0.42 | +0.25 | +0.53 | -0.78 | +0.45 | توالی 1 |
-0.14 | -0.36 | -0.17 | +0.41 | +0.32 | -0.51 | +0.32 | توالی 2 |
+.012 | +.048 | -0.45 | -0.36 | +0.41 | -0.65 | -.021 | توالی 3 |
+0.79 | -0.22 | +0.31 | -0.52 | +0.23 | +0.12 | +0.63 | توالی 4 |
3-3-5 برازندگی
در روش پیشنهادی تابع پاداش و مجازات38 الگوریتم ABALGA متفاوت از ALGA است. عملکرد پاداش و مجازات دوباره در مقایسه با تابع پاداش و مجازات منفرد در ALGA طراحی شده است. با دادن Dm مجموعه داده و با استفاده از Lk واژگان برای هر کلمهی ریشه یابی شده، lem(wi) در wiپنجره اطراف واژهی جنبهی مربوطه در الگوریتم ABALGA از رابطهی (5) محاسبه میشود:
(5)
بطوریکه بصورت رابطهی (6) محاسبه میشود:
(6)
در رابطهی (5)، رتبهای از هر کلمهی lemmatized ، wj در Wiپنجره اطراف واژهی جنبهی مربوطه است. در رابطهی (6) رتبهی احساسات یک کلمه در یک پنجره را بیان میکند، اگر کلمهای با بار منفی قبل از کلمهی جاری باشد، در محاسبه رتبهی پنجره معکوس میشود. لیستی از کلمات با بارمنفی در جدول(8) نشان داده شده است.
جدول 8. لیست کلمات منفی [17]
Hardly | Nerever | rarely | Barely | No | n’t | Not |
برای تمام پنجرههایی که حاوی اصطلاح جنبه هستند، محاسبه میشود. اگر رتبه برای یک پنجره مثبت باشد، برچسب جنبه مربوط به عنوان مثبت و در غیر این صورت منفی شمارش میشود. بنابراین ، پیش بینی برچسب مبتنی بر ABALGA در پنجره به شرح زیر محاسبه میشود:
(7)
در روش پیشنهادی از تابع برازندگی برای قیاس کردن کروموزمها استفاده میشود. الگوریتم ABALGA دارای دوهدف است: هدف اصلی این است که تعداد تطبیقها را حداکثر کند. درواقع کروموزومی که تعداد تطبیق بالاتری داشته باشد نسبت به دیگر کروموزمها ارجح خواهد بود. اگر حالت تطبیقها محاسبه شده یکسان باشد، در تابع برازندگی، مقدار قدرمطلق تفاضل برای بدست آوردن رتبه استفاده میشود. دیگر هدف این است که به تعداد تطبیق na به صفر برسد.
این عملکرد پاداش و مجازات تجدید نظر شده ABALGA ، در روش ما ، شبیه به ALGA [18] است.
3-3-6 تابع جهش
عملکرد جهش یک توالی ژنی و تابع برازندگی و همچنین پنجرههای اطراف اصطلاحات را به عنوان پارامترهای ورودی در نظر میگیرد و برای بهبود تابع برازندگی خود سعی در تغییر تابع برازندگی قبلی دارد. واژگان کاندیدا در پنجره عبارت