بهبود تحلیل احساسات در متن فارسی براساس ترکیبی از رمزگذار خودکار پشتهای و Transformer-BiLSTM-CNN
محورهای موضوعی : AI and Roboticsسینا دامی 1 * , محمدعلی ثناگوی محرر 2
1 - گروه مهندسی کامپیوتر، واحد تهران غرب، دانشگاه آزاد اسلامی
2 - گروه مهندسی کامپیوتر، واحد تهران غرب، دانشگاه آزاد اسلامی، تهران، ایران
کلید واژه: تحلیل احساسات, استخراج ویژگی, تبدیل کننده, رمزگذار خودکار پشتهای,
چکیده مقاله :
با گسترش اینترنت و افزایش ثبت نظرات متنی کاربران درباره رویدادهای مختلف، تحلیل احساسات متنی اهمیت بالایی یافته است، زیرا میتواند احساسات مثبت، منفی یا خنثی کاربران را نسبت به موضوعات گوناگون نشان دهد و به شرکتها، سیاستگذاران و جامعه، اطلاعات ارزشمندی ارائه دهد. اما تحلیل دستی این حجم از دادهها بسیار زمانبر و پرهزینه است؛ لذا پژوهشگران به روشهای خودکار و یادگیری عمیق روی آوردهاند. این پژوهش با ترکیب رمزگذار خودکار پشتهای (SAE) برای استخراج ویژگیها و مدل ترکیبی Transformer-BiLSTM-CNN برای طبقهبندی، به بهبود تحلیل احساسات متنی در زبان فارسی پرداخته است. برای پیشپردازش دادهها نیز از مدل ParsBERT، نسخه فارسی BERT، استفاده شد. این ترکیب در برخی معیارهای ارزیابی مانند دقت، صحت، یادآوری و امتیاز F1، نسبت به مدلهای مشابه همچون Transformer-BiLSTM-CNN ،SAE-LSTM و CNN عملکرد بهتری داشت و نتایج مطلوبی در مجموعهدادههای نظرات کاربران طاقچه و دیجیکالا و توئیتهای فارسی به دست آمد.
The expansion of the internet and the increasing amount of user-generated textual opinions on various topics have made sentiment analysis a crucial tool for understanding public sentiment towards different subjects. These insights are invaluable for businesses, policymakers, and society as a whole, but manually analyzing such a volume of data is costly and impractical. This study leverages automated and deep learning approaches by combining a Stacked Autoencoder (SAE) for feature extraction and a Transformer-BiLSTM-CNN model for sentiment classification, specifically designed for the Persian language. ParsBert, the Persian version of BERT, was used for data preprocessing. This combined approach demonstrated improved performance in key evaluation metrics such as accuracy, precision, recall, and F1 score, outperforming comparative models like Transformer-BiLSTM-CNN, SAE-LSTM, and CNN. Results on datasets including user reviews from the Taghcheh and Digikala platforms and Persian tweets affirm the effectiveness of this hybrid model.