UsERQA: سیستم پاسخگویی به پرسشهای انجمن آگاه به کاربر مبتنی بر مدلهای زبانی بزرگ
محورهای موضوعی : AI and Robotics
سیده زهرا آفتابی
1
,
سعید فرضی
2
*
1 - دانشکده مهندسی کامپیوتر، دانشگاه صنعتی خواجه نصیرالدین طوسی، تهران، ایران
2 - دانشکده مهندسی کامپیوتر، دانشگاه صنعتی خواجه نصیرالدین طوسی، تهران، ایران
کلید واژه: سیستمهای پاسخگویی به پرسشهای انجمن, تولید پاسخ, شناسایی پرسشهای متضمن, مدلسازی کاربر, خلاصهسازی چندسندی متمرکز بر پرسمان,
چکیده مقاله :
در عصر حاضر، انجمنهای پرسش و پاسخ، به بسترهایی پویا برای تبادل دانش بدل شدهاند. سالانه میلیونها پرسش به امید دریافت پاسخ از متخصصین، راهی این انجمنها میشوند. اما شمار زیادی از آنها به دلیل محدودیت زمان و منابع متخصصین یا داشتن محتوای تکراری، از دریافت پاسخ صحیح و زودهنگام بینصیب میمانند. در این راستا، مطالعات بسیاری به شناسایی پرسشهای با مضمون مشابه پرسش ورودی در بایگانی انجمن و بهرهمندی از پاسخهای تأییدشده آنها جهت رفع نیاز اطلاعاتی پرسش پرداختهاند. عمده این پژوهشها، از تطابق ویژگیهای نحوی و معنایی زوج پرسش استفاده نموده و برای درک بهتر پرسشها، به تزریق دانش خارجی یا افزایش پیچیدگی مدل متوسل شدهاند. در این میان، نقش کلیدی دایره موضوعات مورد مطالعه پرسشگر در رفع ابهام از محتوای پرسش مغفول ماندهاست. پژوهش حاضر با ارائه یک سیستم مولد بازیابیافزوده برای پاسخگویی به پرسشها موسوم به UsERQA که مبتنی بر مدلسازی دانش پرسشگر است، به رفع این شکاف تحقیقاتی میپردازد. UsERQA با بهرهگیری از مدلهای زبانی بزرگ، دانش پرسشگر را بهصورت دنبالهای از برچسبهای موضوعی توصیف نموده و شرط همسو بودن پرسشهای متضمن با دانش پرسشگر را به فرآیند شناسایی پرسشهای متضمن که یک فرآیند پسابازیابی است میافزاید. سپس، یک مدل زبانی دیگر، به تولید پاسخی واحد بر پایه برترین پاسخها مبادرت میورزد. به موجب این فرآیند میتوان از سبک نوشتاری و دانش نهفته در پاسخهای انسانی، جهت تولید پاسخِ باکیفیت، الگوبرداری کرد. نتایج آزمایشها روی دادگان CQAD-ReQuEST، عملکرد موفق UsERQA در مدلسازی کاربر و بهبود کیفیت پاسخها نسبت به مدل مستقل از کاربر را نشان داد.
In the present era, question-and-answer communities have become vibrant platforms for sharing knowledge. Every year, millions of questions are posted on these forums with the hope of receiving answers from human experts. Nonetheless, many of these questions fail to receive timely or accurate answers due to experts' limited time or being duplicates. In recent years, a large body of research has focused on identifying entailed questions within community archives and using their accepted answers to fulfill the information needs of newly posed questions. Most of these studies match questions syntactically and semantically while resorting to external knowledge injection or increased model complexity to enhance question understanding. However, the critical role that the topics typically explored by questioners play in disambiguating their queries has been overlooked. This research addresses this gap by introducing UsERQA, a novel retrieval-augmented generation (RAG)-based question-answering system incorporating user knowledge. UsERQA utilizes large language models to represent the questioner's knowledge as a sequence of topical tags. In addition, it employs a question entailment recognition process as a post-retrieval strategy, with a new constraint, mandating the alignment between entailed questions and the questioner's knowledge. Afterward, another large language model generates the final answer using the accepted answers of top entailed questions as context. The goal is to imitate human writing patterns and leverage the knowledge contained in human responses to produce high-quality answers. Experimental results on the CQAD-ReQuEST dataset indicate the efficiency of UsERQA in modeling user knowledge and producing more accurate responses than its user-agnostic counterpart.