یادگیری رتبهبندی، یک رویکرد نو ظهور به منظور رفع چالشهای موجود و بهبود عملکرد جویشگرهای وب، بسیار امید بخش و کارآمد است. در عین حال عدم توجه جدی به سوابق تعاملات کاربران با جویشگر طی فرآیند جستجو و ارزیابی نتایج بدست آمده، یکی از معضلات جدی آن بشمار میرود. در عین حال چکیده کامل
یادگیری رتبهبندی، یک رویکرد نو ظهور به منظور رفع چالشهای موجود و بهبود عملکرد جویشگرهای وب، بسیار امید بخش و کارآمد است. در عین حال عدم توجه جدی به سوابق تعاملات کاربران با جویشگر طی فرآیند جستجو و ارزیابی نتایج بدست آمده، یکی از معضلات جدی آن بشمار میرود. در عین حال حجم بسیار زیاد ویژگیهای مورد نیاز از اسناد و پرسوجوهای کاربران نیز کاربردی بودن این رویکرد را در شرایط واقعی با ابهام مواجه ساخته است. استفاده از مدل اطلاعات کلیک از گذر دادهها و تولید ویژگیهای کلیک از گذر داده، راهکار نوینی است که بر مبنای آن و با بکارگیری مدل برنامهنویسی ژنتیک چند لایه، مدل رتبهبندی مناسبی تحت عنوان MGP-Rank برای بازیابی اطلاعات انگلیسی وب، عرضه شده است. در این پژوهش این، با عنایت به ویژگیهای خاص زبان فارسی، از طریق ارائه سناریوهای مناسب برای ایجاد ویژگیهای کلیک از گذر داده این الگوریتم، این الگوریتم بومیسازی شده است. نتایج حاصل از ارزیابی عملکرد این الگوریتم در حوزه زبان فارسی با استفاده از مجموعه داده dotIR، حاکی از توانمندی قابل ملاحظه آن نسبت به روشهای مرجع رتبهبندی اطلاعات است. این بهبود عملکرد، بخصوص در بخش ابتدایی فهرست نتایج جستجو که غالباً بیشتر مورد مراجعه کاربران است، قابل توجه است.
پرونده مقاله
سالیان درازی است که اخبار و پیام های جعلی در جوامع انسانی منتشر می گردد و امروزه با فراگیرشدن شبکه های اجتماعی در بین مردم، امکان نشر اطلاعات نادرست بیشتر از قبل شده است. بنابراین، شناسایی اخبار و پیام های جعلی به موضوع برجسته ای در جوامع تحقیقاتی تبدیل شده است. ضمناً چکیده کامل
سالیان درازی است که اخبار و پیام های جعلی در جوامع انسانی منتشر می گردد و امروزه با فراگیرشدن شبکه های اجتماعی در بین مردم، امکان نشر اطلاعات نادرست بیشتر از قبل شده است. بنابراین، شناسایی اخبار و پیام های جعلی به موضوع برجسته ای در جوامع تحقیقاتی تبدیل شده است. ضمناً، شناسایی کاربرانی که این اطلاعات نادرست را ایجاد می کنند و در شبکه نشر می دهند، از اهمیت بالایی برخوردار است. این مقاله، به شناسایی کاربرانی که با زبان فارسی اقدام به انتشار اطلاعات نادرست در شبکه اجتماعی توئیتر می کنند، پرداخته است. در این راستا، سیستمی بر مبنای ترکیب ویژگی های بافتار-کاربر و بافتار-شبکه با کمک شبکه مولد متخاصم شرطی برای متوازن سازی مجموعه -داده پایه ریزی شده است. هم چنین، این سیستم با مدل کردن شبکه اجتماعی توئیتر به گراف تعاملات کاربران و تعبیه گره به بردار ویژگی توسط Node2vec، کاربران منتشرکننده اخبار جعلی را شناسایی می کند. علاوه بر این، با انجام آزمایشات متعدد، سیستم پیشنهادی تا حدود 11% ، 13 % ،12 % و 12 % به ترتیب در معیار های دقت، فراخوانی، معیار اف و صحت نسبت به رقبایش بهبود داشته است و توانسته است دقتی در حدود 99% در شناسایی کاربران منتشرکننده اخبار جعلی ایجاد کند.
پرونده مقاله
تشخیص متن در تصاویر از مهم ترین منابع تحلیل محتوای تصاویر است. گرچه در زبان هایی همچون انگلیسی و چینی، تحقیقاتی در زمینه تشخیص و بازشناسی متن و ارائه مدله ای انتها به انتها (مدل هایی که تشخیص و بازشناسی در یک مدل واحد ارائه می شود) مبتنی بر یادگیری عمیق انجام شده است، ا چکیده کامل
تشخیص متن در تصاویر از مهم ترین منابع تحلیل محتوای تصاویر است. گرچه در زبان هایی همچون انگلیسی و چینی، تحقیقاتی در زمینه تشخیص و بازشناسی متن و ارائه مدله ای انتها به انتها (مدل هایی که تشخیص و بازشناسی در یک مدل واحد ارائه می شود) مبتنی بر یادگیری عمیق انجام شده است، اما برای زبان فارسی مانعی بسیار جدی برای توسعه چنین مدلهایی وجود دارد. این مانع، نبود مجموعه داده آموزشی با تعداد بالا برای مدلهای مبتنی بر یادگیری عمیق است. در این مقاله، ما ابزارهای لازم برای ساخت مجموعه داده تصاویر متن منظره با پارامترهایی همچون رنگ، اندازه، فونت و چرخش متن طراحی و ایجاد می کنیم. از این ابزارها برای تامین داده بزرگ و متنوع برای آموزش مدل های مبتنی بر یادگیری عمیق استفاده می شود. به کمک این ابزارها و تنوع تصاویر ساخته شده، مدل ها به نوع خاصی از این پارامترها وابسته نمی شوند و سبب جامعیت مدل ها می شود. 7603 تصویر متن منظره و 39660 تصویر کلمات بریده شده، ساخته شده است. مزیت روش ما نسبت به تصاویر واقعی، ساخت تصاویر به تعداد دلخواه و بدون نیاز به حاشیه نویسی دستی می باشد. طبق بررسی ما، این اولین مجموعه داده تصاویر متن منظره فارسی به صورت آزاد و با تعداد بالا است.
پرونده مقاله
نظریه گراف بواسطه توانمندی در مدلسازی روابط پیچیده بین عناصر در مسائل مختلف، بصورت گسترده مورد استفاده قرار گرفته است. از سوی دیگر، بازیابی اطلاعات یعنی استخراج اطلاعات مورد نیاز کاربر، به عنوان یکی از مسائل مهم در دنیای الگوریتم و محاسبات مطرح است. با توجه به کارآمدی ر چکیده کامل
نظریه گراف بواسطه توانمندی در مدلسازی روابط پیچیده بین عناصر در مسائل مختلف، بصورت گسترده مورد استفاده قرار گرفته است. از سوی دیگر، بازیابی اطلاعات یعنی استخراج اطلاعات مورد نیاز کاربر، به عنوان یکی از مسائل مهم در دنیای الگوریتم و محاسبات مطرح است. با توجه به کارآمدی راهکارهای مبتنی بر گراف در بازیابی اطلاعات، این مقاله، به بررسی تحلیلی و دسته بندی کاربردهای نظریه گراف در بازیابی اطلاعات، می پردازد. این راهکارها در سه دسته کلی، قابل تفکیک هستند؛ دسته نخست، شامل الگوریتمهایی می باشد که در آنها از بازنمایی گرافی دادگان در فرآیند بازیابی اطلاعات، استفاده می شود. دسته دوم پژوهشها، به حل مسئله بازیابی معنایی اطلاعات با استفاده از نظریه گراف می پردازند و نهایتا دسته سوم، مربوط به یادگیری رتبه بندی با استفاده از نظریه گراف است. این سه دسته بصورت جزئی تر در هشت زیردسته، دسته بندی شده اند. همچنین از منظر آماری، پژوهشهای صورت گرفته در هر دسته بر اساس تعداد و سال انتشار، بررسی شده اند. از جمله یافته های این مطالعه، این است که دسته سوم، هم از نظر تعداد پژوهشها و نیز سال انتشار آنها، شاخه نوظهوری محسوب می شود و میتواند حوزه تحقیقاتی جالب توجهی برای محققان محسوب شود.
پرونده مقاله
زبان عربی ریختشناسی بسیار غنی و پیچیدهای دارد که برای تحلیل زبان عربی و به ویژه در متون عربی سنتی مانند متون تاریخی و مذهبی بسیار مفید است و در فهم معنای متون کمک میکند. در مجموعه دادههای ریختشناسی تنوع برچسب و تعداد نمونههای دادگان به ارزیابی روشهای ریختشناسی چکیده کامل
زبان عربی ریختشناسی بسیار غنی و پیچیدهای دارد که برای تحلیل زبان عربی و به ویژه در متون عربی سنتی مانند متون تاریخی و مذهبی بسیار مفید است و در فهم معنای متون کمک میکند. در مجموعه دادههای ریختشناسی تنوع برچسب و تعداد نمونههای دادگان به ارزیابی روشهای ریختشناسی کمک بیشتری میکند، در این پژوهش مجموعه داده ریختشناسی که ارائه میکنیم شامل حدود ۲۲۳۶۹۰ کلمه از كتاب شرائع الاسلام است که توسط متخصصین برچسبگذاری شده است که این مجموعه دادگان از نظر حجم و تنوع برچسبها نسبت به سایر دادگانهایی که برای تحلیل ریختشناسی عربی ارائه داده شده است برتر میباشد. برای ارزیابی دادگان، سامانه فراسه را بر روی متون اعمال کردیم و کیفیت حاشیهنویسی را از طريق چهار معيار بر روی سامانه فراسه گزارش میکنیم.
پرونده مقاله
نظریه گراف بواسطه توانمندی در مدلسازی روابط پیچیده بین عناصر در مسائل مختلف، بصورت گسترده مورد استفاده قرار گرفته است. از سوی دیگر، بازیابی اطلاعات یعنی استخراج اطلاعات مورد نیاز کاربر، به عنوان یکی از مسائل مهم در دنیای الگوریتم و محاسبات مطرح است. با توجه به کارآمدی ر چکیده کامل
نظریه گراف بواسطه توانمندی در مدلسازی روابط پیچیده بین عناصر در مسائل مختلف، بصورت گسترده مورد استفاده قرار گرفته است. از سوی دیگر، بازیابی اطلاعات یعنی استخراج اطلاعات مورد نیاز کاربر، به عنوان یکی از مسائل مهم در دنیای الگوریتم و محاسبات مطرح است. با توجه به کارآمدی راهکارهای مبتنی بر گراف در بازیابی اطلاعات، این مقاله، به بررسی تحلیلی و دستهبندی کاربردهای نظریه گراف در بازیابی اطلاعات، میپردازد. این راهکارها در سه دسته کلی، قابل تفکیک هستند؛ دسته نخست، شامل الگوریتمهایی میباشد که در آنها از بازنمایی گرافی دادگان در فرآیند بازیابی اطلاعات، استفاده میشود. دسته دوم پژوهشها، به حل مسئله بازیابی معنایی اطلاعات با استفاده از نظریه گراف میپردازند و نهایتا دسته سوم، مربوط به یادگیری رتبهبندی با استفاده از نظریه گراف است. این سه دسته بصورت جزئیتر در هشت زیردسته، دستهبندی شدهاند. همچنین از منظر آماری، پژوهشهای صورت گرفته در هر دسته بر اساس تعداد و سال انتشار، بررسی شدهاند. از جمله یافتههای این مطالعه، این است که دسته سوم، هم از نظر تعداد پژوهشها و نیز سال انتشار آنها، شاخه نوظهوری محسوب میشود و میتواند حوزه تحقیقاتی جالب توجهی برای محققان محسوب شود.
پرونده مقاله