• شماره های پیشین

    • فهرست مقالات Dataset

      • دسترسی آزاد مقاله

        1 - یادگیری رتبه ‏بندی محتوای فارسی وب بر مبنای برنامه‏ نویسی ژنتیک چند لایه
        امیرحسین کیهانی پور
        یادگیری رتبه‏بندی، یک رویکرد نو ظهور به منظور رفع چالش‏های موجود و بهبود عملکرد جویشگرهای وب، بسیار امید بخش و کارآمد است. در عین حال عدم توجه جدی به سوابق تعاملات کاربران با جویشگر طی فرآیند جستجو و ارزیابی نتایج بدست آمده، یکی از معضلات جدی آن بشمار می‏رود. در عین حال چکیده کامل
        یادگیری رتبه‏بندی، یک رویکرد نو ظهور به منظور رفع چالش‏های موجود و بهبود عملکرد جویشگرهای وب، بسیار امید بخش و کارآمد است. در عین حال عدم توجه جدی به سوابق تعاملات کاربران با جویشگر طی فرآیند جستجو و ارزیابی نتایج بدست آمده، یکی از معضلات جدی آن بشمار می‏رود. در عین حال حجم بسیار زیاد ویژگی‏های مورد نیاز از اسناد و پرس‏وجوهای کاربران نیز کاربردی بودن این رویکرد را در شرایط واقعی با ابهام مواجه ساخته است. استفاده از مدل اطلاعات کلیک از گذر داده‏ها و تولید ویژگی‏های کلیک از گذر داده، راهکار نوینی است که بر مبنای آن و با بکارگیری مدل برنامه‏نویسی ژنتیک چند لایه، مدل رتبه‏بندی مناسبی تحت عنوان MGP-Rank برای بازیابی اطلاعات انگلیسی وب، عرضه شده است. در این پژوهش این، با عنایت به ویژگی‏های خاص زبان فارسی، از طریق ارائه سناریوهای مناسب برای ایجاد ویژگی‏های کلیک از گذر داده این الگوریتم، این الگوریتم بومی‏سازی شده است. نتایج حاصل از ارزیابی عملکرد این الگوریتم در حوزه زبان فارسی با استفاده از مجموعه داده dotIR، حاکی از توانمندی قابل ملاحظه آن نسبت به روش‏های مرجع رتبه‏بندی اطلاعات است. این بهبود عملکرد، بخصوص در بخش ابتدایی فهرست نتایج جستجو که غالباً بیشتر مورد مراجعه کاربران است، قابل توجه است. پرونده مقاله
      • دسترسی آزاد مقاله

        2 - استفاده از شبکه مولد متخاصم شرطی برای تولید داده با هدف بهبود کلاس¬بندی کاربران منتشرکننده اخبار جعلی
        عارفه اسمعیلی سعید فرضی
        سالیان درازی است که اخبار و پیام های جعلی در جوامع انسانی منتشر می گردد و امروزه با فراگیرشدن شبکه های اجتماعی در بین مردم، امکان نشر اطلاعات نادرست بیشتر از قبل شده است. بنابراین، شناسایی اخبار و پیام های جعلی به موضوع برجسته ای در جوامع تحقیقاتی تبدیل شده است. ضمناً چکیده کامل
        سالیان درازی است که اخبار و پیام های جعلی در جوامع انسانی منتشر می گردد و امروزه با فراگیرشدن شبکه های اجتماعی در بین مردم، امکان نشر اطلاعات نادرست بیشتر از قبل شده است. بنابراین، شناسایی اخبار و پیام های جعلی به موضوع برجسته ای در جوامع تحقیقاتی تبدیل شده است. ضمناً، شناسایی کاربرانی که این اطلاعات نادرست را ایجاد می کنند و در شبکه نشر می دهند، از اهمیت بالایی برخوردار است. این مقاله، به شناسایی کاربرانی که با زبان فارسی اقدام به انتشار اطلاعات نادرست در شبکه اجتماعی توئیتر می کنند، پرداخته است. در این راستا، سیستمی بر مبنای ترکیب ویژگی های بافتار-کاربر و بافتار-شبکه با کمک شبکه مولد متخاصم شرطی برای متوازن سازی مجموعه -داده پایه ریزی شده است. هم چنین، این سیستم با مدل کردن شبکه اجتماعی توئیتر به گراف تعاملات کاربران و تعبیه گره به بردار ویژگی توسط Node2vec، کاربران منتشرکننده اخبار جعلی را شناسایی می کند. علاوه بر این، با انجام آزمایشات متعدد، سیستم پیشنهادی تا حدود 11% ، 13 % ،12 % و 12 % به ترتیب در معیار های دقت، فراخوانی، معیار اف و صحت نسبت به رقبایش بهبود داشته است و توانسته است دقتی در حدود 99% در شناسایی کاربران منتشرکننده اخبار جعلی ایجاد کند. پرونده مقاله
      • دسترسی آزاد مقاله

        3 - ساخت مجموعه داده تصاویر برای تشخیص و بازشناسی متن در تصاویر
        فاطمه علی مرادی فرزانه رحمانی لیلا ربیعی محمد خوانساری مجتبی مازوچی
        تشخیص متن در تصاویر از مهم ترین منابع تحلیل محتوای تصاویر است. گرچه در زبان هایی همچون انگلیسی و چینی، تحقیقاتی در زمینه تشخیص و بازشناسی متن و ارائه مدله ای انتها به انتها (مدل هایی که تشخیص و بازشناسی در یک مدل واحد ارائه می شود) مبتنی بر یادگیری عمیق انجام شده است، ا چکیده کامل
        تشخیص متن در تصاویر از مهم ترین منابع تحلیل محتوای تصاویر است. گرچه در زبان هایی همچون انگلیسی و چینی، تحقیقاتی در زمینه تشخیص و بازشناسی متن و ارائه مدله ای انتها به انتها (مدل هایی که تشخیص و بازشناسی در یک مدل واحد ارائه می شود) مبتنی بر یادگیری عمیق انجام شده است، اما برای زبان فارسی مانعی بسیار جدی برای توسعه چنین مدلهایی وجود دارد. این مانع، نبود مجموعه داده آموزشی با تعداد بالا برای مدلهای مبتنی بر یادگیری عمیق است. در این مقاله، ما ابزارهای لازم برای ساخت مجموعه داده تصاویر متن منظره با پارامترهایی همچون رنگ، اندازه، فونت و چرخش متن طراحی و ایجاد می کنیم. از این ابزارها برای تامین داده بزرگ و متنوع برای آموزش مدل های مبتنی بر یادگیری عمیق استفاده می شود. به کمک این ابزارها و تنوع تصاویر ساخته شده، مدل ها به نوع خاصی از این پارامترها وابسته نمی شوند و سبب جامعیت مدل ها می شود. 7603 تصویر متن منظره و 39660 تصویر کلمات بریده شده، ساخته شده است. مزیت روش ما نسبت به تصاویر واقعی، ساخت تصاویر به تعداد دلخواه و بدون نیاز به حاشیه نویسی دستی می باشد. طبق بررسی ما، این اولین مجموعه داده تصاویر متن منظره فارسی به صورت آزاد و با تعداد بالا است. پرونده مقاله
      • دسترسی آزاد مقاله

        4 - بررسی کاربردهای نظریه گراف در بازیابی اطلاعات
        مریم  پیروزمند امیرحسین کیهانی پور علی معینی
        نظریه گراف بواسطه توانمندی در مدلسازی روابط پیچیده بین عناصر در مسائل مختلف، بصورت گسترده مورد استفاده قرار گرفته است. از سوی دیگر، بازیابی اطلاعات یعنی استخراج اطلاعات مورد نیاز کاربر، به عنوان یکی از مسائل مهم در دنیای الگوریتم و محاسبات مطرح است. با توجه به کارآمدی ر چکیده کامل
        نظریه گراف بواسطه توانمندی در مدلسازی روابط پیچیده بین عناصر در مسائل مختلف، بصورت گسترده مورد استفاده قرار گرفته است. از سوی دیگر، بازیابی اطلاعات یعنی استخراج اطلاعات مورد نیاز کاربر، به عنوان یکی از مسائل مهم در دنیای الگوریتم و محاسبات مطرح است. با توجه به کارآمدی راهکارهای مبتنی بر گراف در بازیابی اطلاعات، این مقاله، به بررسی تحلیلی و دسته‏ بندی کاربردهای نظریه گراف در بازیابی اطلاعات، می‏ پردازد. این راهکارها در سه دسته کلی، قابل تفکیک هستند؛ دسته نخست، شامل الگوریتم‏هایی می‏ باشد که در آنها از بازنمایی گرافی دادگان در فرآیند بازیابی اطلاعات، استفاده می‏ شود. دسته دوم پژوهش‏ها، به حل مسئله بازیابی معنایی اطلاعات با استفاده از نظریه گراف می‏ پردازند و نهایتا دسته سوم، مربوط به یادگیری رتبه‏ بندی با استفاده از نظریه گراف است. این سه دسته بصورت جزئی‏ تر در هشت زیردسته، دسته‏ بندی شده‏ اند. همچنین از منظر آماری، پژوهش‏های صورت گرفته در هر دسته‏ بر اساس تعداد و سال انتشار، بررسی شده‏ اند. از جمله یافته‏ های این مطالعه، این است که دسته سوم، هم از نظر تعداد پژوهش‏ها و نیز سال انتشار آنها، شاخه نوظهوری محسوب می‏ شود و می‏تواند حوزه تحقیقاتی جالب توجهی برای محققان محسوب ‏شود. پرونده مقاله
      • دسترسی آزاد مقاله

        5 - تحلیل نور: یک دادگان معیار برای ارزیابی روش‌های برچسب‌گذاری صرفی
        هدی الشهیب بهروز مینایی محمد ابراهیم شناسا Sayyed Ali Hossayni
        زبان عربی ریخت‌‌شناسی بسیار غنی و پیچیده‌ای دارد که برای تحلیل زبان عربی و به ویژه در متون عربی سنتی مانند متون تاریخی و مذهبی بسیار مفید است و در فهم معنای متون کمک می‌کند. در مجموعه داده‌های ریخت‌شناسی تنوع برچسب و تعداد نمونه‌های دادگان به ارزیابی روش‌های ریخت‌شناسی چکیده کامل
        زبان عربی ریخت‌‌شناسی بسیار غنی و پیچیده‌ای دارد که برای تحلیل زبان عربی و به ویژه در متون عربی سنتی مانند متون تاریخی و مذهبی بسیار مفید است و در فهم معنای متون کمک می‌کند. در مجموعه داده‌های ریخت‌شناسی تنوع برچسب و تعداد نمونه‌های دادگان به ارزیابی روش‌های ریخت‌شناسی کمک بیشتری می‌کند، در این پژوهش مجموعه داده ریخت‌شناسی که ارائه می‌کنیم شامل حدود ۲۲۳۶۹۰ کلمه از كتاب شرائع الاسلام است که توسط متخصصین برچسب‌گذاری شده است که این مجموعه دادگان از نظر حجم و تنوع برچسب‌ها نسبت به سایر دادگان‌هایی که برای تحلیل ریخت‌شناسی عربی ارائه داده شده است برتر می‌باشد. برای ارزیابی دادگان، سامانه فراسه را بر روی متون اعمال کردیم و کیفیت حاشیه‌نویسی را از طريق چهار معيار بر روی سامانه فراسه گزارش می‌کنیم. پرونده مقاله
      • دسترسی آزاد مقاله

        6 - بررسی کاربردهای نظریه گراف در بازیابی اطلاعات
        مریم  پیروزمند امیرحسین کیهانی پور علی معینی
        نظریه گراف بواسطه توانمندی در مدلسازی روابط پیچیده بین عناصر در مسائل مختلف، بصورت گسترده مورد استفاده قرار گرفته است. از سوی دیگر، بازیابی اطلاعات یعنی استخراج اطلاعات مورد نیاز کاربر، به عنوان یکی از مسائل مهم در دنیای الگوریتم و محاسبات مطرح است. با توجه به کارآمدی ر چکیده کامل
        نظریه گراف بواسطه توانمندی در مدلسازی روابط پیچیده بین عناصر در مسائل مختلف، بصورت گسترده مورد استفاده قرار گرفته است. از سوی دیگر، بازیابی اطلاعات یعنی استخراج اطلاعات مورد نیاز کاربر، به عنوان یکی از مسائل مهم در دنیای الگوریتم و محاسبات مطرح است. با توجه به کارآمدی راهکارهای مبتنی بر گراف در بازیابی اطلاعات، این مقاله، به بررسی تحلیلی و دسته‏بندی کاربردهای نظریه گراف در بازیابی اطلاعات، می‏پردازد. این راهکارها در سه دسته کلی، قابل تفکیک هستند؛ دسته نخست، شامل الگوریتم‏هایی می‏باشد که در آنها از بازنمایی گرافی دادگان در فرآیند بازیابی اطلاعات، استفاده می‏شود. دسته دوم پژوهش‏ها، به حل مسئله بازیابی معنایی اطلاعات با استفاده از نظریه گراف می‏پردازند و نهایتا دسته سوم، مربوط به یادگیری رتبه‏بندی با استفاده از نظریه گراف است. این سه دسته بصورت جزئی‏تر در هشت زیردسته، دسته‏بندی شده‏اند. همچنین از منظر آماری، پژوهش‏های صورت گرفته در هر دسته‏ بر اساس تعداد و سال انتشار، بررسی شده‏اند. از جمله یافته‏های این مطالعه، این است که دسته سوم، هم از نظر تعداد پژوهش‏ها و نیز سال انتشار آنها، شاخه نوظهوری محسوب می‏شود و می‏تواند حوزه تحقیقاتی جالب توجهی برای محققان محسوب ‏شود. پرونده مقاله