در سیستمهای کاربردی، گرافها با دامنه وسیعی از راسها وجود دارند و یالها به سرعت زیادی در قالب جریان گراف تولید میشوند. یکی از مسائل موجود در جریانهای گراف سنگین که به صورت لحظهای وارد میشوند پیدا کردن زیرگرافهای پرتکرار است. خلاصههای جریان مبتنی بر طرح، مانند c چکیده کامل
در سیستمهای کاربردی، گرافها با دامنه وسیعی از راسها وجود دارند و یالها به سرعت زیادی در قالب جریان گراف تولید میشوند. یکی از مسائل موجود در جریانهای گراف سنگین که به صورت لحظهای وارد میشوند پیدا کردن زیرگرافهای پرتکرار است. خلاصههای جریان مبتنی بر طرح، مانند count-min، اطلاعات گرههای پرتکرار را با دقت قابل قبولی نگهداری میکنند ولی ساختار گراف اصلی را از دست میدهند. از بین این روشها، gMatrix ساختاری میباشد که مشخصات گراف اصلی را نیز حفظ میکند. این روش از توابع درهمساز مختلف، برای ذخیرهی خلاصهی جریان گراف استفاده کرده و به کمک این توابع و معکوس آنها، زیرگرافهای پرتکرار را بهدست میآورد. به دلیل داشتن حجم کمتر از جریان اصلی، gMatrix معمولا به پرس و جوها با دقت بالایی پاسخ نمیدهد. همچنین این روش از مشکل مرتبهی زمانیِ بالا در پاسخ به پرس و جوها هم رنج میبرد. در این مقاله روش جدیدی ارائه شده است که به ازای هزینهی کمِ حافظهی مصرفی، زمان پاسخگویی به پرس و جو زیرگراف پرتکرار را به صورت چشمگیری کاهش میدهد. همچنین الگوریتم ارایه شده با افزایش استقلال بین توابع در هم سازی با استفاده از روش شباهت برداری کُساین، احتمال برخورد عناصر در هم سازی شده را کاهش میدهد. نتایج آزمایشات تجربی که به زبان C++ پیادهسازی شده است و بر روی دادههای شبکه اجتماعی فرندستر اجرا شده است، نشان میدهد که روش پیشنهادی برای یافتن زیرگرافهای پرتکرار پیچیدگی زمانی و دقت یافتن این زیر گرافها را بهبود میبخشد.
پرونده مقاله
یک راهحل منطقي براي لحاظکردن همپوشاني خوشهها، انتساب مجموعهاي از درجه عضویت به هر داده است. بهدلیل کمشدن افرازها و کوچکشدن فضايجستجو، خوشهبندي فازي عموما داراي سربار محاسباتي کمتري بوده، تشخیص و مدیریت دادههاي مبهم، نویزدار و دادههايپرت نیز در آن بهسهولت انجام ميگیرد. ا چکیده کامل
یک راهحل منطقي براي لحاظکردن همپوشاني خوشهها، انتساب مجموعهاي از درجه عضویت به هر داده است. بهدلیل کمشدن افرازها و کوچکشدن فضايجستجو، خوشهبندي فازي عموما داراي سربار محاسباتي کمتري بوده، تشخیص و مدیریت دادههاي مبهم، نویزدار و دادههايپرت نیز در آن بهسهولت انجام ميگیرد. ازاینرو خوشهبندي فازي از نوع پیشرفته روشهاي خوشهبندي به شمار ميرود. اما روشهاي خوشهبندي فازي در مواجه با روابط غیرخطي دادهها ناتوانند. روش پیشنهادي این مقاله ميکوشد تا مبتني بر ایدههاي امکان پذیري، از یادگیري چندهستهاي در چارچوب نگاشتکاهش هدوپ براي تشخیص خوشههاي خطيجدایيناپذیر با ساختار کلاندادههاي پیچیده، استفاده کند. مدل یادگیري چندهستهاي قادر به کشف روابط پیچیده بین دادهاي بوده و در عین حال هدوپ ما را قادر خواهد ساخت تا به جاي تعامل با سیستم عامل و پردازنده، با یک کلاستر منطقي از پردازشها و گرههاي انباره داده تعامل داشته باشیم و عمده کار را بر عهده فریمورک بیندازیم. به طور خلاصه مدلسازي روابط غیرخطي دادهها با استفاده از مدل یادگیري چندهستهاي، تعیین مقادیر مناسب براي پارامترهاي فازيسازي و امکانپذیري، و ارائه الگوریتم در مدل نگاشتکاهش هدوپ از دستاوردهاي کلیدي مقاله حاضر ميباشد. آزمایشها برروي یکي از مجموعه دادههاي پر استفاده مخزن یادگیري UCI و همچنین برروي دیتاست شبیهساز CloudSim پیاده سازي شده است و نتایج قابل قبولي به دست آمده است. طبق مطالعات منتشر شده، مخزن یادگیري UCI براي مقاصد رگرسیون و خوشهبندي کلان داده، و مجموعه داده CloudSim براي شبیهسازي موارد مربوط به رایانش ابري، محاسبه تأخیرهاي زماني و زمانبندي انجام وظایف معرفي شدهاند.
پرونده مقاله