یک معماری دومسیره کارآمد مبتنی بر شبکه عصبی عمیق برای بازشناسی دروازه در ویدئوی بازی فوتبال
محورهای موضوعی : هوش مصنوعی و رباتیک
امیرحسین زنگنه
1
(دانشجو دکتری واحد تهران شمال دانشگاه آزاد اسلامی)
مهدی جم پور
2
(استادیار، دانشکده مهندسي کامپیوتر ، دانشگاه صنعتی قوچان)
کامران لایقی
3
(استادیارگروه مهندسی کامپیوتر، واحد تهران شمال، دانشگاه آزاد اسلامی)
کلید واژه: معماری یادگیری عمیق دو مسیره, ترکیب ویژگیها, شبکه عصبی عمیق VGG, ویژگیهای کلاسیک, معماری مشترک,
چکیده مقاله :
در این مقاله یک روش خودکار با استفاده از یک مدل معماری دومسیره یادگیری عمیق برای مساله تحلیل تصاویر ویدئویی ورزش فوتبال، با تاکید بر شناسایی دروازه به عنوان یکی از مهمترین عناصر رویداد گُل که مهمترین رویداد بازی فوتبال می¬باشد، ارائه کرده¬ایم. معماری پیشنهادی، شکل توسعه یافته مدل VGG سیزده لایه میباشد که طی آن یک مدل معماری دو مسیره تعریف شده است. در مدل معماری پیشنهادی برای بازشناسی دروازه در مسیر اول، مدل با مجموعه داده آموزشی، آموزش داده می¬شود. اما در مسیر دوم، مجموعه داده¬های آموزشی ابتدا توسط یک سیستم غربالکننده مورد بررسی قرار گرفته و بهترین تصاویر که شامل ویژگی¬های متفاوتی با ویژگی¬های انتخاب شده توسط مسیر اول هستند، انتخاب میشوند. به عبارت دیگر در مسیر دوم، ویژگیهایی از شبکهای مشابه مسیر اول، ولی پس از عبور از سیستم غربالگر تولید میشود.سپس بردارهای ویژگی¬ تولید شده در دو مسیر با یکدیگر ادغام شده و یک بردار ویژگی سراسری حاصل می¬شود و بدین ترتیب فضاهای متفاوتی از مساله بازشناسی دروازه تحت پوشش قرار گرفته است. ارزیابیهای متنوعی بر روی روش ارائه شده انجام شده است. نتایج ارزیابیها، حاکی از بهبود دقت بازشناسی دروازه بهوسیله مدل معماری دومسیره ارائه شده نسبت به مدل پایه میباشد. همچنین مقایسه روش پیشنهادی با نتایج موجود نشان میدهد دقت روش پیشنهادی، بهتر از نتایج منتشر شده است.
In this paper, an automated method has been presented using a dual-path deep learning architecture model for the problem of soccer video analysis and it emphasizes the gate recognition as one of the most important elements of the goal event that is the most important soccer game event. The proposed architecture is considered as an extended form of the VGG 13-layer model in which a dual-path architectural model has been defined. For recognizing the gate in the first path using the proposed architectural model, the model is trained by the training dataset. But in the second path, the training dataset is first examined by a screening system and the best images containing features different from the features of the first path are selected. In another word, features of a network similar to the first path, but after passing through the screening system are generated in the second path. Afterwards, the feature vectors generated in two paths are combined to create a global feature vector, thus covering different spaces of the gate recognition problem. Different evaluations have been performed on the presented method. The evaluation results represent the improved accuracy of gate recognition using the proposed dual-path architectural model in comparison to the basic model. A comparison of proposed method with other existing outcomes also represents the improved accuracy of the proposed method in comparison to the published results.
P. Shi and X. Yu, “Goal event detection in soccer videos using multi-clues detection rules,” in Management and Service Science, 2009. MASS’09. International Conference on, 2009, pp. 1–4.
M.-L. Shyu, Z. Xie, M. Chen, and S.-C. Chen, “Video semantic event/concept detection using a subspace-based multimedia data mining framework,” IEEE Transactions on Multimedia, vol. 10, no. 2, pp. 252–259, 2008.
M. H. Kolekar, “Bayesian belief network based broadcast sports video indexing,” Multimedia Tools and Applications, vol. 54, no. 1, pp. 27–54, 2011.
D. W. Tjondronegoro and Y.-P. P. Chen, “Knowledge-discounted event detection in sports video,” Ieee transactions on systems, man, and cybernetics-part a: Systems and humans, vol. 40, no. 5, pp. 1009–1024, 2010.
L.-Y. Duan, M. Xu, Q. Tian, C.-S. Xu, and J. S. Jin, “A unified framework for semantic shot classification in sports video,” IEEE Transactions on Multimedia, vol. 7, no. 6, pp. 1066–1083, 2005.
B. Li, J. H. Errico, H. Pan, and I. Sezan, “Bridging the semantic gap in sports video retrieval and summarization,” Journal of Visual Communication and Image Representation, vol. 15, no. 3, pp. 393–424, 2004.
دو فصلنامه علمي فناوري اطلاعات و ارتباطات ایران | سال سیزدهم، شمارههاي49و50، پاییز و زمستان 1400 صص: 103_114 |
|
یک معماری دومسیره کارآمد مبتنی بر شبکه عصبی عمیق برای بازشناسی دروازه در ویدئوی بازی فوتبال
امیرحسین زنگنه* مهدی چم پور ** کامران لایقی ***
*دانشجوی دکتری، گروه مهندسی کامپیوتر، واحد تهران شمال، دانشگاه آزاد اسلامی، تهران، ایران.
**استادیار، دانشکده مهندسي کامپیوتر ، دانشگاه صنعتی قوچان، قوچان، ایران.
*** استادیار، گروه مهندسی کامپیوتر، واحد تهران شمال، دانشگاه آزاد اسلامی، تهران، ایران.
تاریخ دریافت: 06/11/1399 تاریخ پذیرش: 03/06/1400
نوع مقاله: پژوهشی
چكیده
در این مقاله یک روش خودکار با استفاده از یک مدل معماری دومسیره یادگیری عمیق برای مساله تحلیل تصاویر ویدئویی ورزش فوتبال، با تاکید بر شناسایی دروازه به عنوان یکی از مهمترین عناصر رویداد گُل که مهمترین رویداد بازی فوتبال میباشد، ارائه کردهایم. معماری پیشنهادی، شکل توسعه یافته مدل VGG سیزده لایه میباشد که طی آن یک مدل معماری دو مسیره تعریف شده است. در مدل معماری پیشنهادی برای بازشناسی دروازه در مسیر اول، مدل با مجموعه داده آموزشی، آموزش داده میشود. اما در مسیر دوم، مجموعه دادههای آموزشی ابتدا توسط یک سیستم غربالکننده مورد بررسی قرار گرفته و بهترین تصاویر که شامل ویژگیهای متفاوتی با ویژگیهای انتخاب شده توسط مسیر اول هستند، انتخاب میشوند. به عبارت دیگر در مسیر دوم، ویژگیهایی از شبکهای مشابه مسیر اول، ولی پس از عبور از سیستم غربالگر تولید میشود.سپس بردارهای ویژگی تولید شده در دو مسیر با یکدیگر ادغام شده و یک بردار ویژگی سراسری حاصل میشود و بدین ترتیب فضاهای متفاوتی از مساله بازشناسی دروازه تحت پوشش قرار گرفته است. ارزیابیهای متنوعی بر روی روش ارائه شده انجام شده است. نتایج ارزیابیها، حاکی از بهبود دقت بازشناسی دروازه بهوسیله مدل معماری دومسیره ارائه شده نسبت به مدل پایه میباشد. همچنین مقایسه روش پیشنهادی با نتایج موجود نشان میدهد دقت روش پیشنهادی، بهتر از نتایج منتشر شده است.
واژگان کلیدی: معماری یادگیری عمیق دو مسیره، ترکیب ویژگیها، شبکه عصبی عمیق VGG، ویژگیهای کلاسیک، معماری مشترک
1. مقدمه
نویسنده مسئول: مهدی چم پور jampour@qiet.ac.ir
|
چنانکه استفاده از سیستمهای نظارت ویدیویی در بیشتر سازمانها، ادارات، کارخانجات و محیطهای کاری موجب مراقبت و کنترل دقیق محیط، کاهش تخلفات، افزایش توانایی در آشکارسازی سریع حوادث و نظمدهی محیط کاری شده است. افزایش سامانههای نظارتی موجب شده تا حجم عظیمی از دادههای چند رسانهای تولید شود که در گام اول ذخیرهسازی این حجم گسترده از دادههای ویدیویی نیازمند استفاده از رسانههای ذخیرهساز فراوان میباشد و در گام دوم مدیریت محتوایی آنها بصورت دستی، نیازمند تعداد بسیار زیادی کاربر انسانی و صرف مدت زمان طولانی است که در عمل امکانپذیر نبوده و با خطای زیادی روبرو میباشد.
بخش دیگری از ویدیوهای در دسترس کاربران ویدیوهای مختلف، مربوط به حوزه سرگرمی میباشد. کاربران با توجه به گرایش و علاقهمندیهای شخصی، برنامههای ویدیوهای مختلف را تهیه میکنند یا سایر ویدیوهای موجود در فضای مجازی را پیگیری و مشاهده و در برخی موارد نیز اقدام به ذخیرهسازی آنها میکنند. در این میان لزوم خلاصهسازی فیلمهای ویدیویی و خصوصا ویدیوهای ورزشی با توجه به اینکه معمولا دارای مدت زمان طولانی میباشند، ملموستر است.
ورزش فوتبال یکی از ورزشهای محبوب در جهان است که نه تنها هواداران، بلکه محققان زیادی از مناطق مختلف را در سراسر جهان به خود جلب کرده است. از جمله ویدیوهای ورزشی محبوب، ویدیوهای ورزش فوتبال است که به دلیل علاقهمندی طیف گستردهای از مردم جهان به این ورزش از اهمیت بسیار بالایی برخوردار می باشد. مسئله زمان طولانی بازی فوتبال موجب شده که علاوه بر حجم زیاد مورد نیاز برای ذخیرهسازی، در اغلب موارد همه مردم فرصت تماشای 90 دقیقه فوتبال را نداشته باشند و البته علاقهمند هستند دستکم لحظات مهم و هیجان انگیز بازی را مشاهده کنند. در نتیجه با توجه به زمانگیر بودن فیلمهای ویدیوی و ویدیوهای ورزشی و محدود بودن زمان بسیاری از علاقهمندان و طرفداران این ویدیوها، جهت انتقال محتوای ویدیو به بینندگان، خلاصهسازی ویدیو انجام میشود. به این ترتیب بینندگان میتوانند بدون نیاز به مشاهده کل ویدیو، بخشهای مهم و اصلی آن رویداد را مشاهده و درک کنند.
خلاصه سازی مطلوب یک ویدئو ورزشی فرآیند ساده ای نیست و نیازمند پردازش انسانی میباشد. در روشهای سنتی یک کاربر سراسر یک ویدیو را مورد نظارت قرار داده و بخشهای مهم آن را برچسبگذاری میکند که کاری زمانگیر و دشوار میباشد. برای این منظور، نیازمند تشخیص دقیق رویدادهای مهم و حساس بازی فوتبال هستیم که مبهم و هنوز به عنوان یک سوال باز مطرح میباشد. با این حال در این مقاله، ما دقیقا درصدد تعریف یک رویداد حساس در بازی فوتبال نیستیم بلکه برای شناسایی و تعیین رویدادها در بازی فوتبال، براساس یک پژوهش میدانی عمل کردهایم. ما به منظور شناسایی مهمترین رویدادهای بازی پرطرفدار فوتبال، پرسشنامهای شامل 7 رویداد طراحی کردیم و انتخاب مهمترین رویدادها را به شرکتکنندگان در نظرسنجی واگذار کردیم. فرم نظرسنجی مذکور شامل رویدادهای گل، کرنر، کارت قرمز، کارت زرد، ضربه آزاد، پنالتی و برخورد توپ با تیرک دروازه میباشد.
جدول 1. نتایج نظرسنجی در مورد مهمترین رویداد بازی فوتبال
|
براساس نتایج حاصل از نظر سنجی، مواردی که در حین تماشای یک بازی فوتبال توجه مردم را به خود جلب میکنند شامل شوت، پنالتی، کارت زرد، کارت قرمز، خطاها، ضربات آزاد، کرنر و گل میباشند که آنها را به عنوان رویدادهای مهم وحساس در بازی فوتبال تعریف میکنیم. لازم به ذکر است که براساس نتایج حاصله، رویداد «گُل» مهمترین و حساسترین رویداد در بازی فوتبال به شمار میآید.
از سوی دیگر، کشف و شناسایی رویدادها و وقایع پیچیده در ویدیوها عملیاتی چالش برانگیز و پیچیده است که توجه محققان زیادی را در جامعه بینایی رایانه به خود جلب کرده است. در مقایسه با تشخیص مفهومهای مجزا1، که عمدتاً بر شناسایی اشیاء خاص و صحنه در تصاویر ثابت یا کلیپهای کوتاه ویدیویی شامل حرکات ساده متمرکز است، تشخیص رویداد چندرسانهای با فیلمهای پیچیدهتری مرتبط میباشد که شامل تعامل انسان با اشیاء مختلف در صحنههای متفاوت است و پردازش آنها معمولا چند دقیقه یا حتی چند ساعت زمان نیاز دارد.بنابراین، یک رویداد، یک انتزاع معنایی از توالی سطح بالاتر نسبت به یک یا چند مفهوم است. به عنوان مثال، رویداد گُل را میتوان ترکیب چندین مفهوم مانند اشیاء (بازیکنان، توپ، دروازه و تور)، صحنه (زمین چمن که مسابقه روی آن انجام میشود)، اقدامات (حرکت بازیکنان، موقعیت توپ، شادی کردن بازیکنان) و مفاهیم صوتی (صدای گزارشگر و تماشاچیان، صدای بازیکنان، تشویق تماشاچیان) و غیره تعریف نمود.
با توجه به مشکلات موجود لزوم خلاصهسازی خودکار ویدیوها کاملا محسوس است. در خلاصهسازی خودکار ویدیو با معرفی رویدادهای مهم و حساس، سیستم قادر است پس از دریافت یک ویدیو در ورودی با حذف افزونگیهای بصری و فریمهای تکراری، یک کلیپ خلاصه شده از ویدیو که در برگیرنده محتوای ویدیوی اصلی میباشد را در اختیار کاربر قرار دهد.
در این مقاله ما یک روش خودکار برای تحلیل تصاویر ویدئویی ورزش فوتبال ارائه میکنیم که با تاکید بر شناسایی یکی از عوامل قابل توجه در تشخیص رویدادهای مهم و حساس بازی فوتبال، یک روش خودکار برای تشخیص و خلاصهسازی لحظات مهم بازی تلقی میشود. همانطور که در شکل 1 نشان داده شده در این مقاله، با ترکیب ویژگیهای استخراج شده توسط یک مدل معماری دومسیره یادگیری عمیق، روشی خودکار معرفی میکنیم که در آن دروازه به عنوان یک عامل تفکیک کننده شناسایی میشود. اگر چه این عامل به تنهایی نشان دهنده لحظات همیشه حساس نیست ولی گامی موثر بسوی تفکیک لحظات مهم بازی فوتبال و خلاصهسازی آن به شمار می آید.
ادامه این مقاله به شرح زیر سازماندهی شده است: در بخش ۲، کارهای انجام شده در زمینه خلاصهسازی ویدیویی فوتبال مورد بررسی قرار میگیرد، سپس در بخش ۳، روش پیشنهادی به تفصیل شرح داده میشود؛ در بخش ۴ نتایج تجربی ارائه شده است و در نهایت، نتیجهگیری در بخش ۵ ذکر شده است.
شکل 1. معماری دومسیره پیشنهادی جهت ترکیب ویژگیها استخراج شده توسط شبکه عصبی آموزش داده شده با مجموعه دادهای آموزشی و شبکه عصبی آموزش داده شده با دادهای منتخب مبتنی بر سیستم غربالگر.
|
تشخیص خودکار رخدادها و تفسیر معنایی صحنهها، یک کار چالش برانگیز در خلاصهسازی ویدیو بازی فوتبال است. این کار میتواند با استخراج ویژگیها در سطوح معنایی مختلف انجام شود. ویژگیهای سطح پایین
تصویر مانند رنگ، شکل و بافت، توپ، دهانه دروازه، و همچنین ویژگیهای ویدئویی مانند فریمهای متوالی و عکسها برای به دست آوردن ویژگیهای سطح بالا از قبیل شناسایی وضعیت ویدیو مانند حالت پخش مجدد بازی و حالت وقفه ایجاد شده در بازی استفاده میشوند.
کارهایی برای خلاصه سازی ویدیو انجام شده که ما آنها را به دو دسته کلی تقسیم کردهایم: 1) روشهایی که برای خلاصهسازی از ویژگیهای مختلف ویدیو مانند ویژگیهای دیداری، شنیداری یا متنهای مرتبط با ویدیو استفاده میکنند. 2) روشهایی که منحصرا ویژگیهای دیداری موجود در فریمهای ویدیو را برای شناسایی رویداد، مورد استفاده قرار میدهند.
1_2 رو شهایی مبتنی بر ویژگیهای ویدیو
ویژگیهای صوتی شامل تشویق تماشاگران و هیجان مفسران ورزشی استخراج شده، و همزمان نشانههای(ویژگیهای) بصری تشخیص داده شدهاند. بعد از استخراج مفهوم معنایی و توجه به توالی معنایی رویدادهایی که با هم مرتبط هستند، مانند ورود توپ به دروازه و هلهله تماشاچیان، قوانین موجود برای شناسایی رویداد به کار گرفته میشوند[1]. در کاری مشابه برای تجزیه و تحلیل محتوی ویدیو اقدام به استخراج ویژگیهای سطح پایین و سطح میانی از کانالهای صدا / تصویری کردند[2].
روشی برای آنالیز معنایی ویدیو و خلاصهسازی ویدیو با شناسایی مفاهیم با استفاده از یک شبکه بیزی معرفی شده است که در آن، رویدادهای برجسته بازی با استفاده از ویژگیهای صوتی با استفاده از قوانین تولید شده و دانش این حوزه از کلیپهای ویدیو، شناسایی میشوند[3]. مجموعهای از کلیپهای برجسته که شامل رویدادهای حساس بازی هستند، برچسبگذاری شده و در یک چکیده ویدئویی برای کاربردهای مختلف مانند مرور رویدادهای مهم، شاخصگذاری و بازیابی ویدیو بکار برده میشوند.
استخراج ویژگیهای صوتی (صدای سوت داور) و تصویری ویدیو برای شناسایی وقفههای ایجاد شده در بازی، مورد استفاده قرار گرفتهاند. [4]. برای مثال در بازی فوتبال زمانی که سوت داور شنیده میشود به این معنی است که یک خطا اتفاق افتاده یا توپ خارج از میدان بوده و در نتیجه یک وقفه در بازی رخ داده است. از جمله مزایای کار یاد شده، عمومی بودن و کاربردی بودن آن برای همه بازیهایی است که دارای ساختار بازی/ وقفه میباشند.
همچنین [5]–[9] نیز از ویژگی صوتی به عنوان یکی از مهمترین ویژگیها برای شناسایی رویدادهای حساس استفاده کردند. به عنوان مثال، برای شناسایی رویداد گل در بازی فوتبال از تغییرات صدای گزارشگر و تغییرات صدای تماشاچیان استفاده کردند. به عقیده آنها افزایش شدید انرژی صوتی نشان دهنده رویدادی خاص در بازی میباشد [10], [11].
کارهای انجام شده دسته اول که از ویژگیهای مختلف برای شناسایی رویداد استفاده میکنند با محدیدویتهای از جمله: 1- افزایش تعداد سنسورها و تجهیزات سخت افزاری به منظور ضبط صوت، 2- محدودیت در فاصله ضبط دادهها، با استفاده از دوربین میتوان رویدادها را از فاصله دور ثبت و ضبط نمود در حالیکه اگر بخواهیم همان ویدیو را با صدا تهیه کنیم با محدودیت فاصله روبرو خواهیم بود. 3- حذف نویز و صداهای اضافی موجود در ویدیو که توسط تماشاچیان تولید میشود و میتواند موجب خطا در عملکرد سیستم شود. به عنوان مثال روشهایی که با شناسایی صدای سوت داور اقدام به شناسایی رویداد میکنند در مواردی که تماشاچیان اقدام به سوت زدن در حین بازی میکنند با خطا روبرو میشوند. 4- در ویدیوهایی که در ورزشگاههای سرپوشیده تهیه میشوند، صدای تماشاچیان صدای غالب بوده و عملا صدای سوت داور و بازیکنان توسط روشهای مالتیمُدال قابل استفاده نیستند. 5- روشهای مالتیمدال فقط روی ویدیوهایی که تحت شرایط خاصی تهیه شدهاند، قابلیت استفاده را دارا بوده و عمومی نیستند.
2_2 روشهای مبتنی بر ویژگیهای فریم
شرکتهای پخش ویدیویی از تکرارهای2 صحنههای هیجان انگیز و مهم استفاده میکنند تا روی رویدادهای خاص بازی با جزئیات کامل تأکید کرده و آنها را برای بینندگان خود نمایش دهند. صحنه تکرار به طور عمده شامل نمایش حرکت آهسته یک رویداد جالب و گاهی اوقات لوگو بازی (علامت ویژه مسابقه یا علامت تجاری اسپانسر برای برخی از فریمها) است، که در آغاز و پایان صحنه تکرار استفاده میشود. استفاده از ویژگی تکرار رویدادهای حساس بازی نیز در برخی از کارهای مشابه برای خلاصهسازی ویدیو مورد استفاده قرار میگیرد.
برای شناسایی رویدادهای حساس بازی اقدام به شناسایی لوگو بازی کردهاند[12]. به نظر آنها هنگامی رویداد گل شناسایی میشود که یک وقفه در مسابقه تشخیص داده میشود یا برخی علایم از تشویق بازیکنان مشاهده میشوند و یا پخش مجدد بازی از زوایای مختلف که توسط دوربین های مختلف بدست آمدهاند، نمایش داده میشوند. هنگامی که لوگوی مسابقات در ویدیو پخش میشود اقدام به تشخیص صحنه تکرار میکنند و سپس برای خلاصه سازی ویدیو با استفاده از شناسایی صحنهی تکرار، شناسایی مبتنی بر قاعده گل و تشخیص حمله، اقدام میکنند. این تشخیص از طریق تشخیص مرز براساس دهانهی دروازه، طبقهبندی عکس، تشخیص صحنهی تکرار، و تشخیص بورد ثبت امتیازات امکانپذیر است.
برای شناسایی رویدادهای حساس بازی فوتبال اقدام به تشخیص صحنههای پخش مجدد در ویدیو کردند[13]. به نظر آنها صحنههای پخش مجدد حاوی رویدادهای مهم بازی میباشند. برای شناسایی صحنههای پخش مجدد نیز اقدام به شناسایی لوگوی بازی در فریمهای ویدیو کردهاند. آنها به محض تشخیص لوگوی مسابقات در یک فریم، به فریمهای قبلی برگشته و این کار را تا رسیدن به فریمی که حاوی یک تصویر از نمای دور3، است ادامه میدهند. مجموعه فریمهای بین تصویر نمای دور و لوگوی مسابقات به عنوان رویداد مهم بازی خلاصه میشوند.
شکل 2. معماری اولیه شبکه VGG و لایههای استفاده شده در آن
|
در روشهای مبتنی بر شناسایی لوگوی [15]–[17] مسابقات 1- باید لوگوی مسابقات برای سیستم تعریف شود 2- سیستم فقط به تصویر لوگو مسابقه حساس بوده و هیچ دانشی در مورد نوع رویداد اتفاق افتاده نداشته و در نتیجه امکان خلاصه سازی ویدیو براساس نوع رویداد در این روش وجود ندارد و 3- این روش عمومی نبوده و فقط برای ویدیوهایی طراحی شده که توسط یک کاربر انسانی از قبل مورد بررسی قرار گرفته باشد که سلیقه و انتخاب کاربر شرکتهای پخش ویدیویی در آن دخیل است.
یادگیری عمیق به عنوان یکی از تکنیکهای یادگیری ماشین، از پیشرفتهای فناوری واحدهای پردازش گرافیکی4 استفاده کرده است، و این امر به نوبه خود استفاده گسترده از آن را فراهم آورده است. کریمی و همکاران [18] از یادگیری عمیق برای شناسایی رویدادهای ورزش فوتبال با تاکید بر استخراج رویداد کارت زرد و قرمز استفاده کردهاند. آنها ابتدا تصاویر ورزش فوتبال را از سایر تصوایر تفکیک کرده و در مرحله بعد اقدام به شناسایی رویداد میکنند.
تکنیکهای یادگیری عمیق به نتایج بسیار خوبی در بسیاری از مسائل مهم در مقایسه با روشهای سنتی دست یافتهاند. شبکههای عصبی پیچشی5 یکی از مدلهای یادگیری عمیق با لایههای متعدد میباشند که شامل سطوح چندگانه هستند. در مقایسه با شبکههای کاملا متصل، شبکههای عصبی پیچشی دارای قابلیت تعمیم بالاتری هستند. این امر آنها را برای کاربردهای مختلف از جمله تشخیص اشیا، و دستهبندی تصاویر مناسب میکند [19]–[21]. با توجه به اینکه در این مقاله هدف ما بازشناسی دروازه به عنوان عامل شناسایی لحظات حساس میباشد ما از یک شبکه عصبی پیچشی استفاده کردهایم.
در این بخش با توجه به ضرورت توسعه روشهای خودکار و کارآمد برای خلاصهسازی رویدادهای مهم ویدیو، به معرفی روش پیشنهادی میپردازیم. ما از یک مدل پایه یادگیری عمیق برای استخراج ویژگیها استفاده میکنیم، اما پیشتر نشان داده شده که با استفاده از شبکههای عصبی عمیق همچنان ممکن است برخی ویژگیهای مفید برای دستهبندی کشف و استخراج نشوند [22] در نتیجه روشهای ترکیبی میتوانند برای این منظور کارآمد باشند. ما در این مقاله، با ارائه یک معماری دومسیره، در یک مسیر به استخراج ویژگیهای مبتنی بر شبکه عمیق پرداخته و در مسیر دوم به کمک یک سیستم غربالگر ابتکاری به استخراج ویژگیهای مکمل میپردازیم که در بخش تجربیات نشان داده شده است ترکیب این دو مسیر، توصیف مطلوبتری از تصاویر به منظور تفکیکپذیری ایجاد میکند و سبب بهبود کارآیی سیستم در شناسایی هدف میشود. در ادامه ما ابتدا معماری پایه VGG که در این مقاله مورد استفاده قرار گرفته شده است و انگیزه استفاده از آن را شرح میدهیم، سپس در زیربخش بعدی سیستم غربالگر ابتکاریمان را معرفی کرده و در زیربخش آخر، مدل ترکیبی پیشنهادی را ارائه و تشریح میکنیم.
1_3 معماری مدل پایه
ما در این مقاله از مدل پایه شبکه عصبی عمیق VGG-13 برای بازشناسی تصاویر حاوی دروازه استفاده میکنیم. مدل VGG یک معماری شبکه عصبی پیچشی است که توسط سایمون و زیسرمن در سال 2014 پیشنهاد شد. این شبکه نشان داد که میتوان با افزایش عمق شبکه، دقت دستهبندی را بهبود بخشید. انگیزه ما، در به کارگیری شبکه VGG عمق شبکه بوده است. چنانکه، عمق مناسب شبکه یادگیری عمیق در عملکرد آن بسیار موثر می باشد. معماری VGG با هدف تعامل بین عمق مطلوب شبکه و از سوی دیگر کاهش تعداد پارامترها در شبکه طراحی شده است چنانکه در همه لایهها از فیلتر پیچشی (کانولوشن) 3×3 با طول گام 1 و همچنین یک حداکثر تجمع6 2×2 استفاده شده است. تابع فعالسازی که شبکهVGG با آن کار میکند یکسوساز خطی (ریلو7) میباشد و چنانکه در شکل 2 نشان داده شده است در لایه آخر از تابع سیگموئید8 استفاده میشود.
روشهای مبتنی بر یادگیری عمیق، کارآیی بسیار مطلوبی در استخراج ویژگیها دارند، اما تضمینکننده استخراج همه ویژگیها، یا به عبارتی بهترین ویژگیها نیستند [23]. در نتیجه با اطمینان میتوان گفت که استخراج خودکار ویژگیهای تصویر توسط یک مدل یادگیری عمیق ساده برای کاربردهایی مانند بازشناسی دروازه در تصاویر بازی فوتبال اگر چه مفید است اما کامل نبوده و ترکیب ویژگیهای مختلف استخراج شده که هرکدام قادر به پوشش بخشی از فضای مساله میباشند سبب بهبود دقت در عملکرد سیستم خواهند شد. لذا در ادامه به معرفی مسیر دوم معماری پیشنهادی، به عنوان مکملی برای استخراج ویژگی مطلوب میپردازیم.
3_2 سیستم غربالگر تصاویر
ما در مسیر دوم به ارائه یک مدل شبکه عصبی عمیق میپردازیم که بطور سری در ادامه سیستم غربالگر ابتکاریمان قرار دارد چنانکه ویژگیهایی را از تصاویر استخراج میکند که در بخش نتایج نشان میدهیم ترکیب آنها با ویژگیهای شبکه عصبی عمیق در مسیر اول، سبب بهبود کارآیی سیستم بازشناسی میشود. هدف از زیرسیستم غربالگر در مسیر دوم، کمک به شناسایی و جداسازی تصاویر آموزشی برتر میباشد که منظور از واژه برتر در اینجا، اشاره به تصاویری است که توسط ماشین از قابلیت تفکیکپذیری بالاتری برخوردارند. سیستم غربالگر پیشنهادی از یادگیرندههای ضعیف9 بر اساس ضریب همبستگی و توابع چگالی احتمال استفاده میکند. برای این منظور ابتدا فرآیند شناسایی بهترین تصاویر توسط سیستم غربالگر را به عنوان یک منبع اولیه از ویژگیهای بسیار مطلوب در شناسایی دروازه شرح میدهیم.
ما ابتدا ضریب همبستگی هر تصویر از تصاویر شامل دروازه (مثبت) در مجموعه تصاویر آموزشی را نسبت به سایر تصاویر آموزشی، اعم از حاوی دروازه (مثبت) یا تصاویر غیردروازه (منفی) را محاسبه میکنیم. سپس بر اساس ضرایب به دست آمده، توابع چگالی احتمال آنها را نسبت به همه تصاویر آموزشی حاوی دروازه و غیردروازه محاسبه میکنیم. تصاویری که بتوانند تمایز بهتری بین تصاویر شامل دروازه و بدون دوازه ایجاد کنند، به عنوان تصاویر منتخب انتخاب میشوند. به عبارت دیگر، به صورت یک رابطه 1 به n، توابع چگالی احتمال هر تصویر بر اساس میزان ضریب همبستگی آن نسبت به سایر تصاویر محاسبه میشود. به این ترتیب به هر تصویر از مجموعه تصاویر آموزشی به دید یک یادگیرنده ضعیف اما سراسری نگاه میکنیم. بدیهی است، تصویری که بتواند بیشترین همیستگی با سایر تصاویر مثبت و عدم همبستگی با تصاویر منفی را کسب کند از ویژگیهای مطلوبتری برخوردار است که میتواند در نهایت منجر به توصیف بهتر تصاویر دیده نشده گردد.
ما از توابع چگالی احتمال برای نمایش میزان تفکیکپذیری هر یک از یادگیرندههای ضعیف استفاده کردهایم؛ به عنوان مثال شکل 3 (سمت راست) مربوط به یک یادگیرنده مطلوب است که بخوبی تصاویر دارای دروازه و غیردروازه را تفکیک کرده است. در عوض، (سمت چپ) توابع چگالی احتمال یک یادگیرنده ضعیف ناموفق را نشان میدهد که همپوشانی دو تابع بیانگر عدم توانایی در تفکیک مطلوب تصاویر دارای دروازه و غیردروازه میباشد. ما به منظور محاسبه خودکار میزان همپوشانی توابع چگالی احتمال، روابط (1) تا (7) را بسط دادهایم چنانکه این روابط به ما کمک میکنند به مقداری عددی به منظور تصمیمگیری در خصوص مقدار همپوشانی توابع چگالی احتمال، و به طور کلی انتخاب یا عدم انتخاب یادگیرندههای ضعیف اقدام کنیم. بدیهی است هر چه مقدار همپوشانی که از رابطه (7) به دست میآید کمتر باشد میزان تفکیکپذیری توسط یادگیرنده ضعیف بهتر بوده و بنابراین مطلوب انتخاب ما است. بنابراین بر اساس توزیع نرمال دو تابع چگالی احتمال داریم:
(1)
(2)
که در آن مجموعه داده مثبت،
مجموعه داده منفی،
تابع چگالی احتمال داده مثبت،
تابع چگالی احتمال داده منفی،
میانگین تابع چگالی احتمال دادههای مثبت و
تابع چگالی احتمال دادههای منفی میباشند. برای محاسبه فاصله 2 تابع چگالی احتمال داریم:
(3)
(4)
(5)
که با بسط آن خواهیم داشت:
(6)
=
(7)
حاصل رابطه (7) مقداری عددی در بازه صفر تا یک خواهد بود که هر چه مقدار آن کمتر باشد میزان همپوشانی دو تابع چگالی احتمال کمتر خواهد بود که تفکیک پذیری بیشتر مجموعه هدف و غیرهدف را بیان میکند. ما از آن به عنوان عاملی برای انتخاب 200 تصویر با بیشترین معیار جهت تفکیک تصاویر مثبت (دروازه) و منفی (غیردروازه) به منظور آموزش شبکه در مسیر دوم استفاده میکنیم. در زیربخش بعد، معماری دو مسیره پیشنهادی و نهایتا ترکیب ویژگیها برای استخراج ویژگیهای سراسری را معرفی میکنیم.
3_3 معماری مدل شبکه مشترک پیشنهادی
جدول 2. پارامترهای مربوط به پیادهسازی شبکه عمیق پیشنهادی
|
شکل 3. تابع چگالی احتمال یک تصویر مثبت (سمت راست) و تابع چگالی احتمال یک تصویر منفی (سمت چپ).
|
بعد از لایه Flatten هر مسیر دارای یک بردار ویژگی 80000 بُعدی میباشد که با هم ادغام شده و یک بردار 160000 بُعدی حاصل میشود. بردار بدست آمده در حقیقت یک بردار ویژگی سراسری میباشد که از ترکیب ویژگیهای دو مسیر بدست میآید. که این بردار ویژگی سراسری، ورودی لایه Dense را تشکیل میدهد.
در بخش بعدی، با تحلیل مدل پایه شبکه عم