Applying the combined SPIHT-DCT method using spatial and spatial-temporal scaling to encode video images
Subject Areas :vahid Seirafian 1 * , siamak talebi 2
1 -
2 -
Keywords:
Abstract :
In this paper, a hybrid encoder using two features of spatial scalability and spatio-temporal scalability is presented for high resolution video coding. In the combined method, Intra and Inter video frames are coded in two different ways. Intra frames are coded using SPIHT1 algorithm which is based on wavelet transform. Inter frames are coded in the usual MPEG-2 standard way and based on DCT conversion. By coding the video with a high degree of resolution in two ways: spatial scalability and spatial-temporal scalability, the video is sent through two or three layers. The data sent from the layers provide a video with different resolution and quality to the user. In this way, the user can choose the right service based on his needs. In spatial scalability, the base layer and the upgrade layer have the same coding structure. But in the spatio-temporal scalability of the second upgrade layer, because it only includes Inter frames, it is only coded based on the standard method. The results of the simulations performed on different videos with a high degree of resolution show the improvement of the final image quality in the proposed hybrid method with scalability in different layers, compared to the method based on the MPEG-2 standard.
مراجع
[1].M. Domenski, A. Luczuk, S. Mackwiak, "On Improving MPEG Spatial Scalability", in proceedings of 2000 international conference of image processing ICIP Vancouver, Canada, vol. 2, pp. 848-851, 2000.
[2]. L. Lima,Manerba F, Adami N, Signoroni A, Leonardi R, “Wavelet-Based Encoding for HD Applications”, IEEE, ICME, pp. 1351-1354, 2007.
[3]. T. Chiang,D. Anastassiou, “Hierarchical HDTV/SDTV Compatible Coding Using Kalman Statistical Filtering”, IEEE Trans. On circuits for video Tech. Vol. 9, No. 3, 1999.
[4]. M. Domenski, A. Luczak, S. Mackowaik, R. Swierczynfiski, "Hybrid coding of video with spatio-temporal Scalability using subband decomposition", in Proceedings 1999 of SPIE, vol. 3653, pp. 1018-1025, 1999.
[5]. C. Poynton,”Digital Video and HDVT Algorithms and Interfaces”, Los Altos, USA, pp. 111-126, 2003.
[6]. S. Uzun, A. Amira “Real-time 2-D Wavelet Transform Implementation for HDTV Compression”, in Elsevier Science, Real-Time Imaging 11, pp. 151-165,2005.
[7]. ISO/IEC International Standard 13813-2, information Technology Generic Coding of Moving Pictures and Associated Audio Information, 1995.
[8]. J. Fowler, M. Tagliasacchi, B. Pesquet, "Wavelet-Based Distributed Source Coding of Video", In Proc. of the European signal Processing Conference, EUSIPCO, Antalia, Turkey, 2005.
[9]. M. Weeks, M. A. Bayoumi, “Three-Dimentional Discrete Wavelet Transform Architectures”, IEEE transactions on signal processing, 2002, vol. 50, No. 8.
[10]. G. Kwon, Hyo-Kak Kim, Yoon Kim, Sung-Jea Ko, “An Efficient POCS-based Post-processing Technique Using Wavelet Transform in HDTV”, IEEE Transactions Consumer Electronics, Vol. 51, No. 4, Pages: 1283-1288, 2005.
[11]. M. Ghanbari, “Standard Codecs: Image Compression to Advanced Video Coding”, IEE Telecommunication 49, London, U.K., 2003.
[12]. B. Wu, X. Ji, D. Zhoa, W. Gao, "Wavelet Based distributed video coding with spatial scalability", circuits and systems, ISCAS, 2008 IEEE international symposium, pp. 3458-3461, 2008.
[13]. N. Adami, M. Brescianini, Riccardo Leonardi, A. Signoroni. "A Fully Scalable Video Coding Scheme with Homollogous Inter-scale Prediction.", ST Journal of Research, Vol. 3, No. 2, Pages 19-35,2006.
[14]. A. Said, W.a. Pearlman, "A New, Fast, and Efficient Image Codec Based on Set Partitioning in Hierarchical Trees", in IEEE trans. circuits system video technology, vol.6, no. 3, pp. 243-250, 1996.
[15]. N. Bozinovic, J. Konrad, “Modeling Motion for Spatial Svalability”, Acoustics, Speech and Signal Processing ICASSP, Proceedings, 2006 IEEE Intenational conference, Vol. 2, PP. 29-32.
[16]. R. Dianat, M Ghanbari, F. Marvasti “A Low Bit Rate Hybrid Wavelet-DCT Video Codec” IEEE Tran. On circuits and systems for Video Technology, VOL. 15, NO. 7, July 2005
]17[. وحید¬رضا صیرفیان، سیامک طالبی، "کدکردن تصاویر ویدئویی HDTV با استفاده از روش ترکیبی SPIHT-DCT"، هفدهمین کنفرانس مهندسی برق ایران، ICEE2009، تهران، دانشگاه علم و صنعت، ش. 2254، بهار 1388.
فصلنامه علمي- پژوهشي فناوري اطلاعات و ارتباطات ایران | سال چهارم، شمارههاي 13 و 14، پاییز و زمستان 1391 صص: 25- 36 |
|
بکارگیری روش ترکیبی SPIHT-DCT با استفاده از مقیاسپذیری مکانی و
مکانی– زمانی برای کد کردن تصاویر ویدئویی HDTV
وحید رضا صیرفیان*1 سیامک طالبی**
*کارشناس ارشد، دانشکده مهندسی برق، دانشگاه آزاد اسلامی واحد میمه، میمه، ایران
**کارشناس ارشد، دانشکده مهندسی برق، دانشگاه شهید با هنر کرمان، کرمان
تاريخ دريافت: 01/04/1391 تاريخ پذيرش: 11/10/1391
چكيده
در این مقاله، کد کننده ترکیبی با استفاده از دو ویژگی مقیاس پذیری مکانی و مقیاس پذیری مکانی–زمانی برای کد کردن ویدئو با درجه تفکیک بالا ارائه شده است. در روش ترکیبی، قاب های ویدئویی Intra و Inter به دو روش متفاوت کد می شوند. قاب های Intraبا استفاده از الگوریتم SPIHT1 که مبتنی بر تبدیل موجک است کد می شوند. قاب های Inter به روش معمول استاندارد MPEG-2 و بر اساس تبدیل DCT کد می شوند. با کد کردن ویدئو با درجه تفکیک بالا به دو روشمقیاس پذیری مکانی و مقیاس پذیری مکانی– زمانی، ویدئو از طریق دو یا سه لایه ارسال می شود. داده های ارسالی از لایه ها، ویدئویی با وضوح و کیفیت متفاوت به کاربر عرضه می کنند. به این ترتیب کاربر می تواند بر اساس نیاز خود سرویس مناسب را انتخاب کند.
در مقیاس پذیری مکانی لایه پایه و لایه ارتقا ساختار کدینگ یکسانی دارند. ولی درمقیاسپذیری مکانی- زمانی لایه ارتقا دوم، به دلیل اینکه فقط شامل قاب های Inter است، فقط مبتنی بر روش استاندارد کد میشود.
نتایج شبیهسازیهای انجام شده روی ویدئوهای مختلف با درجه تفکیک بالا، بهبود کیفیت تصویر نهایی در روش ترکیبی پیشنهادی با مقیاسپذیری را در لایههای مختلف، نسبت به روش مبتنی بر استاندارد MPEG-2 نشان میدهد.
كليد واژگان: استاندارد MPEG-2، الگوریتم SPIHT، تبدیل DCT، مقیاس پذیری، ویدئو با درجه تفکیک بالا.
1. مقدمه
کد کننده های ویدئویی مقیاس پذیر2، کاربردهای زیادی در شبکه های مختلف ارتباطی دارند. هر شبکه نیز بر اساس سطوح مختلف سرویسی که به کاربرعرضه میکند ارزشگذاری3 و با ارسال ویدئو در کیفیت های مختلف و یا دقت مکانی یا زمانی متفاوت، کاربر می تواند بر اساس نیاز و محدودیت های گیرنده خود، سرویس مورد نظر را انتخاب میکند[1]. این مورد برای ارسال ویدئو با درجه تفکیک بالا4 اهمیت بیشتری دارد.
بررسی کدکردن ویدئو با درجه تفکیک بالا با مقیاس پذیری از این جنبه دارای اهمیت است که عرضهکنندگان محصولات ویدئویی و تصویری، همچنین سرویسدهندگان رسانههای تصویری، به این نوع ویدئو توجه ویژهای پیدا کردهاند و رویکرد همه جانبهای به آن داشتهاند[2]. بنابراین به دلیل حجم بالای اطلاعات ارسالی و لزوم انطباق فنی گیرندهها برای پخش تصاویر با درجه تفکیک بالا، قابلیت ارسال و دریافت تصاویر ویدئویی با اندازه و نرخ متفاوت، می تواند منجر به ارتقا کیفیت سرویسدهی سیستم شود.
Set Partitioning Hierarchical Trees 2 Scalable 3 QoS 4 HDTV 5 SDTV |
تصویر ویدئو با درجه تفکیک بالا از عرض و طول دارای وضوح دو برابر نسبت به تصویر ویدئو استاندارد است. اندازه قابهای ویدئوی HDTV 720×1280 و 1080×1920 است. نسبت تصویر در ویدئو با درجه تفکیک بالا 16:9 است. این نسبت در تصویر ویدئو استاندارد برابر 4:3 است[5].
بسیاریاز الگوریتم های مورد استفاده در کدکردن ویدئو بر اساس تبدیل DCTپایه گذاری شده است[6]. در استاندارد MPEG-2 نیز برای حذف افزونگی های مکانی موجود در تصویر از تبدیل DCT استفاده می شود[7]. از سوی دیگر نتایج آزمایش های سال های اخیر نشان داده است که تبدیل موجک در فشرده سازی تصویر می تواند بر مشکلاتی که الگوریتم های مبتنی بر تبدیل بلوکی ایجاد می کنند، غلبه کند[6]. هم چنین بکار بردن تبدیل موجک در کدکردن ویدئو می تواند نتایج کیفی بهترینسبت به کدک های متداول مبتنی بر تبدیل DCT داشته باشد[9و8].
تبدیل موجک برای کدکردن تصویر با درجه تفکیک بالا نیز مورد استفاده قرار گرفته است[6]. در روش های مختلف فشرده سازی، با افزایش تعداد پیکسل های یک بلوک تحت پردازش، از همبستگی بیشتر بین پیکسل ها استفاده می شود و فشرده سازی موثرتری انجام می شود[10]. ولی در روش های مبتنی بر تبدیل DCT، بزرگ کردن بلوک تحت تبدیل، موجب پیچیدگی بیشتر می شود[11]. تبدیل موجک از این خاصیت استفاده می کند و با اعمال تبدیل به کل تصویر یا قسمت های بزرگتریاز تصویر، نتایج بهتری ارائه می کند. به همین دلیل در استاندارد JPEG2000 نیز از تبدیل موجک استفاده شده است[11].
استفاده از مقیاس پذیری های کدک استاندارد، در روش های کدکردن مبتنی بر تبدیل موجک نیز بکار گرفته شده است[13و12]. استفاده از تبدیل موجک در کدکردن ویدئویی به اندازه وضوح CIFبا مقیاس پذیری نسبت به استفاده از تبدیل DCT، منجر به ارتقا کیفیت در حدود 4 dB شد[12].
الگوریتم SPIHT روشی برای فشردهسازی تصویر بر اساس تبدیل موجک است[15و14]. با استفاده از این الگوریتم، فقط دادههای مهم تصویر و ضرایب حساس تبدیل موجک انتقال پیدا می کند[11].
مزایای استفاده از تبدیل موجک میتواند برای کد کردن قابهای Intra و تبدیل DCT برای قاب های Inter مورد استفاده قرارگیرد. این روش برای استاندارد ویدئویی H.263 نتایج قابل قبولی به همراه داشت[16]. در این مرجع شبیهسازیها در نرخ بیت های پایین حدود 300 تا 1500کیلو بیت در ثانیه و روی ویدئوهایی با اندازهCIF و QCIF، انجام شد.
هم چنین بکاربردن روش ترکیبی SPIHT-DCT برای ویدئوهای با درجه تفکیک بالا، باعث ارتقا کیفیت نسبت به کدک استاندارد MPEG-2 شده است[17].
در این مقاله، روش کدکردن ترکیبی SPIHT-DCT برای ویدئوهای با درجه تفکیک بالا، HDTV، ابتدا بر اساس مقیاس پذیری مکانی1 و سپس مقیاس پذیری مکانی- زمانی2 پیشنهاد شده است. اطلاعات ویدئودر حالت اول از طریق دو لایه و در حالت دوم از طریق سه لایه مجزا ارسال می شود. در کدک مقیاس پذیر مکانی، کد کردن هر دو لایه مشابه هم انجام می شود. کد کردن قاب هایIntra مبتنی بر تبدیل موجک و کدکردن قابهای Inter براساس تبدیل DCT انجام شدهاست. کدکننده مقیاسپذیر مکانی-زمانی به غیر از دو لایه پایه و ارتقا اول، لایه سومی هم دارد که کدکننده آن فقط تحت استاندارد MPEG-2 عمل می کند. دلیل آن وجود قاب های Inter در این لایه است.
هم چنین برای ارزیابی تاثیر کدکننده ترکیبی، ویدئو با درجه تفکیک بالا، با شرایط یکسان، تحت استاندارد MPEG-2 نیز کد شدهاست.
ادامه این مقاله به این صورت سازماندهی شدهاست که در بخش دوم الگوریتم کدکردن ترکیبی پیشنهادی تشریح شدهاست.در بخش سوم کدکننده با مقیاس پذیری مکانی و در بخش چهارم الگوریتم کد کردن ترکیبی با مقیاسپذیری مکانی- زمانی برای ویدئو با درجه تفکیک بالا توضیح داده شده است. بخش پنجم به نتایج شبیهسازیهای انجام شده به هر دو روش مقیاسپذیری اختصاص دارد. در نهایت مقاله در بخش ششم جمع بندی شدهاست.
2. کدکردن تصاویر با درجه تفکیک بالا به روش ترکیبی
برای کد کردن قاب های تصویری با درجه تفکیک بالا، ترکیب الگوریتم SPIHT مبتنی بر تبدیل موجک و تبدیل DCT به کار می رود. در روش ترکیبی SPIHT-DCT، کد کننده به دو بخش مجزا تقسیم می شود. قسمت اول کدکننده قاب های Intra است. این قسمت از کد کننده به طور کاملا مجزا از روش مبتنی بر استاندارد MPEG-2 عمل می کند. این قاب ها با الگوریتم فشرده سازی SPIHT که مبتنی بر تبدیل موجک است، کد می شوند.
قاب های Inter که شامل قاب های P و B هستند، در بخش دیگر کدکننده بر اساس تبدیل DCT کد می شوند. قاب های Inter با بکاربردن الگوریتم های پیش بینی و جبران حرکت روی قاب مرجع ایجادمی شوند. پیاده سازی الگوریتم های پیش بینی و جبران حرکت روی قاب های تصویری منجر به ایجاد فرکانس های بالای مصنوعی می شود. اگر این فرکانس های بالا تحت تبدیل الگوریتم های مبتنی بر تبدیل موجک قرار گیرد، می تواند منجر به ایجاد اعوجاج شود. اعوجاج ایجاد شده در این قسمت مزایای استقاده از تبدیل موجک در کد کردن ویدئو را تحت تاثیر قرار می دهد [16].
مرجع قاب های P و B، قاب I کد شده به روش مبتنی بر تبدیل موجک است. در کد کردن قاب های I با افزایش لایه های تجزیه در الگوریتم استفاده شده از همبستگی بین همه نمونه های تصویر استفاده می شود. ارتقا کیفیت قاب مرجع، منجر به بهبود کیفیت قاب هایInter می شود و می تواند در کیفیت کل ویدئوی ارسالی موثر واقع شود.
الگوریتم پیش بینی حرکت، یک مدل از قاب جاری را بر اساس داده های موجود در قاب های قبلی و بعدی کد شده ایجاد می کند. هدف از بکارگیری الگوریتم پیش بینی حرکت، مدل کردن قاب جاری با حداکثر دقت ممکن است تا اطلاعات ارسالی کاهش یابد. با کم کردن قاب مدل شده از قاب جاری، عمل جبران حرکت روی قاب انجام می شود [11]. پساز جبران حرکت، قابی بدست می آید که حاوی اطلاعاتی است که دکد کننده برای بازسازی قاب جاری از روی قاب مرجع نیاز دارد. بهترین عملکرد فشرده سازی زمانی هنگامی بدست می آید که داده های قاب باقی مانده از الگوریتم جبران حرکت به کمترین مقدار برسد، در حالی که در دکد کننده بهترین کیفیت ممکن ایجاد شود. الگوی قرارگیری و کد شدن قاب ها را کد کننده مشخص می کند، در عین حال الگوی متداول ترتیب قاب ها به این صورت است: I B B P B B P B B [5].
3. روش کدکردن ترکیبی SPIHT-DCT با مقیاس پذیری مکانی برای ویدئو با درجه تفکیک بالا
برای کدکردن ترکیبی ویدئوهای با درجه تفکیک بالا، مقیاس پذیری مکانی به کدکننده افزوده شده است.با استفاده از این ویژگی، دو لایه برای انتقال داده ها ایجاد می شود. لایه اول یا لایه پایه، داده های ویدئو با وضوح پایین تر را انتقال می دهد. لایه دوم داده های ارسال نشده برای ارتقا ویدئو به وضوح اصلی تصویر لازم استرا انتقال می دهد. با افزوده شدن داده های لایه ارتقا به داده های لایه پایه، ویدئوی با درجه تفکیک بالا در گیرنده دریافت می شود[16].
کد کننده ترکیبی مقیاس پذیر مکانی شامل دو قسمت مجزا از هم است. ساختار کدکننده هر قسمت مشابه هم است.
در شکل (1) ساختار بلوک دیاگرام کد کننده ترکیبی پیشنهادی با استفاده از ویژگی مقیاس پذیری مکانی برای کد کردن ویدئو با درجه تفکیک بالا نشان داده شده است.
در کدکننده لایه پایه، ابتدا وضوح قاب های تصویر کاهش پیدا می کند. قاب های Intraتوسط قسمت کدکننده مبتنی بر الگوریتم SPIHT کد می شوند. این قسمت مجزا از کد کننده ی قاب های Interاست و مبتنی بر تبدیل DCTاست. قاب های بازسازی شده I برای پیش بینی و جبران حرکت قاب های P و B بکار می روند.
قاب های کد شده توسط لایه پایه، پس از دکد شدن از طریق مسیر بازگشت در فرستنده به وضوح اصلی تصویر با درجه تفکیک بالا برگردانده می شوند. این قاب ها به همین صورت در گیرنده قابل بازسازی هستند. داده های لایه ارتقا، حاصل تفاضل قاب اصلی تصویر و داده های قابل بازسازی در گیرنده است. در واقع در این مرحله پس از حذف داده های ارسال شده، اطلاعات باقی مانده هر قاب به روش ترکیبی کد و ارسال می شوند.
هر کد کننده سری بیت های مجزایی ایجاد می کند. برای تصویر با وضوح پایین تر، سری بیت های ارسالی لایه پایه مورد استفاده قرار می گیرد. سری ویدئویی حاصل از دکد کردن بیت های این لایه، ویدئویی با وضوح SDTV (480×720) به کاربر ارائه می دهد. سری دیگر که از طریق لایه ارتقا ارسال می شود، شامل اطلاعاتی است که با افزوده شدن به اطلاعات لایه پایه، ویدئوی HDTV (720×1280 یا 1080×1920 ) با وضوح کامل را عرضه می کند. با استفاده از این ویژگی در گیرنده، یک ویدئو با دو وضوح متفاوت وجود دارد که کاربر با توجه به نیاز خود، سرویس دلخواه را انتخاب می کند.
تخمین و جبران سازی حرکت در هر لایه به طور مستقل از لایه دیگر محاسبه و ارسال می شود. به دلیل اختلاف وضوح تصویر در دو قسمت کد کننده، نمی توان از نتایج حاصل از پیاده سازی الگوریتم های پیش بینی و جبران حرکت و الگوریتم های تخمین بردار حرکت (Motion Vector) یک لایه برای لایه دیگر استفاده کرد.
[1] Spatial Scalability
[2] Spatial-Temporal Scalability
4. روش کدکردن ترکیبی SPIHT-DCT با مقیاس پذیری مکانی-زمانی برای ویدئو با درجه تفکیک بالا
در این قسمت به کد کننده ترکیبی پیشنهادی، ویژگی مقیاس پذیری مکانی-زمانی اضافه شده است.در مقیاس پذیری مکانی، قاب های تصویر ویدئو با اندازه وضوح متفاوت ارسال می شوند. حال آنکه در مقیاس پذیری زمانی نرخ قاب در ثانیه لایه های ارسالی نیز تغییر می کند. در واقع یک قاب ویدئویی با درجه تفکیک بالا در این کد کننده از سه لایه مختلف ارسال می شود.
لایه اول یا لایه پایه، اطلاعات پایین ترین سطح وضوح و نرخ قاب در ثانیه ویدئو را انتقال می دهد. داده های انتقالی توسط این لایه، ویدئو SDTV با اندازه قاب 480×720 و نرخ 25 قاب در ثانیه عرضه می کنند. در این لایه قاب های I ، P و برخی قاب های B قرار دارند.
اطلاعات لایه دوم یا لایه ارتقا اول، با افزوده شدن به داده های لایه پایه، وضوح قاب های ارسالی لایه پایه را به اندازه واقعی می رسانند. در واقع ویدئو عرضه شده با مجموع اطلاعات لایه پایه و لایه ارتقا اول، نسبت به ویدئو با درجه تفکیک بالا، فقط نرخ قاب در ثانیه کمتری دارد.
اطلاعات انتقال داده شده توسط لایه سوم یا لایه ارتقا دوم، به اطلاعات دو لایه پایین ترافزوده می شوند. این لایه قاب هایی با وضوح کامل را شامل می شود که از طریق لایه پایه ارسال نشده اند. در نتیجه مجموع اطلاعات سه لایه، ویدئو با درجه تفکیک بالا با وضوح و نرخ قاب در ثانیه ویدئوی اصلی است.
بلوک دیاگرام کد کننده ترکیبی پیشنهادی ویدئو با درجه تفکیک بالا با ویژگی مقایس پذیری مکانی- زمانی در شکل (2) نشان داده شده است.
در این کد کننده سه واحد جداگانه برای اجرای الگوریتم های پیش بینی و جبران حرکت وجود دارد. این الگوریتم ها برای قاب های با وضوح پایین تر به طور جداگانه محاسبه می شوند. بردارهای حرکتی این قاب ها هم مجزا از قسمت های دیگر محاسبه و ارسال می شوند. در لایه ارتقا اول نیز به دلیل افزایش وضوح تصویر باید الگوریتم پیش بینی و جبران حرکت جداگانه محاسبه شود. در لایه ارتقا دوم، قاب هایی ارسال می شوند که در لایه های قبلی کد و ارسال نشده اند. بنابراین این الگوریتم ها برای این قاب ها به طور مجزا انجام می شود.
این کدکننده ترکیبی، ضمن ارتقا کیفیت قاب های مرجع که می تواند منجر به افزایش کیفیت سایر قاب های ویدئو شود، از مقیاس پذیری مکانی– زمانی نیز استفاده می کند. بنابراین کاربر می تواند رنج گسترده تری از سرویس ویدئویی در اختیار داشته باشد و بر اساس نیاز، سرویس مورد نظر خود را انتخاب نماید.
5. شبیه سازی ها و نتایج
5.1. کدکننده ترکیبی با مقیاسپذیری مکانی
برای کدکردن ویدئو با درجه تفکیک بالا به روش ترکیبی پیشنهادی و با ویژگی مقیاسپذیری مکانی، از ویدئوهای با وضوح متفاوت استفاده شده است. اندازه وضوح ویدئوهای تحت شبیه سازی 720×1280 و 1080×1920 است. شبیهسازیها روی مولفه روشنایی قابهای ویدئویی انجام شدهاست. هم چنین نرخ قاب های Intra در دو حالت متفاوت 1 به 5 و 1 به 9 در نظر گرفته شدهاست.
در نرخ Intra 1 به 9 از همان الگوی قاب بیان شده استفاده شده است و در نرخ Intra 1 به 5 همان الگو با قطع پنجمین قاب به صورت I B B P B بکار رفته است.
شکلهای (3و4) نشان دهنده میانگین کیفیت ویدئو Shields به وضوح 720×1280 در نرخ بیت های مختلف است. اختلاف بین میانگین کیفیت ویدئو کد شده با افزایش نرخ بیت تقریباً ثابت است و روند افزایش تقریباً مشابهی را دارد. در نرخ اینترا 1 به 5 بهبود میانگین کیفیت روش پیشنهادی نسبت به روش استاندارد بیش از مورد مشابه در نرخ اینترا 1 به 9 است. علت کاهش میانگین کیفیت ویدئو با کاهش نرخ قابهای اینترا، کاهش اثر قاب مرجع کد شده به روش مبتنی بر تبدیل موجک در سایر قاب ها است. هم چنین با توجه به نتایج حاصل از شبیه سازی روش پیشنهادی بدون در نظر گرفتن مقیاسپذیری، میتوان این نکته را بیان کرد که روش ترکیبی پیشنهادی به همراه ویژگی مقیاسپذیری مکانی بهتر از روش استاندارد به همراه این ویژگی عمل میکند و با دو لایه شدن اطلاعات ارسالی عملکرد بهتری نسبت به روش استاندارد دارد [17]. در نرخ اینترا 1 به 9 نتایج حاصل از روش مبتنی بر تبدیل موجک در نرخ بیت های بالا، نزدیک به نتایج روش ترکیبی است. در عین حال با نزدیک شدن به نرخ بیت 30000 KB/s میانگین کیفیت روش مبتنی بر تبدیل موجک اندکی کاهش مییابد.
جدول (1) نتایج شبیه سازی انجام شده روی ویدئو Shields به اندازه 720×1280 را در نرخ بیت های تقریباً یکسان برای دو لایه مختلف را نشان می دهد. هم چنین نرخ بیت انتقال داده شده توسط لایه پایه نیز مشخص شده است. اندازه قاب های انتقال داده شده توسط لایه پایه 480×720 است. لایه پایه حدود 30 درصد مجموع بیت ارسالی را به خود اختصاص داده است.
در شکلهای (5 و6) نمودار میانگین کیفیت ویدئو Mobcal به اندازه 720×1280 بر حسب نرخ بیتهای مختلف نشان داده شده است. در شکل 5 با نرخ اینترا 1 به 5، افزایش نرخ بیت، اختلاف بین میانگین کیفیت روش پیشنهادی و روش استاندارد را افزایش داده است. با افزایش نرخ بیت، روند صعودی میانگین کیفیت ویدئو کد شده به روش استاندارد کاهش مییابد. برای ویدئو کد شده به روش ترکیبی پیشنهادی، روند افزایش کیفیت تقریباً ثابت است. شکل (6) نشان میدهد که با نرخ اینترا 1 به 9 ، اختلاف ویدئو کدشده به روش پیشنهادی و استاندارد با افزایش نرخ بیت کمی افزایش مییابد و در نرخ بیت 29900 KB/s حدود 4/1 dB است.
|
|
شکل 3: مقایسه میانگین کیفیت لایه های ویدئو Shields به اندازه 720×1280 در نرخ اینترا 1 به 5 کد شده به دو روش ترکیبی و استاندارد با مقیاس پذیری مکانی. | شکل 4: مقایسه میانگین کیفیت لایه های ویدئو Shields به اندازه 720×1280 در نرخ اینترا 1 به 9 کد شده به دو روش ترکیبی و استاندارد با مقیاس پذیری مکانی. |
جدول 1: مقایسه نتایج شبیه سازی ویدئو Shields به اندازه 720×1280 برای نرخ ارسال بیتتقریباً یکسان لایه های مختلف کد شده به دو روش ترکیبی و استاندارد با مقیاس پذیری مکانی. | |
| |
|
|
شکل 5: مقایسه میانگین کیفیت لایه های ویدئو Mobcal به اندازه 720×1280 در نرخ اینترا 1 به 5 کد شده به دو روش ترکیبی و استاندارد با مقیاس پذیری مکانی. | شکل 6: مقایسه میانگین کیفیت لایه های ویدئو Mobcal به اندازه 720×1280 در نرخ اینترا 1 به 9 کد شده به دو روش ترکیبی و استاندارد با مقیاس پذیری مکانی. |
جدول 2: مقایسه نتایج شبیه سازی ویدئو Mobcal به اندازه 720×1280 برای نرخ ارسال بیتتقریباً یکسان لایه های مختلف کد شده به دو روش ترکیبی و استاندارد با مقیاس پذیری مکانی. | |
|
در جدول (2) مقایسه میانگین کیفیت ویدئو Mobcal به اندازه 720×1280 کد شده به سه روش پیشنهادی و تبدیل موجک و استاندارد در نرخ بیت تقریباً یکسان نشان داده شده است. حجم اطلاعات لایه پایه به اندازه وضوح 480×720 در مقایسه با حجم بیت ارسالی برای ویدئو با درجه تفکیک بالا نیز نشان داده شده است. اطلاعات ارسالی لایه پایه حدود 30 در صد از حجم ارسالی برای انتقال ویدئو کامل را تشکیل میدهد.
شکل های (7 و 8) نمودارهای مقایسه میانگین کیفیت برای ویدئو Shields به اندازه 1080×1920 را نشان می دهد. این ویدئو به دو روش ترکیبی و استاندارد و با ویژگی مقیاس پذیری مکانی در دو نرخ بیت متفاوت کد شدهاست.
شکل (7) درنرخ اینترا 1 به 5 است و شبیه سازی از 12000KB/s تا حدود 26000 KB/s انجام شده است. اختلاف میانگین کیفیت بین دو روش کدکردن ترکیبی پیشنهادی و روش استاندارد به 5/1 dB هم می رسد. نتایج حاصل شده نشان میدهد که با افزایش نرخ بیت، اختلاف میانگین کیفیت ابتدا کمی کاهش و سپس اندکی افزایش می یابد.
شکل (8) در نرخ اینترا 1 به 9، نشان می دهد که اختلاف میانگین کیفیت دو روش کدکردن نسبت به نرخ اینترا بالاتر، کاهش یافته که به دلیل میرا بودن اثر بهبود کیفیت قاب کد شده به روش تبدیل موجک در قاب های بعدی است. در نرخ بیت برابر، میانگین کیفیت ویدئو کد شده در نرخ اینترا 1 به 5 حدود 6/1 dB بیشتر از ویدئو کد شده در نرخ 1 به 9 است.
جدول (3) نتایج میانگین کیفیت ویدئو Shields به اندازه 1080×1920 در نرخ بیت تقریباً یکسان نشان میدهد. حجم اطلاعات ارسالی توسط لایه پایه هم در هر نرخ بیت مشخص شده است. در نرخ اینترا 1 به 5 و در نرخ بیت حدود 20000 KB/s اختلاف میانگین کیفیت دو روش کدکردن به حدود 5/1 dB میرسد. در نرخ اینترا 1 به 9 و در نرخ بیت حدود 21000 KB/s اختلاف میانگین کیفیت دو روش به حدود 1 dB می رسد. لایه پایه حدود 29 تا 31 درصد حجم اطلاعات ارسالی را تشکیل میدهد.
|
|
شکل 7: مقایسه میانگین کیفیت لایه های ویدئو Shields به اندازه 1080×1920 در نرخ اینترا 1 به 5 کد شده به دو روش پیشنهادی و استاندارد با مقیاس پذیری مکانی. | شکل8: مقایسه میانگین کیفیت لایه های ویدئو Shields به اندازه 1080×1920 در نرخ اینترا 1 به 9 کد شده به دو روش پیشنهادی و استاندارد با مقیاس پذیری مکانی. |
جدول3: مقایسه نتایج شبیه سازی ویدئو Shields به اندازه 1080×1920 برای نرخ ارسال بیت تقریباً یکسان لایه های مختلف کد شده به دو روش پیشنهادی و استاندارد با مقیاس پذیری مکانی. | |
|
5.2. کد کننده ترکیبی با مقیاس پذیری مکانی-زمانی
عملکرد کدکننده ترکیبی با مقیاس پذیری مکانی- زمانی با کدکننده استاندارد MPEG-2 مقایسه شده است. ویدئوهای با درجه تفکیک بالا با وضوح متفاوتی برای شبیه سازی ها در نظر گرفته شده است.
شکل های 9 و10، میانگین کیفیت ویدئوی Shields با اندازه وضوح 720×1280را نسبت به نرخ های بیت بر ثانیه مختلف در دو نرخ Intra 1 به 5 و 1 به 9 نشان می دهند. در این شکل ها میانگین کیفیت ویدئو کد شده به دو روش متفاوت با هم مقایسه شده است. شبیه سازی روی این ویدئو برای 50 قاب انجام شده است.
ترکیب لایه پایه و لایه ارتقا اول کد شده به روش ترکیبی پیشنهادی بیشترین کیفیت را دارد. ویدئو این دو لایه با نرخ 25 قاب در ثانیه است.در واقع نصف نرخ قاب در ثانیه ویدئو اصلی است. با افزایش نرخ بیت، روند افزایش کیفیت سریع تر می شود. نرخ بیت ارسالی برای لایه پایه و لایه ارتقا اول همان نرخ بیت ارسالی کل ویدئو است که ترکیب این دو لایه بخشی از آن را شامل می شود. در مجموع اختلاف میانگین کیفیت ویدئو کامل کد شده به روش ترکیبی نسبت به روش استاندارد، با افزایش نرخ بیت در ثانیه زیاد میشود. جدول (4)، میانگین کیفیت ویدئو را در یک نرخ بیت در ثانیه تقریبا یکسان و با نرخ Intra متفاوت نشان می دهد.
شکل های 11 و 12 مقایسه میانگین کیفیت ویدئوی Mobcal به اندازه وضوح 720×1280 با نرخ 50قاب در ثانیه است. مقایسه در دو نرخ Intra متفاوت 1 به 5 و 1 به 9 انجام شده است. شبیه سازی کدکردن این ویدئو نیز روی 50 قاب انجام شده است.
با مشاهده نتایج این ویدئو، با افزایش نرخ بیت در ثانیه میانگین کیفیت لایه های ویدئو کد شده به روش ترکیبینسبت به ویدئو کد شده به روش استاندارد افزایش پیدا می کند. با کاهش نرخ قاب Intra به نرخ 1 به 9، اختلاف کیفیت دو روش کاهش می یابد. این نتایج نشان می دهد با افزایش قاب های Interوابسته، اثر ارتقا قاب مرجع در آنها میرا می شود. جدول (5)، نتایج شبیه سازی ویدئو به هر دو روش ترکیبی و استاندارد را در نرخ بیت ارسالی تقریبا یکسان نشان میدهد. نتایج در دو نرخ متفاوت Intra نشان داده شدهاست. لایه پایه در نرخ Intra 1 به 5 حدود 20 درصد حجم اطلاعات ارسالی را تشکیل می دهد. در نرخ 1 به 9 این مقدار به 19 درصد میرسد.
اختلاف میانگین کیفیت لایه های ویدئو Shields با اندازه وضوح 1080×1920 با نرخ 25 قاب در ثانیه در دو نرخ Intra متفاوت در شکل های 13 و 14 نشان داده شده است. اختلاف بین ویدئو کامل و ویدئو حاصل از مجموع لایه پایه و لایه ارتقا در روش ترکیبی بیشتر از اختلاف لایه های مشابه در روش استاندارد است. با افزایش نرخ بیت ارسالی، این اختلاف در روش ترکیبی افزایش می یابد، در صورتی که در روش استاندارد، این اختلاف تقریبا ثابت است.
نتایج نشان می دهد که با افزایش اندازه وضوح، در نرخ بیت ارسالی یکسان، میانگین کیفیت ویدئو نیز افزایش پیدا می کند. در نرخ Intra 1 به 9 اختلاف میانگین کیفیت ویدئو کد شده به روش استاندارد و ترکیبی نسبت به نرخ Intra 1 به 5 کاهش یافته است. جدول (6) نتایج شبیه سازی ویدئو را در نرخ بیت های تقریبا یکسان و در نرخ Intra متفاوت نشان داده شده است. از این جدول می توان درصد اشغال شده پهنای باند توسط لایه های پایه و ارتقا اول را بدست آورد. ویدئو لایه پایه در هر دو نرخ Intra حدود 9 درصد پهنای باند را اشغال می کند. میانگین کیفیت ویدئو با درجه تفکیک بالا و ویدئو حاصل از لایه های پایه و ارتقا اول، در نرخ بیت ارسالی تقریبا یکسان نیز، مشخص است. لایه پایه برای این ویدئو همان اندازه وضوح SDTV یا 480×720 را ارسال می کند. هم چنین ویدئو حاصل از لایه پایه و ترکیب لایه پایه و لایه ارتقا اول نرخ 13 قاب در ثانیه را دارد.
شکل 9: میانگین کیفیت لایه های ویدئو Shields به اندازه 720×1280 در نرخ اینترا 1 به 5 کد شده به دو روش ترکیبی و استاندارد با مقیاس پذیری مکانی-زمانی. | شکل10: میانگین کیفیت لایه های ویدئو Shields به اندازه 720×1280 در نرخ اینترا 1 به 9 کد شده به دو روش ترکیبی و استاندارد با مقیاس پذیری مکانی-زمانی.. | |
جدول 4: مقایسه نتایج شبیه سازی ویدئو Shields به اندازه 720×1280 برای نرخ ارسال بیت تقریباً یکسان لایه های مختلف کد شده به دو روش ترکیبی و استاندارد با مقیاس پذیری مکانی-زمانی | ||
| ||
|
| |
شکل 11: میانگین کیفیت لایه های ویدئو Mobcal به اندازه 720×1280 در نرخ اینترا 1 به 5 کد شده به دو روش ترکیبی و استاندارد با مقیاس پذیری مکانی-زمانی. | شکل12: میانگین کیفیت لایه های ویدئو Mobcal به اندازه 720×1280 در نرخ اینترا 1 به 9 کد شده به دو روش ترکیبی و استاندارد با مقیاس پذیری مکانی-زمانی. | |
جدول 5: مقایسه نتایج شبیه سازی ویدئو Mobcal به اندازه 720×1280 برای نرخ ارسال بیت تقریباً یکسان لایه های مختلف کد شده به دو روش ترکیبی و استاندارد با مقیاس پذیری مکانی-زمانی. | ||
| ||
شکل 13: مقایسه میانگین کیفیت لایه های ویدئو Shields به اندازه 1080×1920 در نرخ اینترا 1 به 5 کد شده به دو روش پیشنهادی و استاندارد. |
شکل 14: مقایسه میانگین کیفیت لایه های ویدئو Shields به اندازه 1080×1920 در نرخ اینترا 1 به 9 کد شده به دو روش پیشنهادی و استاندارد. | |
جدول6: مقایسه نتایج شبیه سازی ویدئو Shields به اندازه 1080×1920 برای نرخ ارسال بیت تقریباً یکسان لایه های مختلف کد شده به دو روش پیشنهادی و استاندارد. | ||
6. نتیجهگیری
در این مقاله، کدکننده ترکیبی برای ویدئو با درجه تفکیک بالا پیشنهاد شده است. این کدکننده در دو حالت مختلف طراحی و شبیه سازی شده است. ویدئو با درجه تفکیک بالا ابتدا با استفاده از مقیاس پذیری مکانی و سپس با بکار بردن مقیاس پذیری مکانی- زمانی کد و ارسال شده است. بکارگیری روش پیشنهاد شده در این کدکننده، منجر به بهبود کیفیت ویدئو ارسالی نسبت به کدکننده مبتنی بر استاندارد MPEG-2 می شود. قاب های Intra با استفاده از الگوریتم SPIHT کد می شوند و کیفیت آن نسبت به قاب های Intra کد شده به روش استاندارد افزایش پیدا می کند. این بهبود منجر به افزایش کیفیت قاب هایی می شود که از آن به عنوان قاب مرجع استفاده می کنند. استفاده از ویژگی مقیاس پذیری، ضمن انعطاف پذیر کردن کدکننده، باعث ارتقا کیفیت سرویس نیز می شود.
مقایسه نتایج کدکننده پیشنهادی برای ویدئو با درجه تفکیک بالا با سایر کدک های استاندارد مانند MPEG-4 می تواند زمینه ساز تحقیقات در آینده باشد.
مراجع
[1].M. Domenski, A. Luczuk, S. Mackwiak, "On Improving MPEG Spatial Scalability", in proceedings of 2000 international conference of image processing ICIP Vancouver, Canada, vol. 2, pp. 848-851, 2000.
[2]. L. Lima,Manerba F, Adami N, Signoroni A, Leonardi R, “Wavelet-Based Encoding for HD Applications”, IEEE, ICME, pp. 1351-1354, 2007.
[3]. T. Chiang,D. Anastassiou, “Hierarchical HDTV/SDTV Compatible Coding Using Kalman Statistical Filtering”, IEEE Trans. On circuits for video Tech. Vol. 9, No. 3, 1999.
[4]. M. Domenski, A. Luczak, S. Mackowaik, R. Swierczynfiski, "Hybrid coding of video with spatio-temporal Scalability using subband decomposition", in Proceedings 1999 of SPIE, vol. 3653, pp. 1018-1025, 1999.
[5]. C. Poynton,”Digital Video and HDVT Algorithms and Interfaces”, Los Altos, USA, pp. 111-126, 2003.
[6]. S. Uzun, A. Amira “Real-time 2-D Wavelet Transform Implementation for HDTV Compression”, in Elsevier Science, Real-Time Imaging 11, pp. 151-165,2005.
[7]. ISO/IEC International Standard 13813-2, information Technology Generic Coding of Moving Pictures and Associated Audio Information, 1995.
[8]. J. Fowler, M. Tagliasacchi, B. Pesquet, "Wavelet-Based Distributed Source Coding of Video", In Proc. of the European signal Processing Conference, EUSIPCO, Antalia, Turkey, 2005.
[9]. M. Weeks, M. A. Bayoumi, “Three-Dimentional Discrete Wavelet Transform Architectures”, IEEE transactions on signal processing, 2002, vol. 50, No. 8.
[10]. G. Kwon, Hyo-Kak Kim, Yoon Kim, Sung-Jea Ko, “An Efficient POCS-based Post-processing Technique Using Wavelet Transform in HDTV”, IEEE Transactions Consumer Electronics, Vol. 51, No. 4, Pages: 1283-1288, 2005.
[11]. M. Ghanbari, “Standard Codecs: Image Compression to Advanced Video Coding”, IEE Telecommunication 49, London, U.K., 2003.
[12]. B. Wu, X. Ji, D. Zhoa, W. Gao, "Wavelet Based distributed video coding with spatial scalability", circuits and systems, ISCAS, 2008 IEEE international symposium, pp. 3458-3461, 2008.
[13]. N. Adami, M. Brescianini, Riccardo Leonardi, A. Signoroni. "A Fully Scalable Video Coding Scheme with Homollogous Inter-scale Prediction.", ST Journal of Research, Vol. 3, No. 2, Pages 19-35,2006.
[14]. A. Said, W.a. Pearlman, "A New, Fast, and Efficient Image Codec Based on Set Partitioning in Hierarchical Trees", in IEEE trans. circuits system video technology, vol.6, no. 3, pp. 243-250, 1996.
[15]. N. Bozinovic, J. Konrad, “Modeling Motion for Spatial Svalability”, Acoustics, Speech and Signal Processing ICASSP, Proceedings, 2006 IEEE Intenational conference, Vol. 2, PP. 29-32.
[16]. R. Dianat, M Ghanbari, F. Marvasti “A Low Bit Rate Hybrid Wavelet-DCT Video Codec” IEEE Tran. On circuits and systems for Video Technology, VOL. 15, NO. 7, July 2005
]17[. وحیدرضا صیرفیان، سیامک طالبی، "کدکردن تصاویر ویدئویی HDTV با استفاده از روش ترکیبی SPIHT-DCT"، هفدهمین کنفرانس مهندسی برق ایران، ICEE2009، تهران، دانشگاه علم و صنعت، ش. 2254، بهار 1388.