روش جدید برای لب‌خوانی با استفاده از پردازش تصویر

چکیده :
بازشناسی تصویری گفتار به عنوان فرآیندی برای کمک به افرادی که دچار آسیب در سیستم صوتی شده‌اند، در سالهای اخیر مورد توجه محققین قرار گرفته‌ است. در این مقاله سعی در این بوده که سه روش برای استخراج ویژگی شکل لب ارائه شود : استخراج کانتور لب ، قطعه‌بندیWatershed ، پارامترهای پویانمایی چهره . سپس برای شناسایی گفتار از روی حرکات لب از الگوریتم HMM و شبکه‌های عصبی پرسپترون دولایه با ساختاری ساده استفاده شده است.
واژه‌های کلیدی : بازشناسی تصویری گفتار ،استخراج کانتور لب ، قطعه‌بندی Watershed ، پویانمایی چهره ، ردیابی علائم .
۱- مقدمه :

سامانه‌ی لب‌خوانی رایانه‌ای به معلولینی کمک می کند که دچار آسیب در سیستم صوتی بوده و قادر به برقراری ارتباط با دیگران نیستند. این افراد معمولا توانایی انجام صحیح حرکات لب به شکلی که برای تکلم لازم است را داشته و در حالت ایده‌آل می‌توان با انجام لب‌خوانی به مقصود آنها پی برد. این نرم‌افزار به معلولینی که از صندلی چرخدار استفاده می‌کنند و فقط توانایی انجام صحیح حرکات لبشان را دارند کمک می‌کند؛ بدین ترتیب که با کمک دوربین فیلمبرداری حرکات لب آنها ثبت می‌شود و پس از آنالیز ، فرامین لازم به ویلچر داده می‌شود.

از جمله کاربرد های این سامانه می‌توان به تشخیص فرامین ناتوانان گفتاری ،تشخیص برخی کلمات خاص، مکمل بازشناسی گفتار صوتی و همچنین کاربرد‌های نظامی و اطلاعاتی ذکر کرد .در کاربرد حفاظتی ، این سامانه می‌تواند با بهره‌گیری از حرکات لب و بدون ثبت سیگنال صوتی ،کلمات خاصی را شناسایی و تصویر گوینده‌ی آن را در مراکز عمومی و محل‌های تردد ثبت کند.

فرآیند بازشناسی تصویری گفتار شامل دو مرحله‌ی استخراج ویژگی از دنباله تصاویر لب و طبقه‌بندی ویژگی‌های بدست آمده است. ویژگی گفتاری تصویر حرکات لب معلولین که دارای رنگ پوست و ظاهر متفاوتی هستند ، به کمک طراحی یک الگوریتم جدید استخراج شده و در مرحله‌ی بعد با استفاده از الگوریتم مدل مخفی مارکوف ، حرکات و گفتار تصویری تشخیص داده می‌شود . بهره‌گیری از اطلاعات تصویری از شکل‌های لب و حرکات آن ، دقت و اطمینان سیستم‌های تشخیص اتوماتیک گفتار صوتی را ـ خصوصا در محیط‌های نویزی ـ بطور قابل توجهی بهبود می بخشد .

آزمایش این نرم‌فزار بر روی مجموعه‌ی دادگان جمع‌آوری شده ،شامل ۲۰ نفر زن و مردِ ۲۰ تا۵۰ سال صورت گرفته و روی ۶ واژه گفتاری ۱،۲،۳،۴،۵،۶ با ۹۱درصد موفقیت ، بازشناسی گفتار انجام شده است . این پژوهش‌ها در مراحل تکمیلی می توانند با افزایش تعداد کلماتِ قابل شناسایی ، محدوده‌ی تشخیص را هر چه بیشتر افزایش دهند .

۲- استخراج كانتورلب
به منظوراستخراج ويژگيهاي تصويري مربوط به توليد گفتار،استخراج دقيق شكل لب حياتي مي باشد.استفاده ازرويكردهاي مبتني برلبه براي استخراج لب داراي مشكلات فراواني مي باشد؛ زيرانگاشتهاي بدست آمده براساس ويژگي لبه معمولأ داراي نويزواشتباهات فراواني مي باشد. به علاوه لبه هااغلب درمرزلب

مفقود بوده ياازنظردامنه خيلي ضعيف هستند.باتوجه به اين مشكلات، رويكرد استخراج كانتورلب مابه آشكارسازي لبه هادرلب استناد نكرده است، بلكه هدف ماتقسيم بندي تصاويرلب داده شده به ناحيه لب وغيرلب براساس شدت روشنايي ورنگ پيكسلهامي باشد.دراين روش،فرض نمي شود كه لب داراي يك رنگ خاص باشد بلكه جستجو بر اساس تفاوت شدت روشنايي ورنگ بين نواحي لب وغيرلب صورت مي گيرد.درادامه درابتدا مدل پيشنهادي باجزئيات شرح داده مي شود.سپس تابع هزينه براي پيداكردن بهينه مرزبين ناحيه لب وغيرلب ولگوريتم بهينه سازي پارامترهاي مدل توضيح داده مي شود.

۳-۲- مدل لب
ازمدلهاي انعطاف پذيرهندسي براي مدل كردن شكل لب استفاده شده است .مدل هندسي به شكل لب اجازه مي دهد كه بوسيله يك مجموعه كوچكي ازپارامترهاباتفسيرفيزيكي توصيف شود. مدل هندسي لب درشكل (۱) نشان داده شده است وبامعادلات(۱) و(۲) توصيف مي شود:
(۱) و (۲)

تفسيرفيزيكي پارامترهادرشكل نشان داده شده است.پارامترs انحراف شكل لب رانشان مي دهد. پارمترs انحراف منحني ازحالت چهارگوش راتوصيف مي كند.s به توان دورسيده وبايك جمع شده تاهميشه مثبت باشد.همچنين پارامترs اجازه مي دهد كه مدل لب برروي تصاويرلب بادرجه متفاوت خميدگي منطبق شود.اگرچه لب گوينده وحركات لب به طوركلي متقارن نمي باشد اما انحراف ازحالت متقارن بودن معمولأ داراي اهميت نمي باشد.

شکل۱-مدل لب هندسی

۲-۲- فرمول بندي تابع هزينه

براي بدست آوردن يك مدل دقيق،تابع هزينه براي تعيين پارامترهاي مدل به طريقه اي كه پيكسلهاي داراي ناحيه لب داراي احتمال پايين باشند،تعريف مي شود وفرض مي شود كه ناحيه لب وخارج لب هم پوشاني نداشته باشند.مرزاين ناحيه زماني بدست مي آيد كه اين تابع هزينه مينيمم شود.تابع هزينه بصورت (۳) تعريف مي شود:
(۳)

كه ) B) 1R و) B)R 2 به ترتيب ناحيه لب وغيرلب مي باشند و Prob1 (m,n) احتمال اينكه پيكسل درمكان (m,n) ،پيكسل غيرلب باشد رامشخص مي كند. مرز بهينه B با مينيم سازي C(B)به طريقه‌اي كه R1(B) شامل پيكسلهايي با Prob1(m,n) بالا و R2(B) شامل پيكسلهايي با Prob2( m,n) بالا باشد،مشخص مي شود.با لگاريتم گرفتن ازمعادله بالا وساده سازي رابطه (۴) بدست مي آيد:
(۴)
كه
(۵)
ازآنجاكه درمعادلات(۳)و(۴)،m وn گسسته هستند بنابراين مرزB نيزگسسته بدست مي آيد. اما اين موضوع براي مامطلوب نيست زيرامايك مرزپيوسته نيازداريم.بنابراين براي حل اين مشكل معادله (۴) رادرحوزه پيوسته بسط مي دهيم.درابتداm وn به x وy پيوسته بسط داده مي شود. اكنون مرزB پيوسته شده است ومي تواند هرشكل دلخواهي رافرض كند.سپس ،ما داريم:
(۶)
(m,n)f باانتگرال گيري از(x,y)g روي سطح واحد (m,n)مركزآن مي باشد)بدست مي آيد. سپس معادله (۴) بصورت زيربسط داده مي شود:
(۷)
كه مرزB پيوسته مي باشد و بوسيله مدل لب مامشخص مي شود.سپس پارامترهاي بهينه مدل با مينيمم سازي تابع هزينه زير بدست مي آيد :
(۸) g(x,y)dydx
كه x2 (p)=xc+wcos wcos + xc = (P) x2 نقاط گوشه راست وچپ لب، P ، مجموعه پارامترهاي مدل مي باشند .(p,x) y1 و y2(p;x) دو نقطه مرز عمودي خطx هستند.
پس با داشتن نگاشت احتمال Prob(m,n) ، f(m,n) بوسيله معادله (۵) بدست مي‌آيد. سپس سطح هزينه پيوسته g(x,y) درمعادله (۸) بايد ايجاد شود.اگرچهارنقطه zjk , zj +1k, zj +1,k+1,zjk+1 راداشته باشيم. سطح درون يابي دوسويه شده بطريقه زيربدست مي آيد:
(۹) gjk (x,y) = (1+j-x) (1+k-y) zjk+(x-j)(1+k-y) zj+1k+(x-j)(y-k)zj+1k+1+(1+j-x)(y-k)zjk+1
بنابراين ايجاد سطح (x,y)g به مسئله تعيين } zm,n { تبديل مي شود.بااستفاده ازمعادله (۶) و(۹) وبعد ازتعدادي محاسبات جبري ، مي توان نشان داد كه f(m,n) و zm,n بوسيله معادله كانولوشن گسسته زير هم باهم ارتباط دارند :
(۱۰)
كه ماسك كانولوشن(m,n)h، باماتريس زيربيان مي شود:
(۱۱)
درحوزه فركانس معادله (۱۰) بصورت زيرمي باشد :
(۱۲)
بنابراين } m,n‍{ بامعكوس تبديل فوريه بدست مي آيد :
(۱۳) Z(w1,w2) = f(w1,w2) /H (w1,w2)
2-3- نگاشت احتمال تصاويرلب

ارزيابي (P)E نيازبه نگاشت احتمال تصاويرلب دارد كه اين نگاشت ،احتمال اين رامشخص مي كند كه پيكسل،پيكسل لب هست يانه؟ الگوريتم خوشه بندي فازي]۱۱[ براي ايجاد چنين نگاشت احتمالي استفاده مي شود .اين يك روش يادگيري بدون سرپرستي مي باشد ونه فرض اوليه اي درمورد توضيع ويژگيهادرنظرمي گيرد ونه آموزش مورد نيازمي باشد.الگوريتم تلاش مي كند براي هرپيكسل براساس توزيع بردارهاي ويژگي هرپيكسل درفضاي ويژگي واثرمتقابل هرپيكسل با۸ تاازهمسايگي اش، يك مقداراحتمال مناسب براي هرپيكسل مشخص كند.

استفاده تنهاازشدت روشنايي درتصاويرلب،كنتراست كافي براي تفاوت قائل شدن يك پيكسل لب وغيرلب راندارد.بنابراين ازشدت روشنايي ورنگ به عنوان ورودي براي الگوريتمهاي خوشه بندي استفاده مي شود.ابتداتصاويردرفضاي رنگ غيريكنواخت RGB تبديل به فضاي رنگ يكنواخت CIELAB مي شود[۱۲] . اين فضاي رنگي يك دياگرام رنگي يكنواختي دارد بنابراين هردورنگ يك تفاوت ادراكي دارد ودراين فضاي رنگ ، اطلاعات روشنايي از اطلاعات رنگ جدامي باشند.
درشكل (۲- الف) تصويراوليه ازلب نشان داده شده است همانطوركه مشاهده مي شود كنتراست بين ناحيه لب وغيرلبب بسيارپايين مي باشد.خوشه بندي بااستفاده ازويژگيهاي رنگ (L*.a*,b*) ماراقادرمي سازد كه يك نگاشت احتمال قابل قبولي بدست آوريم.درشكل (۲- ب)

نگاشت احتمال نشان داده شده است .

۲ -۴ – بهينه سازي پارامترهاي مدل
براي مينيمم سازي تابع هزينه ازروتين بهينه سازي كاهش گراديان استفاده مي شود.درنتيجه ازمعادله (۸) نسبت به هرپارامترمشتق گرفته مي شود.مي توان نشان داد كه مشتق گيري بوسيله معادله زيرصورت مي گيرد :
(۱۴)
كه p1=xc,p2=yc,p3=w,… , p8=s,p9=0 مي باشد.به اين نكته توجه شود كه انتگرال گيري ازمعادله(۱۴) درامتداد منحنيهاي لب y1 و y2 انجام مي شود.
۳- قطعه بندي Watershed
اين قطعه بندي براساس مفاهيمي همچون بهبود تباين وتبديل Wastershed مي باشد.
مراحل الگوريتم عبارتند از:
۱٫ خواندن تصوير
۲٫ حداكثرتباين

براي اينكه لبه هايي كه توسط تبديل Watershed استفاده مي شود كمينه گردد; مي بايست تباين بين اشياء مورد نظرماكزيمم گردد،روش معمول براي بهبود تباين استفاده ازتبديلات bottom hot و top hat برروي تصويرمي باشد.
تبديل top hot به عنوان تفاوت بين تصويراصلي وتصويري كه بوسيله فيلترهاي ايجاد شده باز گرديده است،تعريف مي گردد.
تبديل bottom hat به عنوان تفاوت بين تصويراصلي وتصويري كه بوسيل ه فيلترهاي ايجاد شده بسته گرديده است،تعريف مي گردد.
۳٫ تفريق تصاويرايجاد شده توسط مرحله دوم الگوريتم مي باشد.

تصوير top hat شامل نقاط نوك تيزاشياء است وتصويرbottom hat فاصله هاي بين اشياء مورد نظررانشان مي دهد.
براي حداكثركردن تباين بين اشياء وفاصله هايي كه بين آنها وجود دارد مي بايستي طبق فرمول(۱۵) عمل كرد.
Ienhance = imsubtract(imadd(Itop,afm),Ibot) (15) )
4. تبديل اشياء مورد نظر

براي اينكه دريك تصويرشدت لبه هاآشكارگردد،مي بايست ازمتمم تصويراستفاده شود تابتوان اشياء مورد نظررادرمراحل بعد بهترتفكيك كرد.
۵ . آشكارسازي شدت لبه

همه شدت لبه هابايك آستانه خاص باتابع imextendedmin آشكارمي شود وسپس باتابع imimposemin مكانهايي ازتصويراصلي كه بهبود يافته وبه عنوان شدت لبه آشكارشده است تغييرداده مي شود.
۶ . قطعه بندي Watershed

Morphology قطعه بندي
اين قطعه بندي براساس مفاهيمي همچون آشكارسازي لبه، اشياء ساخت يافته ، Erosion، قطعه بندي مي باشد .مراحل الگوريتم عبارتند از:
۱: خواندن تصوير
۲٫ آشكاركردن شي ء بطوركامل
آشكاركردن شي ء بطوركامل براساس يكي ازالگوريتم هاي آشكاركننده لبه صورت مي گيرد. لازم به ذكراست كه اين الگوريتم برروي تصاويري كه نويزندارند بكارمي روند.
۳ . آشكارسازي اشياء بااستفاده ازلبه هايي كه توسط مرحله دوم الگوريتم بدست آمده است، صورت مي گيرد.
۴ . پهن كردن لبه هادرتصوير
۵ . پركردن اشياء بدست آمده،

۶ . پاك نمودن اشيائي كه درحاشي ه تصويرقراردارند.
دراين مقاله ازتمامي مراحل قطعه بندي Wastershed به غيرازمرحله آخرآن استفاده شده است وهمچنين ازمراحل ۵ و۶ ،قطعه بندي Morphology استفاده گرديد ودرنهايت ازيك سري فيلتر هاي خاص استفاده شد.

بامشاهده ،نتايج بدست آمده ملاحظه گرديد،مرزهاي لب بسيارتيزشده وباشكل اصلي تفاوت زيادي دارد براي اينكه قطعه بندي انجام شده براي تشخيص لب دقيق ترگردد ازفيلترهاي خاص ازپيش تعريف شده Matlab بانام هاي motion وdisk به اندازه هاي متناسب بااندازه تصوير استفاده گرديد كه اثراين فيلترهارادرشكل ۳ زيرمشاهده مي شود.

مراحل انجام قطعه بندي برروي تصويردر مقاله درشكل زيرمشاهده مي شود

دراين روش ازدوطرف تصويربه طرف مركزتصويرحركت كرده ابتدادرتحليل ستوني يك نقطه سفيد راپيداكرده وسپس درهمان ستون باطي كردن نقاط سفيد،مي بايست نقطه سياه جستجوشود، اگرنقطه سياه پيدانشد پس گوشه لب درآن ستون قرارندارد درغيراين صورت گوشه لب درآن ستون قراردارد وسطرمربوط به گوشه لب ازنقطه مياني نقاط سفيد موجود درآن ستون بدست مي آيد.اين عملكرددرشكل زيرمشاهده مي شود.

براي تشخيص حالت لب براي تمايزبين حركات لب تصميم گرفته شد كه لب به يك ۶ ضلعي نگاشت شود.براي بدست آوردن ۶ ضلعي وباداشتن گوشه هاي لب بدين گونه عمل مي شود كه ابتداباداشتن گوشه هاي چپ وراست لب ، پهناي لب طبق فرمول (۱۶) بدست مي آيد.
Width = left – lip(x)- right – lip (x) (16)

۳-۱- بدست آوردن ۶ ضلعي تخميني معادل حاشيه لب
بعد ازبدست آوردن پهناي لب، براي بدست آوردن اضلاع ديگر۶ ضلعي ، طبق مراحل زير عمل مي شود :
۱) بدست آوردن قسمت سمت چپ بالاي لب :

براي بدست آوردن اين نقطه ،ابتدااشاره گربه اندازه ۲/۰ پهناي لب ازگوشه چپ لب به سمت راست مي رود.طبق فرمول (۱۷) عرض نقطه شروع قسمت سمت چپ بالاي لب بدست مي آيد؛ حال براي بدست آوردن ارتفاع نقطه شروع قسمت سمت چپ بالاي لب ، بدين صورت عمل مي شود كه ابتدا معادله خط دوگوشه لب راتشكيل داده وعرض نقطه رادرمعادله قرارداده، تا ارتفاع نقطه شروع بدست آيد، كه مطابق فرمول (۱۸) بدست مي آيد.
Tpis[x] = left – lip (x) + (o.2 * Width) (17)

(۱۸)
براي بدست آوردن شروع تختي سمت چپ بالاي لب بدينگونه عمل مي شود؛كه ابتداازنقطه بدست آمده به سمت بالا رفته تامرزلب بدست آيد ومقدارارتفاع بدست آمده برابرTPLS[y] قرارداده مي شود.حال باحركات متوالي ۰۵/۰ پهناي لب به سمت راست رفته ونقطه مرزي متناسب باآن بدست مي آيد ودرهرمرحله باداشتن مختصات نقطه آن مرحله ومرحله قبلي زاويه تغييررابدست آورده وباحداقل زاويه تشخيص تختي بالاي لب مقايسه مي شود،اگر زاويه جديد از زاويه مرحله قبل بيشتربود، الگوريتم به كارخود ادامه مي دهد ودرغيراين صورت نقطه ماقبل آخرين نقطه بدست آمده نقطه نهايي قسمت سمت چپ بالاي لب مي باشد كه مطابق فرمول (۱۹) دست مي آيد.
(۱۹)
۲) بدست آوردن قسمت سمت راست بالاي لب :
.طبق فرمول (۲۰) عرض نقطه شروع قسمت سمت راست بالايي لب بدست مي آيد؛حال براي بدست آوردن ارتفاع نقطه شروع قسمت سمت راست بالاي لب كه مطابق فرمول (۲۰) بدست مي آيد.
(۲۰) Tprs[x]= right – lip(x) – (۰٫۲*Width)
(21)

براي بدست آوردن شروع تختي سمت راست بالاي لب كه مطابق فرمول (۲۲) بدست مي آيد.
(۲۲)

۳) بدست آوردن قسمت سمت چپ پايين لب :
براي بدست آوردن اين نقطه . طبق فرمول (۲۳) عرض نقطه شروع قسمت سمت چپ پايين لب بدست مي آيد؛حال براي بدست آوردن ارتفاع نقطه شروع قسمت سمت چپ پايين لب كه مطابق فرمول (۲۴) بدست مي آيد.
Dols[x]=left – lip(x)+(0.1*Width) (23)
Dols[y] (24)

براي بدست آوردن شروع تختي سمت چپ پايين لب كه فيلم مطابق فرمول(۲۵) بدست مي آيد.
Degree_limit=│Dosi[y]-Dolsi-1[y]│/۰٫۰۵*width (25)
4) بدست آوردن قسمت سمت راست پايين لب :
Dors[x]=right-lip(x)-(0.1*Width) (26)

(۲۷)
پس ازبدست آوردن ۶ ضلعي ، براي تحليل تغييرات لب معيارهاي زيررامحاسبه نموده ودر تمايزحركات لب دريك تصويربكاربرده مي شود.
۱- پهناي قطراصلي ۶ ضلعي :
كه درشكل زيرهمان Width مي باشد.مقدارآن طبق فرمول (۲۶) بدست مي آيد.

۲- ميانگين زواياي چپ وراست بالايي :
كه درشكل بالاهمان ميانگين a1.a2 مي باشد.مقدارآن مطابق فرمول (۲۸) مي باشد.
مقدارآن مطابق فرمول (۲۸) مي باشد.
(۲۸) ۲/ α =(α۱+α۲)
۳ – ميانگين زواياي چپ وراست پاييني :
كه درشكل بالا همان ميانگين B,B مي باشد مقدارآن مطابق فرمول (۲۹) مي باشد.
(۲۹) ۲ / ( β + β ) = β
۴- انتخاب فريم
براي اينكه حركات لب تشخيص داده شود ابتدامي بايست ازفيلم ورودي فريم حالت ساكن لب را تشخيص داده وپس ازآن ، حالت بيشترين تغييرات لب كه درواقع تلفظ يك عدد خاص مي باشد تعيين شود(شكل زير) براساس معيارهاي بالا برطبق تغييرات اين دوفريم بدست آمد ، تصميمهاي لازم اخذ مي گردد. درنتيجه فرمولها به صورت زيربيان مي شوند:
D_width=(widthf –widths )/widthf *100 (30)
D_Degreetop=(αf – αs)/αf*100 (31)
D_DegreeDown=(βf – βs)/βf*100 (32)

براي اينكه اين معيارهادرنهايت مي بايست براي افراد مختلف بكاربرده شود،براساس آزمايشهايي كه برروي تصاويرمختلف انجام گرديد،اين نتيجه حاصل شد كه ازمعيارهاي نسبي اختلاف دوفريم استفاده شود.
۴-۱ پارامترهاي پويانمايي چهره
يكي ازروش هاي مدلسازي وپويانمايي استفاده ازاستاندارد MPEG4 است كه يك مدل چهره را درحالت عادي آن نشان مي دهد.براي تعريف صورت وبدن مجازي انسان دراستاندارد MPEG4 ،پارامترهاي تعريف چهره وبدن ونيزپارامترهاي متحرك سازي چهره وبدن تعريف شده است.دراين استاندارد ۸۴ نقطه ي مشخصه براي توصيف چهره تعريف شده است.FDP شكل، اندازه وبافت چهره راارائه مي دهند وfap نيزميزان تغييرات انجام يافته درچهره رانگه مي دارند.نقاط مشخصه ي مورد استفاده درمقاله درشكل ۱،نشان داده شده است.

شكل .۵٫ نقاط مشخصه ي چهره مورد استفاده دراين مقاله
ازآن جايي كه FAP هابايد چهره هاي بااندازه ي متفاوت راتحت تأثيرقراردهند،مقدارآنهابر اساس واحدهاي FAPU بيان مي گردد.
۵ – رديابي علائم
يكي ازقسمت هاي مهم وكليدي درطول فرآيند آموزش يك مدل پويانمايي چهره،توليد يك روند اتوماتيك براي رديابي نقاط كنترلي چهره است.اين ردياب هابه حدي بايد مطمئن كاركنند كه نظارت دستي درآنهابه حداقل برسد.يكي ازروش هاي رديابي نيزاستفاده ازعلائم دررديابي نقاط كنترلي چهره است.

شكل .۶٫ گوينده ازروبرو(۱) ونيمرخ (ب) ،باعلائم رنگي نصب شده
۵-۱ الگوريتم پيشنهادي
دراين الگوريتم مبناي مقايسه براي رديابي علائم درفريم هاي ويدئويي،مختصات علائم درفريم اوليه يامبنااست.فريم اوليه، فريمي است كه درآن حالت چهره ي گوينده حالت عادي تعريف شده دراستاندارد بايد باشد .تعيين مختصات علائم دراين فريم به صورت دستي انجام شده وسپس در همسايگي مختصات مربوط به هرعلامت ميانگين گيري براي هريك ازنگ هاي G,R وB انجام مي شود.باتوجه به RGB به دست آمده براي هرعلامت بازه اي مشخص مي كنيم تابا استفاده ازآن درفريم هاي بعدي بتوانيم محل علائم راتشخيص دهيم.بنابراين مراحل پيش پردازش الگوريتم رابدين صورت فهرست مي كنيم.
۱- تعيين دستي (x,y,z)علامت I ام دردوفريم اوليه روبروونيمرخ.

۲- ميانگين گيري RGB درهمسايگي (x,y)روبرو و(y,z)نيمرخ.
۳- تعيين بازه ي RGB هابه ازاي هرعلامت ونگهداري دريك آرايه.
(علت نگهداري بازه هاي RGB متفاوت براي فريم هاي روبرو ونيمرخ جلوگيري ازايجاد مشكلات نورپردازي ازدوجهت است).