ارائه‌ی روشی برای چینش مدافعين
در شبيه‌سازی فوتبال

چکیده:
هدف این مقاله، ارائه‌ی روشی کارامد برای دفاع کردن و قرار گرفتن بازیکنان در زمین فوتبال شبیه‌سازی شده است. در این مقاله روشی جدید برای چیدن مدافعان (و حتی دیگر بازیکنان) ارائه شده است. در واقع بعید به نظر می‌رسد که ادعا شود یافتن چنین روش و رویکردی برای چیدمان بازیکنان در زمین فوتبال یک روش بهینه و کاراست، زیرا ارائه‌ی آن به همراه یک استدلال ریاضی ـ منطقی نمی‌باشد؛ لکن این روش به صورت محسوسی قابل پذیرش است.

کلمات کلیدی:
شبیه‌سازی فوتبال، سرور شبیه‌سازی فوتبال ، یادگیری ماشین ، یادگیری تقویت‌شده ، منطق فازی ، کانتور اهمیت، درجه‌ی خطر.

۱٫ مقدمه

شبیه سازی فوتبال، یکی از جذاب‌ترین رشته‌های مسابقات روبوکاپ است که ظرفیت پذیرش انواع مختلف ایده‌های هوش مصوعی را دارا می‌باشد. نزدیک به واقع بودن این رشته‌ی مصنوعی، اجازه می‌دهد تا انواع ایده‌های مختلف، برای شرایط متفاوتی که یک تیم فوتبال در بازی واقعی با آن مواجه است، پیاده سازی شود. این شرایط گستردگی زیادی دارند و از موارد کاملاً سطح پایین (مانند شوت زدن به سمت یک هدف) تا مواردی میانی و سطح بالا (همچون انواع دریبل یا پاس توی عمق) را می‌پوشاند.
برای پیاده سازی یک چنین شرایطی، تیم‌ها از باید به سرور فوتبال یک سری درخواست‌هایی را ارسال و به دنبال آن اطلاعاتی را دریافت کنند. این اعمال سطح پایین توسط سرور انجام می‌شوند و همچنین با توجه به درخواستی که تیم دارد، اطلاعاتی (که ممکن است با نویز یا انواع خطا همراه باشد) در اختیار تیم قرار می‌گیرد. مثلا یکی از این ادراکات این است که چه بازیکن(هایی) در محدوده‌ی دید یک بازیکن وجود دارند. پاسخ آن نیز بسته به فاصله‌ای که آن بازیکن(ها) نسبت به بازیکن مبدأ دارند داده می‌شود. در همین مثال اگر فاصله‌ی این دو بازیکن از حدی زیادتر باشد، تشخیص شماره‌ی آن و یا حتی اینکه این بازیکن به کدام تیم تعلق دارد غیر ممکن می‌شود (که البته در فوتبال واقعی نیز همین‌طور است).
یازده بازیکن هر تیم به صورت مجزا (در process های مختلف) اجرا می‌شوند. به طور معمول تیم‌های فوتبال از روتین‌های سطح بالایی که توسط برخی تیم‌های دیگر – به منظور در اختیار گذاشتن امکانات سطح بالا – نوشته شده، استفاده می‌کنند. به مجموعه‌ی این روتین‌ها Base می‌گویند.

شکل ۱ زمین فوتبال؛ در سیکل اول بازی آغاز شده و هم‌اکنون دو سیکل از بازی سپری شده است. بازیکنان هر تیم به منظور به‌هنگام کردن اطلاعات خود از جهان پیرامون مشغول چرخیدن هستند.

۲٫ دفاع

هدف از دفاع چیست؟ تیم‌های مختلف در فوتبال واقعی، بسته به رویکرد تیمی خود در بازی به این سؤال به صور مختلفی پاسخ داده‌اند. در این قسمت چند رویکرد ذکر می‌شود:
۱٫ کاهش گل خورده (گل نخوردن)
۲٫ کاهش سرعت بازی حریف در زمین
۳٫ گره‌زدن بازی حریف و استفاده از ضد حمله‌ها
بدیهی است که هدف نهایی تمامی این روشها گرفتن سه امتیاز بازی است، لذا می‌توان به منظور ساده‌سازی ، در شبیه سازی هدف را تنها کم‌گل‌خوردن دانست. به این ترتیب باید شرایط را طوری تنظیم کرد که اخیار عمل به هنگام حمله از تیم حریف گرفته شود. این کار به چند طریق قابل انجام است.

۲-۱ دفع حملات
ساده‌ترین آن هجوم بازیکنان به طرف حریف می‌باشد. با این کار حریف به صورت فردی مورد تهاجم قرار می‌گیرد ولی این روش فقط هنگامی مؤثر است که یا حریف به صورت تکرو حمله‌کرده باشد و یا تمامی دیگر بازیکنان مهاجم – به جز خود مهاجم – شرایطی غیر استراتژیک داشته باشند.
روش دیگری که می‌تواند مورد استفاده قرار گیرد، یارگیری نفر به نفر می‌باشد. به طور معمول حملاتی که از جانب یک تیم فوتبال در شبیه‌سازی صورت می‌گیرد، در صورتی که گروهی باشد، شانس بیشتری برای گشودن دروازه‌ی حریف دارد. در این روش با یارگیری نفر به نفر، اکثر بازیکنان مهاجم، کم خطر می‌شوند ولی مشکل در اینجاست که بازیکن حامل توپ می‌تواند آزادی عمل زیادی داشته باشد، چرا که یک یا نهایتاً دو بازیکن می‌توانند جلوی او را بگیرند.

۲-۲ روشی برای دفاع
در کنار این دو روش – که هر کدام نقاط قوت و ضعفی را دارا می‌باشند – روش سومی را ارائه می‌کنیم؛ لکن پیش از آن باید به کمی بررسی یادگیری تقویت شده و منطق فازی بپردازیم.

۲-۲-۱ یادگیری تقویت‌شده
در این نوع یادگیری که بعضاً آنرا نوعی یادگیری بدون ناظر می‌نامند، عامل بسته به عملی که انجام داده به نوعی تشویق یا تنبیه می‌شود. در واقع عامل بی‌آنکه هر بار از مقدار خطای خود به طور مستقیم آگاهی یابد، با یک تشویق یا تنبیه مواجه می‌شود و به نسبت آن ارزش کار خود را در می‌یابد. می‌توان یادگیری حیوانات دست‌آموز را چنین یادگیری دانست.
عامل در هر مرحله طبق فرمول زیر، مقدار کارایی عمل خود را به‌هنگام می‌کند:

که در آن U، مقدار کارایی یک سری اعمال و reward میزان تشویقی است که بارفتن از oldstate به newstate بدست آورده‌است.
استفاده‌ی ما از یادگیری تقویت‌شده، پیدا کردن نقاط حساس زمین و در واقع مناطق استراتژیک است.
۲-۲-۲ منطق فازی
در برابر منطق دودویی و صحیح – غلط، و به منظور نزدیک به واقع کردن مقادیر گسسته، از منطق فازی استفاده می‌کنیم. در این رویکرد به جای اینکه برای گزاره‌ها ارزش درست یا غلط تعیین کنیم، یک مقدار μ به صحت گزاره، نسبت دهیم.

شکل ۲ نمایش یک منحنی فازی. همانطور که در شکل هم دیده می‌شود، شخص تیره‌تر، کوتاه‌قد و یا شخص روشن‌تر بلندقد نام نگرفته‌اند. بلکه این واقعیت‌ها به صورت درصد بلندی بیان شده‌اند.

در فوتبال شبیه‌سازی شده، به جای اینکه یک بازیکن خطرناک و دیگری بی‌خطر نامیده شود، می‌توان به هر بازیکن یک درجه‌ی خطر نسبت داد. با این کار شبیه‌سازی را به واقعیت نزدیک‌تر شده، و در عین حال دفاع هوشمندانه‌تر می‌شود.

۲-۳ رویکرد سوم دفاع
هم اکنون با معرفی منطق فازی و یادگیری تقویت‌شده می‌توانیم به بررسی روش سوم دفاع بپردازیم. در این روش هدفْ، از کار انداختن بازیکنان مهاجم، بسته به اولویتی که دارند می‌باشد. ابتدا زمین بازی را به کانتور هایی تقسیم می‌کنیم (شکل ۳).