سطح دقیقه منجر به رفتارهای نوساناتی بسیار شدیدی می‌شود که اطلاعات مفیدی را در اختیار نخواهند گذاشت. به بیانی دیگر، بدیهی است که رفتار جریان‌های ترافیکی در طی چند دقیقه‌ی متوالی، تغییر بخصوصی نخواهند داشت. بر همین اساس، در دیگر تحقیقات نیز پارامترهای ترافیکی را در بازه‌های زمانی طولانی‌تری در نظر می‌گیرند. بنابراین، در اینجا نیز لازم است یک مرحله گردآمدگی روی داده‌ی اولیه انجام می‌شود. در این راستا، تعیین سایز گردآمدگی باید نَه بقدری بزرگ باشد که منجر به از دست رفتن اطلاعات مفید میشود و نه به اندازه‌ای کوچک باشد که منجر به تولید اطلاعات تکراری و افزایش بُعد شود.
از آنجا قرار است از هر پنجره 30-دقیقه‌ای، یک نمونه( یک بردار ویژگی) استخراج شود، سایز گردآمدگی میتواند مقادیر 3، 5، 6 ،10، 15و 30 ( مقسوم 30) باشند که به ترتیب منجر به تولید بردارهای ویژگی با اندازههای 200، 120، 100، 60، 40و 20 مقداری میشوند [18]. بنابراین سایز بردار ویژگی وابسته به سایز گردآمدگی است. به منظور درک بیشتر توضیحات گفته شده در خصوص اعمال سایزهای مختلف گردآمدگی، در شکل (5-1) مراحل استخراج ویژگی برای سایز گردآمدگی 15=s که منجر به ساخت بردار ویژگی 40-مقداری می‌شود، به صورت نمادین آورده شده است.

شکل5-1 .مثالی از چگونگی اعمال مراحل گردآمدگی با سایز15=s و استخراج بردار ویژگی با سایز 40.

به بیانی دقیق‌تر، برای اعمال گردآمدگی با سایز 15=s بر روی یک پنجره 30-دقیقه‌ای، رکوردهای 1 تا 15 ( مربوط به 20 مسیر) و رکوردهای 16 تا 30 ( مربوط به 20 مسیر) با هم جمع بسته میشوند و 2 بردار 20 مقداری تولید میکنند که با کنار هم قرار دادن آنها یک بردار ویژگی 40-مقداری برای پنجره مربوطه بدست خواهد آمد. اعمال سایزهای مختلف گردآمدگی، نتایج متفاوتی را در میزان خطا ایجاد می‌کند. شکل (5-2) نیز روند تغییرات میانگین RMSE را با توجه به سایزهای مختلف گردآمدگی نشان می‌دهد. همانطور که در شکل (5-2) مشخص است، کمترین خطا مربوط به اعمال سایز گردآمدگی 10-دقیقه‌ای است. هرچند که کمترین خطا در روش RF Ensemble of با سطح گردآمدگی s=15 بدست آمده است.

شکل 5-2. مقایسه میانگین RMSE روش پیشنهادی و روش Of RF Ensemble با اعمال سایزهای گردآمدگی متفاوت. سایز گردآمدگی از 3 تا 30 دقیقه، متغیر است.

در راستای توجیه بهترین نتیجه که حاصل اعمال سایز گردآمدگی 10=s است، می‌توان گفت که در واقع با اعمال این سایز، مقادیر بردار ویژگی هم Horizen با بردارهای هدف است. به بیانی دقیق‌تر، چون قرار است بردارهای هدف، جمع نرخ ترافیکی مسیرها در بازه‌ی زمانی 41-50 (10-دقیقه‌ای) باشند، پس در نظر گرفتن نرخهای ترافیکی مربوط به جمع 10-دقیقه‌ای در بردارهای ویژگی، تطابق بیشتری با بردارهای هدف داشته و منجر به یادگیری بهتر و خطای کمتر میشود.

مطلب مرتبط :   پایان نامه با واژه های کلیدیcritical، social، society، 1986).

استخراج مجموعه‌های نمونه‌های آموزشی

نظر به حجم بالای داده ترافیکی ، مقیاس پذیری متدهای ارائه شده ، از مسائل مطرح در این حوزه است . در روش [18]، مجموعه نمونه‌های آموزشی (ماتریس‌های ویژگی) با سایزهای متفاوتی، از فایل پایگاه داده استخراج شد . این مجموعه‌ها با عنوان A ، B وC به ترتیب شامل 1000 ،11000 و 55000 نمونه‌ی آموزشی هستند. همانطور که مشخص است، یادگیری با استفاده از هر کدام از مجموعه‌ها، مقیاس‌پذیری متفاوتی را در اختیار می‌گذارد. از آنجا که در نهایت، قرار است تکنیک پیشنهادی با این الگوریتم مقایسه شود، بنابراین ما نیز این مجموعه‌های آموزشی را استخراج و برای یادگیری بکار گرفتیم. در این زیر فصل، به بیان چگونگی استخراج این مجموعه‌های آموزشی می‌پردازیم.
در بخش پایگاه داده توضیح داده شد که داده‌ی ارائه شده بعنوان داده‌ی آموزشی، شامل 60000 رکورد یعنی 100 سایکل 10- ساعته میباشد . با توجه به این که قرار است با داشتن نیم ساعت اول هر پنجره ، نیم ساعت بعدی را پیشبینی کرد ، بنابراین از هر پنجره 60- دقیقهای باید یک نمونه استخراج کرد. اگر پنجرههای استخراج نمونه را بدون overlap در نظر بگیریم و از هر 60-دقیقه، یک نمونه (یک بردار ویژگی) مطابق با روش توضیح داده شده در بخش 4 ، استخراج کنیم، در نهایت به ازای 60000 رکورد (دقیقه) (کل داده آموزشی)، 1000 نمونه‌ی آموزشی خواهیم داشت که بعنوان مجموعه نمونه‌های آموزشیA (یا Set A) در نظر گرفته میشود.
با حرکت دادن پنجره‌ی استخراج نمونه و تغییر نقطه‌ی شروع و پایان این پنجره میتوان تعداد نمونه‌های آموزشی متفاوتی را از فایل داده های آموزشی استخراج کرد. واضح است که در این صورت پنجرههای استخراج نمونه با هم overlap خواهند داشت. برای بدست آوردن مجموعه نمونه‌های آموزشی B یا (Set B) ، به جای استخراج یک نمونه از یک بازه 60-دقیقه‌ای، پنجره‌ی استخراج ویژگی را روی این بازه حرکت میدهیم که در این صورت 11 نمونه‌ی آموزشی از هر یک ساعت استخراج خواهند شد. بدین ترتیب، برای 1000 بازه‌ی یک ساعته، 11000=1000ₓ11 نمونه بدست خواهد آمد. به منظور درک بیشتر نحوه‌ی ساخت مجموعه‌های نمونه آموزشی، مرحله‌ی استخراج نمونه مجموعه آموزشی B بطور مثال در شکل (5-3) بصورت نمادین آمده است.

مطلب مرتبط :   درمان راه حل محور، رویکرد راه حل محور

شکل 5-3- مراحل نمادین استخراج مجموعه نمونهی آموزشی B.

در حالتی دیگر اگر پنجره استخراج ویژگی را روی بازه‌ی مربوط به یک سایکل که 600 دقیقه است، حرکت دهیم (با شیفت 1-دقیقه‌ای پنجره استخراج ویژگی)، به ازای هر سایکل 550 نمونه‌ی آموزشی و در نهایت به ازای 100 سایکل 55000=1000ₓ55 نمونه‌ی آموزشی خواهیم داشت که مج
موعه‌ی نمونه‌های آموزشی C را تشکیل می‌دهند[18]. در زیر فصل بعد، نتایج یادگیری الگوریتم‌های متفاوت بر روی این مجموعه‌ها آورده شده است.

نتایج یادگیری الگوریتم بر روی مجموعه‌های نمونه‌های آموزشیA,B,C

در شکل (5-4) کارایی تکنیک پیشنهادی بر روی داده‌ی آزمایشی در مقایسه با نتایج پیاده سازی ما از روش Ensemble Rf را می‌بینیم.

شکل 5-4- مقایسه خطای RMSE مربوط به تکنیک پیشنهادی و روش Ensemble RF، که برای مجموعه نمونه‌های آموزشی A,Bو C که به‌ترتیب شامل 1000, 11000 و 55000 نمونه‌ی آموزشی هستند. تکنیک پیشنهادی کاهش خطای چشمگیری بر روی مقیاس‌پذیرترین مجموعه یعنی مجموعه A داشته است.

لازم به ذکر است که روش Ensemble RF در مسابقه ICDM سال 2010 مقام سوم را کسب کرد. همانطور که در شکل واضح است، تکنیک پیشنهادی قادر به کاهش خطای چشمگیری، خصوصا بر روی مجموعه‌ی A شده است که کوچکترین سایز را در مقایسه با دیگر مجموعه‌های B و C دارد. اهمیت این نتیجه بدین دلیل است که سایز مجموعه‌های B و C، همانطور که در [18] مورد نقد و اشاره قرار گرفته، از جمله محدودیت‌های آن روش بحساب می‌آید، چرا که با افزایش تعداد مسیرها (ATRs) احتمالا متد ارائه شده در [18] مقیاس‌پذیری مناسبی نخواهد داشت. با این حال، برای رسیدن به کارایی بالاتر، تکنیک پیشنهادی بر روی مجموعه‌های B و C و ترکیب B و C اعمال شد که نتایج آن را در شکل (5-4) می‌بینیم. واضح است که بر روی 4 مجموعه، تکنیک پیشنهادی، کاهش خطای قابل ملاحظه‌ای دارد. هرچند بهترین نتایج هر دو روش از اعمال الگوریتم بر روی ترکیب مجموعه (B & C) می‌باشد. لازم به ذکر است که این میزان خطا در مقایسه با برترین نتایج مربوط به مسابقه ICDM(2010)، نتایج قابل مقایسه‌ای دارد.

فصل ششم

Written by 

دیدگاهتان را بنویسید