ظهورو افزایش اینترنتاشیا امکان اتصال و ارتباط گسترده بین اشیا در همه جا را فراهم کرده است که باعث تولید بیسابقهای از حجم عظیم و ناهمگن دادهها شده است. از سوی دیگر، اگرچه محاسبات ابری به عنوان روشی کارآمد برای پردازش وظایف و ذخیره دادهها عمل کرده است، اما چالشهایی مانند افزایش تقاضای برنامههای کاربردی حساس به تأخیر و محدودیت پهنایباند شبکه تنها با استفاده از محاسبات ابری قابل حل نیستند. بنابراین، ازیک الگوی محاسباتی دیگر، به نام محاسبات لبه همراه ، به عنوان مکمل راهحل ابری استفاده می-شود. محاسبات لبه همراه سرویسهای ابری را تا لبه شبکه گسترش میدهد و محاسبات، ارتباطات و ذخیرهسازی را به دستگاههای لبه و کاربران نهایی نزدیکتر میکند، که هدف آن کاهش تاخیر و افزایش تحرک، پهنایباند شبکه، امنیت و حریم خصوصی است [1]. یکی از مهمترین چالشهایی که در این الگوهای محاسباتی وجود دارد تخصیصدهی منابع و زمانبندی وظایف میباشد. در این پایاننامه یک محاسبات لبه همراه و اینترنتاشیا چندکاربره پویا با کانالهای بیسیم جهت زمانبندی وظایف و تخصیص منابع بهصورت بارگذاری آنلاین برای به حداکثر رساندن نرخ پردازش دادههای شبکه با در نظر گرفتن پایداری بلندمدت سیستم (عدم انسداد سیستم بر اثر تراکم بالای وظایف در صف) و محدودیتهای توان متوسط با استفاده از یکی از مدلهای یادگیری تقویتی به نام روش بهینهسازی سیاست پروگزیمال ارائه شده است. ما ابتدا مسئله را بااستفاده از بهینهسازی لیاپانوف به صورت یک مسئله برنامه-نویسی غیرخطی عدد صحیح مختلط تعریف میکنیم و سپس آن را به چند زیرمسئله تبدیل میکنیم. حال برای حل آن را با الگوریتم بهینهسازی PPO ترکیب میکنیم. مقایسه روش پیشنهادی با سایر روشهای دیگر نشان داد که با حفظ ثبات تمام صفها و رعایت شرایط پایداری بلندمدت سیستم به نتایج بهینهتری دست مییابد.