پردازش زبان طبیعی در سالهای اخیر به یکی از بخشهای کلیدی و پرکاربرد در حوزههای مختلف فناوری اطلاعات و علوم داده تبدیل شده است. از کاربردهای رایج آن میتوان به تحلیل احساسات در شبکههای اجتماعی، ترجمه ماشینی، پاسخگویی به سؤالات، تولید متن خودکار، و تشخیص موجودیتهای نامبرده اشاره کرد. با این حال، پردازش مجموعه دادههای بزرگ در این حوزه با چالشهای محاسباتی قابل توجهی مواجه است. در این پایاننامه، از Apache Spark به عنوان یک چارچوب محاسباتی توزیعشده قدرتمند استفاده شده است تا چالشهای مرتبط با پردازش دادههای بزرگ در وظایف NLP مورد بررسی قرار گیرد و راهکارهایی برای اجرای مؤثر این وظایف بر روی دادههای در مقیاس بزرگ ارائه شود. تمرکز اصلی این تحقیق بر روی طبقهبندی باینری متن با استفاده از مدلهای ترنسفورماتور بوده است. برای این منظور، از کتابخانه SparkNLP و یک خط لوله پردازش سفارشی شامل پیشپردازش متن و مدلهای یادگیری ماشین، شبکه های عصبی و مدل های از پیش آموزش دیده استفاده شد که امکان پردازش مقیاسپذیر و کارآمد دادههای متنی را فراهم کرد. نتایج تجربی بر روی مجموعه دادهی Exist که شامل نمونههای متنی مرتبط با تبعیض جنسی رایج در شبکههای اجتماعی است نشان میدهد که رویکرد ما، علاوه بر کاهش چشمگیر زمان اجرا در مقایسه با روشهای سنتی تکماشینی، عملکرد بالایی را نیز حفظ میکند. این تحقیق پتانسیل بالای ادغام Spark با وظایف NLP را نشان داده و راهکاری مقیاسپذیر برای مدیریت کلاندادهها در پردازش زبان طبیعی ارائه میدهد.