پردازش زبان طبیعی با استفاده از تحلیل کلان داده

مشخصات پژوهش

عنوان	پردازش زبان طبیعی با استفاده از تحلیل کلان داده
نوع پژوهش	پایان نامه
کلیدواژه‌ها	داده های بزرگ، پردازش زبان طبیعی، طبقه بندی متن ، یادگیری ماشینی
سال	1403
پژوهشگران	زهرا شورمیج(دانشجو)، میثم روستائی(استاد مشاور)، احسان عطائی(استاد راهنما)

چکیده

پردازش زبان طبیعی در سال‌های اخیر به یکی از بخش‌های کلیدی و پرکاربرد در حوزه‌های مختلف فناوری اطلاعات و علوم داده تبدیل شده است. از کاربردهای رایج آن می‌توان به تحلیل احساسات در شبکه‌های اجتماعی، ترجمه ماشینی، پاسخ‌گویی به سؤالات، تولید متن خودکار، و تشخیص موجودیت‌های نام‌برده اشاره کرد. با این حال، پردازش مجموعه داده‌های بزرگ در این حوزه با چالش‌های محاسباتی قابل توجهی مواجه است. در این پایان‌نامه، از Apache Spark به عنوان یک چارچوب محاسباتی توزیع‌شده قدرتمند استفاده شده است تا چالش‌های مرتبط با پردازش داده‌های بزرگ در وظایف NLP مورد بررسی قرار گیرد و راهکارهایی برای اجرای مؤثر این وظایف بر روی داده‌های در مقیاس بزرگ ارائه شود. تمرکز اصلی این تحقیق بر روی طبقه‌بندی باینری متن با استفاده از مدل‌های ترنسفورماتور بوده است. برای این منظور، از کتابخانه SparkNLP و یک خط لوله پردازش سفارشی شامل پیش‌پردازش متن و مدل‌های یادگیری ماشین، شبکه های عصبی و مدل های از پیش آموزش دیده استفاده شد که امکان پردازش مقیاس‌پذیر و کارآمد داده‌های متنی را فراهم کرد. نتایج تجربی بر روی مجموعه داده‌ی Exist که شامل نمونه‌های متنی مرتبط با تبعیض جنسی رایج در شبکه‌های اجتماعی است نشان می‌دهد که رویکرد ما، علاوه بر کاهش چشمگیر زمان اجرا در مقایسه با روش‌های سنتی تک‌ماشینی، عملکرد بالایی را نیز حفظ می‌کند. این تحقیق پتانسیل بالای ادغام Spark با وظایف NLP را نشان داده و راهکاری مقیاس‌پذیر برای مدیریت کلان‌داده‌ها در پردازش زبان طبیعی ارائه می‌دهد.

میثم روستائی

مشخصات پژوهش

چکیده