1403/09/01
روح اله یوسف پور

روح اله یوسف پور

مرتبه علمی: دانشیار
ارکید:
تحصیلات: دکترای تخصصی
اسکاپوس:
دانشکده: دانشکده علوم ریاضی
نشانی:
تلفن: 09113147287

مشخصات پژوهش

عنوان
مبدل پیچشی تقویت شده برای تشخیص گفتار
نوع پژوهش
پایان نامه
کلیدواژه‌ها
شبکه عصبی ترنسفورمر، شبکه‌های عصبی بازگشتی، Conformer
سال 1402
پژوهشگران سید عرفان هاشمی(دانشجو)، علی ولی نژاد(استاد مشاور)، روح اله یوسف پور(استاد راهنما)

چکیده

اخیراً مدل‌های مبتنی بر شبکه عصبی ترنسفورمر و کانولوشن (CNN) نتایج امیدوارکننده‌ای را در تشخیص خودکار گفتار (ASR) نشان داده‌اند که عملکرد بهتری از شبکه‌های عصبی بازگشتی (R ) دارد. مدل‌های ترنسفورمر در ثبت ویژگی‌های سراسری مبتنی بر محتوا خوب هستند، در حالی که CNN‌ ها از ویژگی‌های محلی به طور موثربهره‌برداری می‌کنند. در این پژوهش ، ما با مطالعه نحوه ترکیب شبکه‌های عصبی کانولوشن و ترنسفورمر ، به مدلی که بهترین خصوصیت‌های این دو مدل را داراست و ویژگی‌های محلی و سراسری یک دنباله صوتی را به روشی کارآمد ثبت می‌کند دست می‌یابیم. در این راستا، ما مبدل پیچشی تقویت شده را معرفی می‌کنیم که Conformer نام دارد. Conformer به طور قابل توجهی بهتر از مدل های قبلی مبدل ترنسفورمر و CNN عمل می کند و به دقت بالایی را از خود به نمایش می‌گذارد . در معیار پرکاربرد LibriSpeech، مدل ما به ۲/۱ و ۴/۳ درصد میزان خطا‌ی کلمه بدون استفاده از مدل زبان و ۱/۹ و ۳/۹ درصد خطا با یک مدل زبان خارجی در داده‌های test و test-other می‌رسد. ما همچنین عملکرد بسیار خوب با ۲/۷ و ۶/۳ درصد خطا را با یک مدل کوچک تنها با ۱۰ میلیون پارامتر مشاهده می کنیم.