مشخصات پژوهش

صفحه نخست /مبدل پیچشی تقویت شده برای ...
عنوان مبدل پیچشی تقویت شده برای تشخیص گفتار
نوع پژوهش پایان نامه
کلیدواژه‌ها شبکه عصبی ترنسفورمر، شبکه‌های عصبی بازگشتی، Conformer
چکیده اخیراً مدل‌های مبتنی بر شبکه عصبی ترنسفورمر و کانولوشن (CNN) نتایج امیدوارکننده‌ای را در تشخیص خودکار گفتار (ASR) نشان داده‌اند که عملکرد بهتری از شبکه‌های عصبی بازگشتی (R ) دارد. مدل‌های ترنسفورمر در ثبت ویژگی‌های سراسری مبتنی بر محتوا خوب هستند، در حالی که CNN‌ ها از ویژگی‌های محلی به طور موثربهره‌برداری می‌کنند. در این پژوهش ، ما با مطالعه نحوه ترکیب شبکه‌های عصبی کانولوشن و ترنسفورمر ، به مدلی که بهترین خصوصیت‌های این دو مدل را داراست و ویژگی‌های محلی و سراسری یک دنباله صوتی را به روشی کارآمد ثبت می‌کند دست می‌یابیم. در این راستا، ما مبدل پیچشی تقویت شده را معرفی می‌کنیم که Conformer نام دارد. Conformer به طور قابل توجهی بهتر از مدل های قبلی مبدل ترنسفورمر و CNN عمل می کند و به دقت بالایی را از خود به نمایش می‌گذارد . در معیار پرکاربرد LibriSpeech، مدل ما به ۲/۱ و ۴/۳ درصد میزان خطا‌ی کلمه بدون استفاده از مدل زبان و ۱/۹ و ۳/۹ درصد خطا با یک مدل زبان خارجی در داده‌های test و test-other می‌رسد. ما همچنین عملکرد بسیار خوب با ۲/۷ و ۶/۳ درصد خطا را با یک مدل کوچک تنها با ۱۰ میلیون پارامتر مشاهده می کنیم.
پژوهشگران علی ولی نژاد (استاد مشاور)، روح اله یوسف پور (استاد راهنما)، سید عرفان هاشمی (دانشجو)