اخیراً مدلهای مبتنی بر شبکه عصبی ترنسفورمر و کانولوشن (CNN) نتایج امیدوارکنندهای را در تشخیص خودکار گفتار (ASR) نشان دادهاند که عملکرد بهتری از شبکههای عصبی بازگشتی (R ) دارد. مدلهای ترنسفورمر در ثبت ویژگیهای سراسری مبتنی بر محتوا خوب هستند، در حالی که CNN ها از ویژگیهای محلی به طور موثربهرهبرداری میکنند. در این پژوهش ، ما با مطالعه نحوه ترکیب شبکههای عصبی کانولوشن و ترنسفورمر ، به مدلی که بهترین خصوصیتهای این دو مدل را داراست و ویژگیهای محلی و سراسری یک دنباله صوتی را به روشی کارآمد ثبت میکند دست مییابیم. در این راستا، ما مبدل پیچشی تقویت شده را معرفی میکنیم که Conformer نام دارد. Conformer به طور قابل توجهی بهتر از مدل های قبلی مبدل ترنسفورمر و CNN عمل می کند و به دقت بالایی را از خود به نمایش میگذارد . در معیار پرکاربرد LibriSpeech، مدل ما به ۲/۱ و ۴/۳ درصد میزان خطای کلمه بدون استفاده از مدل زبان و ۱/۹ و ۳/۹ درصد خطا با یک مدل زبان خارجی در دادههای test و test-other میرسد. ما همچنین عملکرد بسیار خوب با ۲/۷ و ۶/۳ درصد خطا را با یک مدل کوچک تنها با ۱۰ میلیون پارامتر مشاهده می کنیم.