تشخیص طنز در زبان فارسی با رویکرد یادگیری عمیق
پذیرفته شده برای ارائه شفاهی ، صفحه 111-121 (11) XML اصل مقاله (1.3 MB)
نویسندگان
دانشکده ریاضی و علوم کامپیوتر، دانشگاه صنعتی امیرکبیر‌ (پلی‌تکنیک تهران)، تهران، ایران
چکیده
طنز و ‫طعنه روشی خلاقانه برای بیان احساسات است که انسان‌ها با به کار بردن آن در گفتار یا نوشتار، ممکن است هدف و منظوری متفاوت با آنچه بیان می‌شود داشته باشند.
با گسترش استفاده از اینترنت، استفاده از شبکه‌های اجتماعی و وب‌سایت‌های فروش اینترنتی افزایش پیدا کرده است. با مرسوم‌شدن اعلام دیدگاه‌ها در این شبکه‌ها یا بیان نظرات در مورد کالاهایی که در وب‌سایت‌ها به فروش گذاشته شده‌اند، بررسی نظرات و احساسات کاربران در این موارد برای شرکت‌ها و سازمان‌ها اهمیت شایانی پیدا می‌کند. چون معمولا این نظرات با زبان رسمی و به صراحت اعلام نمی‌شوند و گاهی آغشته به شوخی، طعنه و کنایه هستند، کارایی تحلیل احساسات تحت تأثیر قرار می‌گیرد.
در سال‌های اخیر، توییتر به منبع بزرگی از ابراز ایده‌ها و دیدگاه‌های کاربران در تقریبا تمامی زمینه‌ها تبدیل شده است. این مسئله باعث جلب توجه شرکت‌ها و پژوهشگرانی به توییتر است که در زمینه تحلیل نظرات کاربران فعالیت می‌کنند. درصد بالایی از توییت‌ها شامل طنز هستند و کاربران فارسی‌زبان نیز از این قاعده مستثنی نمی‌شوند. تحلیل‌هایی که به وجود شوخی در متن آگاه باشند، می‌توانند با دقت بهتری احساسات را پیش‌بینی کنند.
در این پژوهش مجموعه‌داده‌ای از توییتر فارسی معرفی می‌شود که برچسب نمونه‌ها نشان‌گر وجود طنز و یا عدم وجود آن است. با استفاده از تطبیق دقیق مدل‌های زبانی از پیش آموزش داده شده بر روی مجموعه داده به دست آمده، مدلی برای تشخیص وجود یا عدم وجود طنز در زبان فارسی ارائه می‌دهیم.
کلیدواژه ها