تشخیص طنز در زبان فارسی با رویکرد یادگیری عمیق
پذیرفته شده برای ارائه شفاهی ، صفحه 111-121 (11) اصل مقاله (1.3 MB)
نویسندگان
دانشکده ریاضی و علوم کامپیوتر، دانشگاه صنعتی امیرکبیر (پلیتکنیک تهران)، تهران، ایران
چکیده
طنز و طعنه روشی خلاقانه برای بیان احساسات است که انسانها با به کار بردن آن در گفتار یا نوشتار، ممکن است هدف و منظوری متفاوت با آنچه بیان میشود داشته باشند.
با گسترش استفاده از اینترنت، استفاده از شبکههای اجتماعی و وبسایتهای فروش اینترنتی افزایش پیدا کرده است. با مرسومشدن اعلام دیدگاهها در این شبکهها یا بیان نظرات در مورد کالاهایی که در وبسایتها به فروش گذاشته شدهاند، بررسی نظرات و احساسات کاربران در این موارد برای شرکتها و سازمانها اهمیت شایانی پیدا میکند. چون معمولا این نظرات با زبان رسمی و به صراحت اعلام نمیشوند و گاهی آغشته به شوخی، طعنه و کنایه هستند، کارایی تحلیل احساسات تحت تأثیر قرار میگیرد.
در سالهای اخیر، توییتر به منبع بزرگی از ابراز ایدهها و دیدگاههای کاربران در تقریبا تمامی زمینهها تبدیل شده است. این مسئله باعث جلب توجه شرکتها و پژوهشگرانی به توییتر است که در زمینه تحلیل نظرات کاربران فعالیت میکنند. درصد بالایی از توییتها شامل طنز هستند و کاربران فارسیزبان نیز از این قاعده مستثنی نمیشوند. تحلیلهایی که به وجود شوخی در متن آگاه باشند، میتوانند با دقت بهتری احساسات را پیشبینی کنند.
در این پژوهش مجموعهدادهای از توییتر فارسی معرفی میشود که برچسب نمونهها نشانگر وجود طنز و یا عدم وجود آن است. با استفاده از تطبیق دقیق مدلهای زبانی از پیش آموزش داده شده بر روی مجموعه داده به دست آمده، مدلی برای تشخیص وجود یا عدم وجود طنز در زبان فارسی ارائه میدهیم.
با گسترش استفاده از اینترنت، استفاده از شبکههای اجتماعی و وبسایتهای فروش اینترنتی افزایش پیدا کرده است. با مرسومشدن اعلام دیدگاهها در این شبکهها یا بیان نظرات در مورد کالاهایی که در وبسایتها به فروش گذاشته شدهاند، بررسی نظرات و احساسات کاربران در این موارد برای شرکتها و سازمانها اهمیت شایانی پیدا میکند. چون معمولا این نظرات با زبان رسمی و به صراحت اعلام نمیشوند و گاهی آغشته به شوخی، طعنه و کنایه هستند، کارایی تحلیل احساسات تحت تأثیر قرار میگیرد.
در سالهای اخیر، توییتر به منبع بزرگی از ابراز ایدهها و دیدگاههای کاربران در تقریبا تمامی زمینهها تبدیل شده است. این مسئله باعث جلب توجه شرکتها و پژوهشگرانی به توییتر است که در زمینه تحلیل نظرات کاربران فعالیت میکنند. درصد بالایی از توییتها شامل طنز هستند و کاربران فارسیزبان نیز از این قاعده مستثنی نمیشوند. تحلیلهایی که به وجود شوخی در متن آگاه باشند، میتوانند با دقت بهتری احساسات را پیشبینی کنند.
در این پژوهش مجموعهدادهای از توییتر فارسی معرفی میشود که برچسب نمونهها نشانگر وجود طنز و یا عدم وجود آن است. با استفاده از تطبیق دقیق مدلهای زبانی از پیش آموزش داده شده بر روی مجموعه داده به دست آمده، مدلی برای تشخیص وجود یا عدم وجود طنز در زبان فارسی ارائه میدهیم.
کلیدواژه ها