پیکره علیت با ۳ برچسب “علت” ، “معلول” و “نشانه علیت” است.
در راستای هدف شناسایی مرز عبارات علّی در متون، نیاز به ایجاد یک پیکره برچسب خورده در این حوزه برای زبان فارسی احساس می شد. PerCause، پیکره برچسب گذاری شده علیت توسعه یافته در آزمایشگاه زبان طبیعی دانشگاه شهیدبهشتی، تقریباً از ۱۲۹۰۰۰ توکن و ۵۱۲۸ رابطه علی در قالب ۴۴۴۴ جمله تشکیل شده است. پیکره خام اولیه از میان متون دو پیکره ۱) بیجنخان و ۲) کتاب (یک مجموعه عمومی متشکل از ۱.۸ میلیون کلمه از ۱۰ رمان و کتاب عمومی فارسی) انتخاب شده است و به صورت دستی برچسب گذاری شده است. همانطور که مفهوم علیت اقتضا میکند، مجموعه برچسبها حاوی ۳ برچسب “علت” ، “معلول” و “نشانه علیت” است و به دلیل شباهت برچسب گذاری علیت به وظیفه NER یا chunking، قالب IOB برای این کار انتخاب شده است. از ویژگیهای مربوط به این پیکره میتوان به عدم الزام به توالی در کلمات یک رکن رابطه علّی اشاره کرد. چون گاهی اوقات یک عنصر علی (به عنوان مثال علت) ممکن است شامل دو یا چند قسمت باشد که لزوما متوالی نیستند. همچنین الگوهای مورد نظر برای استخراج جملات کاندید برای برچسبگذاری محدودیت گرامری ندارند.
- زینب رحیمی و مهرنوش شمس فرد، “معرفی و آزمون پیکره علیت PerCause برای شناسایی روابط علّی فارسی” ، پذیرفته شده در مجله پردازش و مدیریت اطلاعات، ۱۴۰۱