STeP-۱: Standard Text preparation for Persian language
برای بسیاری از برنامههای پردازش زبان طبیعی لازم است تا مجموعهای از پیشپردازشها بر روی متن ورودی انجام گیرد تا متن به فرمت مناسبی برای پردازشهای سطح بالاتر تبدیل شود. از جملهی این پیشپردازشها میتوان به قطعهبندی، ریشهیابی اشاره کرد. کاربران پردازشهای زبان طبیعی به واسطی یکپارچه و ساده برای پردازشهای پایه بر روی متن نیاز دارند. استپ وان یک بسته نرمافزاری شامل پردازشهای پایهی برروی زبان فارسی است. این بسته شامل قطعهبند و ویرایشگر متون فارسی، ریشهیاب و تحلیلگر ساخت واژی است. این نرمافزار به زبان سی شارپ نوشته شده است. زیر سیستم های نرم افزار تحلیل متن استپ وان را می توان به صورت زیر تشریح کرد.
زیرسیستم قطعهبند : این زیرسیستم متن را به کلمات و جملات تشکیلدهندهاش تجزیه میکند. در این سیستم فاصلهها و نیم فاصلهها بین کلمات فارسی تصحیح میشود. همچنین این سیستم، متن را تا حدی بر اساس اصول نگارشی فرهنگستان زبان و ادب فارسی ویرایش میکند.
زیرسیستم ریشهیاب : این زیرسیستم قادر به ریشه یابی تمام کلمات تصریفی، تعدادی از کلمات اشتقاقی و تحلیل ساختواژی آنهاست.
استپ وان یک API است که در اختیار کاربران تخصصی پردازش زبان فارسی قرار میگیرد.نسخه جدید و نسخه قبلی استپ وان و راهنمای آن از طریق لینک های مقابل دسترسی داشته باشید.
نسخه جدید نسخه قبلی راهنما