STeP-۱: Standard Text preparation for Persian language

برای بسیاری از برنامه‌های پردازش زبان طبیعی لازم است تا مجموعه‌ای از پیش‌پردازش‌ها بر روی متن ورودی انجام گیرد تا متن به فرمت مناسبی برای پردازش‌های سطح بالاتر تبدیل شود. از جمله‌ی این پیش‌پردازش‌ها می‌توان به قطعه‌بندی، ریشه‌یابی اشاره کرد. کاربران پردازش‌های زبان طبیعی به واسطی یکپارچه و ساده برای پردازش‌های پایه بر روی متن نیاز دارند. ‌استپ وان یک بسته نرم‌افزاری شامل پردازش‌های پایه‌ی برروی زبان فارسی است. این بسته شامل قطعه‌بند و ویرایش‌گر متون فارسی، ریشه‌یاب و تحلیل‌گر ساخت واژی است. این نرم‌افزار به زبان سی شارپ نوشته شده است. زیر سیستم های نرم افزار تحلیل متن استپ وان را می توان به صورت زیر تشریح کرد.

زیرسیستم قطعه‌بند : این زیرسیستم متن را به کلمات و جملات تشکیل‌دهنده‌اش تجزیه می‌کند. در این سیستم فاصله‌ها و نیم فاصله‌ها بین کلمات فارسی تصحیح می‌شود. همچنین این سیستم، متن را تا حدی بر اساس اصول نگارشی فرهنگستان زبان و ادب فارسی ویرایش می‌کند.
زیرسیستم ریشه‌یاب : این زیرسیستم قادر به ریشه یابی تمام کلمات تصریفی، تعدادی از کلمات اشتقاقی و تحلیل ساختواژی آن‌هاست.

استپ وان یک API است که در اختیار کاربران تخصصی پردازش زبان فارسی قرار می‌گیرد.نسخه جدید و نسخه قبلی استپ وان و راهنمای آن از طریق لینک های مقابل دسترسی داشته باشید.

                         نسخه جدید     ‌نسخه قبلی     ‌راهنما