فهرست مطالب
در مقاله قبل، مهمترین کتابخانه های پردازش زبان طبیعی را بررسی کردیم. این کتابخانهها شامل NLTK، spaCy، Gensim و TextBlob بودند که امکانات، کاربردها، مزایا و معایب هر کدام را مشخص کردیم. این سوال مطرح میشود که برای پردازش زبان فارسی با پایتون از چه ابزارهایی میتوان استفاده کرد؟ دو ابزار مهم پردازش زبان فارسی پارسی ور (Parsivar) و Hazm هستند که در ادامه مقالات آموزشی پردازش زبان طبیعی، هر دو را بررسی میکنیم. ابتدا کار با پارسی ور (Parsivar) را یاد میگیریم.
پردازش زبان فارسی با پایتون به کمک پارسی ور (Parsivar)
در این آموزش قصد داریم ابزارهای پیشنیاز برای انجام یک پروژه پردازش زبان طبیعی فارسی را معرفی و سپس نحوه نصب هرکدام را بررسی کنیم. این ابزارها شامل پایتون، jupyter notebook و Parsivar است.
برای انجام پیشپردازش متون کتابخانههای زیادی مثل Spacy، Nltk ارائه شده که فقط تعداد معدودی از متون فارسی پشتیبانی میکنند که دقت بالایی ندارند. تعداد کتابخانههایی که مخصوص زبان فارسی باشند زیاد نیستند و از معروفترین آنها هضم و Parsivar است. در ادامه قصد داریم نحوه نصب و استفاده از کتابخانه Parsivar نشان دهیم.
این کتابخانه توسط پژوهشكده فناوری اطلاعات جهاد دانشگاهی ارائه شده و کدهای کتابخانه پارسی ور در گیت هاب قابلدسترسی است.
برای استفاده از پارسی ور ابتدا باید پایتون نصب شود.
آموزش نصب پایتون
در قدم اول باید پایتون را دانلود کنیم. به سایت پایتون رفته و جدیدترین نسخه را دانلود میکنیم.
پس از دانلود روی فایل نصبی کلیک میکنیم و صفحه زیر باز میشود.
در حین نصب حتماً تیک گزینه Add Python 3.8 PATH که در شکل بالا قابلمشاهده است، فعال شود. سپس گزینه Install Now را انتخاب میکنیم.
نمایش صفحه زیر نشاندهنده نصب موفقیتآمیز پایتون است.
در مرحله آخر در محیط Command Prompt دستور “python –version” وارد میکنیم و باید نسخه پایتون سیستم نمایش داده شود.
برای یادگیری پایتون، دوره آموزش رایگان پایتون را در کانال یوتیوب دیتاهاب مشاهده کنید.
آموزش نصب jupyter notebook
پس از نصب پایتون، Command Prompt را بازکرده و از طریق دستور “pip install jupyter notebook” پکیج jupyter notebook را نصب میکنیم.
سپس دستور را “jupyter notebook” وارد میکنیم:
حال محیط jupyter notebook داخل مرورگر باز میشود.
حال با کلیک روی New از سمت راست بالا، python3 انتخاب کرده و یک فایل جدید ایجاد میکنیم.
در این مرحله یک صفحه خام داریم.
در محیط jupyter notebook به هر فضای خالی یک سلول میگوییم که داخل آن میتوان کدهای پایتون نوشته و در نهایت از طریق دکمه Run، کدها را اجرا کنیم. البته برای اجرای کدهای سلول از فشردن همزمان کلیدهای Shift و Enter هم میتوان استفاده کرد.
اگر میخواهید کار بر روی پروژههای واقعی NLP را یاد بگیرید، دوره آموزش پردازش زبان طبیعی مقدماتی را از دست ندهید.
نصب کتابخانه پارسی ور (Parsivar)
حال باید Parsivar نصب کنیم. کافی است دستور “pip install parsivar!” را داخل یک سلول جدید وارد کرده و روی دکمه Run کلیک کنیم. البته اینترنت حتماً باید وصل باشد.
باید پیغام نصب موفقیتآمیز پکیج نمایش داده شود.
“Successfully installed parsivar”
اگر مجدداً مرحله قبل را تکرار کنیم پیغام زیر نمایش داده میشود.
این پیام نشان میدهد که این پکیج روی سیستم نصب بوده و نیاز به نصب مجدد ندارد.
اکنون میدانیم Parsivar چیست و میتوانیم متون فارسی را با استفاده از امکاناتی که این کتابخانه فراهم میکند، پردازش کنیم.
دوره آموزشی: در صورتی که با NLP آشنایی کافی دارید، دوره متنکاوی پیشرفته فارسی را تهیه کنید. در این دوره، با تمرکز روی زبان فارسی، جدیدترین تکنیک های پردازش زبان طبیعی با کدنویسی فراوان آموزش داده می شود.
برای پردازش متون، کتابخانههای زیادی معرفی شدهاند. اما بسیاری از این کتابخانهها برای متون انگلیسی مناسب هستند و در متون فارسی دقت بالایی ندارند. بنابراین استفاده از آنها کارایی لازم را نخواهد داشت. به همین دلیل لازم بود با کتابخانههای پردازش زبان فارسی با پایتون آشنا شویم. در قدم اول، در این آموزش به سراغ نصب ابزارهای پایتون، jupyter notebook و Parsivar رفتیم که پیشنیازهای لازم برای انجام پروژهها بودند. در مقاله پارسی ور چیست مراحل مختلف پیش پردازش زبان فارسی با پایتون و با استفاده از کتابخانه Parsivar را به صورت عملی یاد میگیریم.