پارسی ور (Parsivar) چیست؟ | پیش پردازش متن فارسی در پایتون

آموزش پردازش زبان فارسی با پایتون

فهرست مطالب

در مقاله قبل، مهمترین کتابخانه‌ های پردازش زبان طبیعی را بررسی کردیم. این کتابخانه‌ها شامل NLTK، spaCy، Gensim و TextBlob بودند که امکانات، کاربردها، مزایا و معایب هر کدام را مشخص کردیم. این سوال مطرح می‌شود که برای پردازش زبان فارسی با پایتون از چه ابزارهایی می‌توان استفاده کرد؟ دو ابزار مهم پردازش زبان فارسی پارسی ور (Parsivar) و Hazm هستند که در ادامه مقالات آموزشی پردازش زبان طبیعی، هر دو را بررسی می‌کنیم. ابتدا کار با پارسی ور (Parsivar) را یاد می‌گیریم.

پردازش زبان فارسی با پایتون به کمک پارسی ور (Parsivar)

در این آموزش قصد داریم ابزارهای پیش‌نیاز برای انجام یک پروژه پردازش زبان طبیعی فارسی را معرفی و سپس نحوه نصب هرکدام را بررسی کنیم. این ابزارها شامل پایتون، jupyter notebook و Parsivar است.

برای انجام پیش‌پردازش متون کتابخانه‌های زیادی مثل Spacy، Nltk ارائه شده که فقط تعداد معدودی از متون فارسی پشتیبانی می‌کنند که دقت بالایی ندارند. تعداد کتابخانه‌هایی که مخصوص زبان فارسی باشند زیاد نیستند و از معروف‌ترین آن‌ها هضم و Parsivar است. در ادامه قصد داریم نحوه نصب و استفاده از کتابخانه Parsivar نشان دهیم.

این کتابخانه توسط پژوهشكده فناوری اطلاعات جهاد دانشگاهی ارائه شده و کدهای کتابخانه پارسی ور در گیت هاب قابل‌دسترسی است.

برای استفاده از پارسی ور ابتدا باید پایتون نصب شود.

آموزش نصب پایتون

در قدم اول باید پایتون را دانلود کنیم. به سایت پایتون رفته و جدیدترین نسخه را دانلود می‌کنیم.

دانلود پایتون برای پردازش زبان فارسی با پایتون
دانلود پایتون

پس از دانلود روی فایل نصبی کلیک می‌کنیم و صفحه زیر باز می‌شود.

تنظیمات نصب پایتون برای پردازش زبان فارسی با پایتون

در حین نصب حتماً تیک گزینه Add Python 3.8 PATH که در شکل بالا قابل‌مشاهده است، فعال شود. سپس گزینه Install Now را انتخاب می‌کنیم.

نصب پایتون

نمایش صفحه زیر نشان‌دهنده نصب موفقیت‌آمیز پایتون است.

اتمام نصب پایتون

در مرحله آخر در محیط  Command Prompt دستور “python –version” وارد می‌کنیم و باید نسخه پایتون سیستم نمایش داده شود.

بررسی ورژن پایتون

برای یادگیری پایتون، دوره آموزش رایگان پایتون را در کانال یوتیوب دیتاهاب مشاهده کنید.

آموزش نصب jupyter notebook

پس از نصب پایتون، Command Prompt را بازکرده و از طریق دستور “pip install jupyter notebook” پکیج jupyter notebook را نصب می‌کنیم.

نصب jupyter notebook

سپس دستور را “jupyter notebook” وارد می‌کنیم:

باز کردن jupyter notebook

حال محیط jupyter notebook داخل مرورگر باز می‌شود.

محیط jupyter notebook

حال با کلیک روی New از سمت راست بالا، python3 انتخاب کرده و یک فایل جدید ایجاد می‌کنیم.

ایجاد فایل در jupyter notebook

در این مرحله یک صفحه خام داریم.

در محیط jupyter notebook به هر فضای خالی یک سلول می‌گوییم که داخل آن می‌توان کدهای پایتون نوشته و در نهایت از طریق دکمه Run، کدها را اجرا کنیم. البته  برای اجرای کدهای سلول از فشردن هم‌زمان کلیدهای Shift و Enter هم می‌توان استفاده کرد.

محیط کدنویسی در jupyter notebook

اگر می‌خواهید کار بر روی پروژه‌های واقعی NLP را یاد بگیرید، دوره آموزش پردازش زبان طبیعی مقدماتی را از دست ندهید.

نصب کتابخانه پارسی ور (Parsivar)

حال باید Parsivar نصب کنیم. کافی است دستور “pip install parsivar!” را داخل یک سلول جدید وارد کرده و روی دکمه Run کلیک کنیم. البته اینترنت حتماً باید وصل باشد.

نصب پارسی ور برای پردازش زبان فارسی با پایتون

باید پیغام نصب موفقیت‌آمیز پکیج نمایش داده شود.

“Successfully installed parsivar”

اگر مجدداً مرحله قبل را تکرار کنیم پیغام زیر نمایش داده می‌شود.

نصب مجدد Parsivarبرای پردازش زبان فارسی با پایتون

این پیام نشان می‌دهد که این پکیج روی سیستم نصب بوده و نیاز به نصب مجدد ندارد.

اکنون می‌دانیم Parsivar چیست و می‌توانیم متون فارسی را با استفاده از امکاناتی که این کتابخانه فراهم می‌کند، پردازش کنیم.

دوره آموزشی: در صورتی که با NLP آشنایی کافی دارید، دوره متن‌کاوی پیشرفته فارسی را تهیه کنید. در این دوره، با تمرکز روی زبان فارسی، جدیدترین تکنیک های پردازش زبان طبیعی با کدنویسی فراوان آموزش داده می شود.

برای پردازش متون، کتابخانه‌های زیادی معرفی شده‌اند. اما بسیاری از این کتابخانه‌ها برای متون انگلیسی مناسب هستند و در متون فارسی دقت بالایی ندارند. بنابراین استفاده از آن‌ها کارایی لازم را نخواهد داشت. به همین دلیل لازم بود با کتابخانه‌های پردازش زبان فارسی با پایتون آشنا شویم. در قدم اول، در این آموزش به سراغ نصب ابزارهای پایتون، jupyter notebook و Parsivar رفتیم که پیش‌نیازهای لازم برای انجام پروژه‌ها بودند. در مقاله پارسی ور چیست مراحل مختلف پیش پردازش زبان فارسی با پایتون و با استفاده از کتابخانه Parsivar را به صورت عملی یاد می‌گیریم.

مطالب بیشتر

دیدگاهتان را بنویسید