فهرست مطالب
در مقاله قبل تعدادی از چالش های پردازش زبان طبیعی را معرفی کردیم. با وجود این مشکلات، کتابخانه های پردازش زبان طبیعی وجود دارند که هدفشان سادهتر و خودکار کردن کارهاست. در این مقاله تعدادی از آنها که مهمترین ابزارهای پردازش زبان طبیعی در پایتون هستند را بررسی میکنیم.
کتابخانه های پردازش زبان طبیعی
در این بخش مهمترین کتابخانه های پردازش زبان طبیعی انگلیسی را معرفی میکنیم.
-
کتابخانه NLTK چیست؟
NLTK یک فریمورک پایتونی است که عموماً در پروژههای عملی و دنیای واقعی استفاده نمیشود و اغلب پروژههایی که از NLTK (Natural Language toolkit) استفاده میکنند، جنبه آموزشی و تحقیقاتی دارند. بااینحال به دلیل سهولت استفاده، میتوان برای ساختن برنامهها یا پروژهها از آن استفاده کرد.
آشنایی با کتابخانه NLTK
- توکنسازی (Tokenization)
- تشخیص نقش دستوری کلمات (Part Of Speech (POS) tagging)
- طبقهبندی (Classification)
- تجزیهوتحلیل احساسات (Sentiment Analysis)
- ابزارهای ساختن چتباتها (Packages of chatbots)
کاربردهای کتابخانه NLTK
- سیستمهای توصیهگر (Recommendation Systems)
- تجزیهوتحلیل احساسات (Sentiment Analysis)
- ساختن چتباتها (Building Chatbots)
در دوره آموزش متن کاوی فارسی با شبکههای عصبی با تمرکز روی زبان فارسی، جدیدترین تکنیکهای پردازش زبان طبیعی با کدنویسی فراوان آموزش داده میشود.
-
کتابخانه spaCy چیست؟
spaCy یکی از کتابخانه های پردازش زبان طبیعی open-source پایتونی است و برای پروژههایی که باید سریع آماده شوند و به مرحله تولید و ارائه محصول برسند (اصطلاحاً به آن production-ready میگویند)، مفید است.
امکانات کتابخانه spaCy
- توکنسازی (Tokenization)
- تشخیص نقش کلمات (Part Of Speech (POS) tagging)
- شناسایی موجودیتهای نامدار (Named Entity Recognition (NER))
- طبقهبندی متون (Classification)
- تجزیهوتحلیل احساسات (Sentiment Analysis)
- تجزیه وابستگی متن (Dependency Parsing)
- بردار کلمات (Word Vectors)
آشنایی با کتابخانه spaCy و کاربردهای آن
- تکمیل خودکار (Autocomplete) و تصحیح خودکار (Autocorrect)
- تجزیهوتحلیل نظرات (Analyzing Reviews)
- خلاصهسازی (Summarization)
-
Gensim چیست؟
یکی دیگر از ابزارهای پردازش زبان طبیعی انگلیسی Gensim است. Gensim یک فریمورک پردازش زبان طبیعی پایتونی است که همهمنظوره نیست و عموماً برای مدلسازی موضوعات (Topic Modeling) و تشخیص شباهت (Similarity Detection) استفاده میشود.
امکانات کتابخانه Gensim
- تحلیل معناهای نهفته (Latent Semantic Analysis)
- فاکتورگیری غیرمنفی ماتریس (Non-negative Matrix Factorization)
- TF-IDF
آشنایی با کتابخانه Gensim و کاربردهای آن
- تبدیل متن به بردار (Converting Documents to Vectors)
- یافتن شباهت متن (Finding Text Similarity)
- خلاصهسازی متن (Text Summarization)
اگر میخواهید کار بر روی پروژههای واقعی NLP را یاد بگیرید، دوره آموزش پردازش زبان طبیعی مقدماتی را از دست ندهید.
-
TextBlob چیست؟
TextBlob یکی از کتابخانههای پردازش زبان طبیعی پایتون است که برای پردازش دادههای متنی طراحی شده است.
امکانات TextBlob
- تشخیص نقش کلمات (Part Of Speech (POS) tagging)
- استخراج عبارت یا گروه اسمی (Noun Phrase Extraction)
- تجزیهوتحلیل احساسات (Sentiment Analysis)
- طبقهبندی (Classification)
- ترجمه زبان (Language Translation)
- تجزیه (Parsing)
- یکپارچهسازی و ادغام شبکه واژگان (Wordnet Integration)
کاربردهای TextBlob
- تجزیهوتحلیل احساسات (Sentiment Analysis)
- تصحیح املای متون (Spelling Correction)
- ترجمه و تشخیص زبان (Translation and Language Detection)
اگر با الگوریتمهای یادگیری ماشین و پروژههای آن برای ساخت مدل آشنایی ندارید، آموزش یادگیری ماشین به زبان ساده با پایتون را در کانال یوتیوب دیتاهاب ببینید.
کتابخانه های پردازش زبان طبیعی محدود به موارد گفته شده نمیشود. در این مقاله معروف ترین ابزارهای پردازش زبان طبیعی بررسی شد. همان طور که دیدیم هر یک از این کتابخانهها، مزایا و معایب خود را دارند و اینکه در پروژهها از کدام مورد استفاده شود، به مورد کاربرد (use case) و همچنین زبان متن بستگی دارد. این کتابخانهها پاکسازی متن ورودی و استخراج ویژگی را انجام داده و سپس با استفاده از کتابخانههای دیگر یادگیری ماشین، مدل را آموزش داده و پیشبینی انجام میشود. اگر بخواهیم پردازش متون فارسی انجام دهیم، چطور؟ آیا میتوان از همین کتابخانهها استفاده کرد؟ در مقالات بعدی ابزارهای پردازش زبان طبیعی پیشنیاز برای انجام یک پروژه پردازش زبان طبیعی فارسی را معرفی میکنیم. ابتدا با کتابخانه Parsivar آشنا می شویم و سپس کتابخانه هضم را بررسی میکنیم.
2 دیدگاه
به گفتگوی ما بپیوندید و دیدگاه خود را با ما در میان بگذارید.
بسیار عالی..ممنون از شما
ممنون از همراهی شما