فهرست مطالب
امروزه پیشرفت حوزه پردازش زبان طبیعی (Natural Language Processing) که با نام مخفف NLP نیز شناخته میشود، بهگونهای بوده که در اکثر فعالیتها و ابزارهایی که به طور روزمره استفاده میکنیم، قابلمشاهده است.
از دستیار صوتی هوشمند اپل یعنی Siri گرفته تا ابزارهای تصحیح خودکار غلطهای املایی متون، چتباتها و پیشنهادهای گوگل برای ما هنگام جستوجو کردن یا همان Google Suggest.
طبق آماری که توسط گوگل منتشر شده، این پیشنهادها بازدهی بالایی دارند زیرا باعث کاهش 25 درصدی تایپ متن، توسط کاربران میشوند.
فناوری NLP به ما کمک میکند تا متون مختلف را ترجمه کنیم، ایمیلهای اسپم یا هرزنامهها را از سایر ایمیلها جدا کنیم و همچنین خبرهای جعلی را شناسایی کنیم. به طور خلاصه، با استفاده از NLP، ماشینها و رایانهها این توانایی را دارند که زبان انسانها را درک، پردازش و تفسیر کنند.
سؤالی که ممکن است برای خیلی از ما پیش آید، این است که سازوکار واقعی NLP چیست؟ یعنی چگونه با استفاده از NLP میتوان زبان انسان را به چیزی تبدیل کرد که توسط رایانه قابلدرک باشد؟
قرار است در مجموعهای از مقالات که بهصورت یک آموزش جامع برای شما تهیه شده، به این دسته از سؤالات پاسخ بدهیم. بهطورکلی مجموعه آموزش پردازش زبان طبیعی شامل سه بخش میشود.
در بخش اول، با نحوه پیشپردازش دادههای متنی آشنا شده و دادههای خود را برای گامهای بعدی پروژه آماده میکنیم.
هنگام کار با دادههای متنی، باید از متن موردنظر ویژگیهایی را استخراج کرده و به بردار (text vectorization) تبدیل کنیم. برای این کار تکنیکهای مختلفی وجود دارد.
در بخش دوم آموزش پردازش زبان طبیعی، تکنیک Bag-of-Words را معرفی کرده و پروژههای دستهبندی مانند تحلیل احساسات (Sentiment Analysis) را پیادهسازی میکنیم.
در بخش سوم و پایانی، با تکنیک Word Embeddings آشنا میشویم و آن را در بررسی و تحلیل متنی، به کار میبریم.
پس از خواندن مقالات و اتمام دوره آموزش پردازش زبان طبیعی، شما خواهید توانست:
- دادههای متنی را پیشپردازش کنید.
- با استفاده از تکنیک Bag-of-Words ویژگیهای متن خود را استخراج کرده و به بردار تبدیل کنید و در یک پروژه دستهبندی به کار گیرید.
- از تکنیک Word Embeddings استفاده کرده و بردار کلمات خود را به دست آورید.
علاوه بر موارد ذکر شده، شما با دو کتابخانه معروف آموزش پردازش زبان طبیعی در پایتون یعنی spaCy 2.3 و NLTK 3.5 آشنا شده و آموزشهای ارائه شده را با آنها پیادهسازی خواهید کرد.
اگر میخواهید کار بر روی پروژههای واقعی NLP را یاد بگیرید، دوره آموزش پردازش زبان طبیعی مقدماتی را از دست ندهید.
پیشنیازهای آموزش پردازش زبان طبیعی
- آشنایی با زبان برنامهنویسی پایتون
- آشنایی با مفاهیم جبر خطی، یادگیری ماشین و نحوه اعتبارسنجی الگوریتمها
برای یادگیری پایتون، دوره آموزش رایگان پایتون را در کانال یوتیوب دیتاهاب مشاهده کنید.
ابزارهای موردنیاز پردازش زبان طبیعی
- نصب پایتون 8
- نصب کتابخانه spaCy 2.3
- نصب کتابخانه NLTK 3.5
سرفصل مطالب ارائه شده دوره آموزش پردازش زبان طبیعی
- ساختن ابر کلمات (Word Cloud)
- شناسایی و حذف ایست واژه (Stop Word)های یک متن
- پیادهسازی تکنیکهای توکنسازی (Tokenization)
- ریشهیابی (شناسایی و یکسانسازی کلماتی معادل با فرمهای مختلف) با استفاده از SpaCy
- استخراج اطلاعات مفید داخل یک متن با استفاده از Regular Expression
- پیادهسازی تکنیک Bag-of-Words
- پیادهسازی رویکرد TF-IDF برای ساختن بردار کلمات
- استفاده از مدلهای مختلف دستهبندی (Classification) برای تحلیل احساسات (Sentiment Analysis)
- آشنایی با قابلیت و مزایای Word Embeddings
- مقایسه مدلهای مختلف Embedding
- آموزش و train کردن مدلهای مختلف Embedding
- آشنایی بیشتر با SpaCy
دوست دارید پروژههایی برای پردازش متن یاد بگیرید که در کارهای دنیای واقعی استفاده میشوند؟ صفحه آموزش متن کاوی فارسی با شبکههای عصبی را ببینید.