آموزش پردازش زبان طبیعی (NLP) – مقدمه

محمد دهقانی

امروزه پیشرفت حوزه پردازش زبان طبیعی (Natural Language Processing) که با نام مخفف NLP نیز شناخته می‌شود، به‌گونه‌ای بوده که در اکثر فعالیت‌ها و ابزارهایی که به طور روزمره استفاده می‌کنیم، قابل‌مشاهده است.

از دستیار صوتی هوشمند اپل یعنی Siri گرفته تا ابزارهای تصحیح خودکار غلط‌های املایی متون، چت‌بات‌ها و پیشنهادهای گوگل برای ما هنگام جست‌وجو کردن یا همان Google Suggest.

طبق آماری که توسط گوگل منتشر شده، این پیشنهادها بازدهی بالایی دارند زیرا باعث کاهش 25 درصدی تایپ متن، توسط کاربران می‌شوند.

فناوری NLP به ما کمک می‌کند تا متون مختلف را ترجمه کنیم، ایمیل‌های اسپم یا هرزنامه‌ها را از سایر ایمیل‌ها جدا کنیم و همچنین خبرهای جعلی را شناسایی کنیم. به طور خلاصه، با استفاده از NLP، ماشین‌ها و رایانه‌ها این توانایی را دارند که زبان‌ انسان‌ها را درک، پردازش و تفسیر کنند.

سؤالی که ممکن است برای خیلی از ما پیش آید، این است که سازوکار واقعی NLP چیست؟ یعنی چگونه با استفاده از NLP می‌توان زبان انسان را به چیزی تبدیل کرد که توسط رایانه قابل‌درک باشد؟

قرار است در مجموعه‌ای از مقالات که به‌صورت یک آموزش جامع برای شما تهیه شده، به این دسته از سؤالات پاسخ بدهیم. به‌طورکلی مجموعه آموزش پردازش زبان طبیعی شامل سه بخش می‌شود.

در بخش اول، با نحوه پیش‌پردازش داده‌های متنی آشنا‌ شده و داده‌های خود را برای گام‌های بعدی پروژه آماده می‌کنیم.

هنگام کار با داده‌های متنی، باید از متن موردنظر ویژگی‌هایی را استخراج کرده و به بردار (text vectorization) تبدیل کنیم. برای این کار تکنیک‌های مختلفی وجود دارد.

در بخش دوم آموزش پردازش زبان طبیعی، تکنیک Bag-of-Words را معرفی کرده و پروژه‌های دسته‌بندی مانند تحلیل احساسات (Sentiment Analysis) را پیاده‌سازی می‌کنیم.

در بخش سوم و پایانی، با تکنیک Word Embeddings آشنا می‌شویم و آن را در بررسی و تحلیل متنی، به کار می‌بریم.

پس از خواندن مقالات و اتمام دوره آموزش پردازش زبان طبیعی، شما خواهید توانست:

داده‌های متنی را پیش‌پردازش کنید.
با استفاده از تکنیک Bag-of-Words ویژگی‌های متن خود را استخراج کرده و به بردار تبدیل کنید و در یک پروژه دسته‌بندی به کار گیرید.
از تکنیک Word Embeddings استفاده کرده و بردار کلمات خود را به دست آورید.

علاوه بر موارد ذکر شده، شما با دو کتابخانه معروف آموزش پردازش زبان طبیعی در پایتون یعنی spaCy 2.3 و NLTK 3.5 آشنا شده و آموزش‌های ارائه شده را با آن‌ها پیاده‌سازی خواهید کرد.

اگر می‌خواهید کار بر روی پروژه‌های واقعی NLP را یاد بگیرید، دوره آموزش پردازش زبان طبیعی مقدماتی را از دست ندهید.

پیش‌نیازهای آموزش پردازش زبان طبیعی

آشنایی با زبان برنامه‌نویسی پایتون
آشنایی با مفاهیم جبر خطی، یادگیری ماشین و نحوه اعتبارسنجی الگوریتم‌ها

برای یادگیری پایتون، دوره آموزش رایگان پایتون را در کانال یوتیوب دیتاهاب مشاهده کنید.

ابزارهای موردنیاز پردازش زبان طبیعی

نصب پایتون 8
نصب کتابخانه‌ spaCy 2.3
نصب کتابخانه‌ NLTK 3.5

سرفصل مطالب ارائه شده دوره آموزش پردازش زبان طبیعی

بخش اول: پیش‌پردازش داده‌های متنی

ساختن ابر کلمات (Word Cloud)
شناسایی و حذف ایست واژه‌ (Stop Word)های یک متن
پیاده‌سازی تکنیک‌های توکن‌سازی (Tokenization)
ریشه‌یابی (شناسایی و یکسان‌سازی کلماتی معادل با فرم‌های مختلف) با استفاده از SpaCy
استخراج اطلاعات مفید داخل یک متن با استفاده از Regular Expression

بخش دوم: استخراج بردار کلمات یک متن با استفاده از تکنیک Bag-of-Words و پیاده‌سازی پروژه دسته‌بندی

پیاده‌سازی تکنیک Bag-of-Words
پیاده‌سازی رویکرد TF-IDF برای ساختن بردار کلمات
استفاده از مدل‌های مختلف دسته‎‎بندی (Classification) برای تحلیل احساسات (Sentiment Analysis)

بخش سوم: استخراج بردار کلمات یک متن با استفاده از تکنیک Word Embeddings

آشنایی با قابلیت و مزایای Word Embeddings
مقایسه مدل‌های مختلف Embedding
آموزش و train کردن مدل‌های مختلف Embedding
آشنایی بیشتر با SpaCy

دوست دارید پروژه‌هایی برای پردازش متن یاد بگیرید که در کارهای دنیای واقعی استفاده می‌شوند؟ صفحه آموزش متن کاوی فارسی با شبکه‌های عصبی را ببینید.

مطالب بیشتر

کتابخانه Streamlit چیست؟

Streamlit چیست؟ شروع کار با کتابخانه Streamlit در پایتون

فهرست مطالب در این مقاله می‌خواهیم درباره یاد بگیریم streamlit چیست، باقابلیت‌های مختلف آن آشنا

محمد دهقانی

word embedding چیست

Word embedding چیست؟ معرفی 3 روش مهم word2vec، GloVe و fastText

فهرست مطالب معرفی تکنیک قدرتمند Word Embeddings در بخش قبلی از مجموعه مقالات آموزشی دیدیم

محمد دهقانی

دیدگاهتان را بنویسید

برای نوشتن دیدگاه باید وارد بشوید.