Xử lý ngôn ngữ tự nhiên
Tần suất từ vựng, tần suất nghịch đảo (TD-IDF) và ứng dụng trong tìm kiếm văn bản
TD-IDF – Term frequency-inverse document frequency (TD-IDF) là từ ngữ thường được dùng trong công tác thống kê, trích xuất văn bản phi cấu trúc. Cụ thể, nó là phương pháp dùng để xác định tầm quan trọng của một từ nào đó trong văn bản và kho tài liệu bằng cách đếm tần suất xuất […]
Làm thế nào để Chat-GPT, Google Bard hiểu được ngôn ngữ của con người?
Sau hiện tượng Chat-GPT, Google Bard… chắc có lẽ chúng ta đã từng đặt câu hỏi thắc mắc: Bằng cách nào Chatbot AI có thể học được cách giao tiếp giống ngôn ngữ của con người? Tiếng nói của nhân loại đã được định hình trong máy học như thế nào? Trong bài viết này […]
3 giai đoạn xử lý văn bản đầu vào trong NLP: tokenization, stop word và stemming
Trước khi sử dụng một mô hình (model) để huấn luyện robot, chúng ta cần phải tiến hành giai đoạn tiền xử lý, cho dù dữ liệu mà bạn đang làm việc ở định dạng nào: văn bản, hình ảnh hoặc âm thanh. Mỗi loại dữ liệu sẽ có cách mã hóa (token) khác nhau […]
Biểu thức chính quy (regex), công cụ cần thiết trong tiền xử lý văn bản
Một phần trong công việc xử lý văn bản là phải tìm hiểu về biểu thức chính quy (regular expressions), và cách học về Regex nhanh và vững chắc nhất là xem cách thức hoạt động của nó. Một khi hiểu được cấu trúc của Regex, bạn sẽ sử dụng biểu thức chính quy tốt […]

Automata không có gì khó hiểu!
Automata không có gì khó hiểu! Khi nhắc đến Lý thuyết tính toán (Theory of Computation) nghĩa là chúng ta đang bàn đến một nhánh của Khoa học máy tính (Coputer Science), lĩnh vực có thể giải quyết các vấn đề tính toán bằng cách sử dụng thuật toán (algorithm) và các mô hình tính […]
Xác suất có điều kiện (conditional probability) và ví dụ bằng Java
Xác suất có điều kiện (conditional probability) là bài toán được ứng dụng vào công tác mô hình hóa ngôn ngữ, dịch máy và nhận dạng giọng nói. Công thức cơ bản của xác xuất có điều kiện là tính xác xuất vào điện kiện B, dựa trên xác xuất của điều kiện cho trước của […]
Thuật toán vét cạn (Brute Force) và 2 ví dụ mô tả qua Java
Thuật toán vét cạn (Brute Force) và 2 ví dụ mô tả qua Java Nếu Binh Pháp Tôn Tử có 36 kế, trong đó hạ kế cuối cùng là vứt hết của cải, bỏ chạy để giữ lấy mạng sống. Thì trong lĩnh vực khoa học máy tính cũng có một giải pháp tương tự […]
Undirected Models – Mô hình xác suất thống kê vô hướng
Undirected Models – Mô hình xác suất thông kê vô hướng Mô hình xác suất thông kê vô hướng (Undirected Models) là gì? Undirected Models thuộc loại mô hình xác suất thống kê, thường được sử dụng để mô hình hóa phân phối xác suất của các biến ngẫu nhiên trong một hệ thống. Mô hình vô […]

Conditional random fields (CRFs) – Mô hình xác xuất thống kê và dự đoán
Ví dụ về cách hoạt động của mô hình conditional random fields (CRF) Ví dụ: Một người dùng sử dụng chatbot và đặt câu hỏi: USER: Thành phố lớn nhất nước Mỹ tên là gì? Từ “thành phố” là đầu mối quan trong để phân loại câu hỏi. Vào lúc này chúng ta sẽ sử dụng mô […]

Logic mệnh đề (propositional logic) và tính ứng dụng trong xử lý ngôn ngữ tự nhiên
Logic mệnh đề (propositional logic) và tính ứng dụng trong xử lý ngôn ngữ tự nhiên Logic mệnh đề (phép tính mệnh đề) là môn cơ bản của logic toán học dùng để giải quyết các bài toán mệnh đề, là các mệnh đề có thể đúng hoặc sai. Logic mệnh đề tập trung vào […]