Bắt đầu từ hôm nay, chúng tôi sẽ triển khai một loạt các bài viết về lý thuyết Hồi quy logistic với góc nhìn mới mẻ, cụ thể là sử dụng thuật toán IRLS để minh hoạ. Chúng tôi mong muốn rằng, việc kết hợp lý thuyết với các ví dụ thực tế (sử dụng thư viện ML.NET) sẽ giúp các bạn dễ hiểu hơn về NLP.
Hồi quy logistic là gì?
Trong học máy, việc thống kê và xử lý dữ liệu đầu vào (dựa trên các đặc tính, thuộc tính – đã biết trước), rồi sắp xếp chúng vào các lớp, hoặc danh mục. Mục tiêu là đào tạo các các model có khả năng tìm hiểu các mối quan hệ trong dữ liệu, rồi từ đó cho phép đưa ra dự đoán hoặc gán các nhãn mới, chưa từng được phát hiện.
Công tác thống kê, phân loại được ứng dụng rất nhiều trong lĩnh vực công nghệ thông tin. Chẳng hạn như phát hiện thư rác (dự đoán email là thư rác hay không phải là thư rác), nhận dạng hình ảnh (ví dụ: nhận dạng chữ viết tay) hoặc phân tích tình cảm, cảm xúc (tích cực, tiêu cực hoặc bình thường).
Có nhiều thuật toán hỗ trợ cho công tác phân loại và dự đoán như decision trees, word vector, k-nearest neighbors, hoặc neural networks. Trong bài viết này chúng ta sẽ tìm hiểu về khái niệm hồi quy logistic cổ điển.
Học máy có giám sát (supervised learning) là gì?
Học máy có giám sát là kỹ thuật của mô hình học máy mà trong đó: chương trình sẽ phân tích một tập dữ liệu đầu vào đã được gắn nhãn trước và nhãn của dữ liệu đầu ra được ghép đôi tương ứng. Mục đích của việc học máy có giám sát là để hiểu được các mối quan hệ giữa các tính năng đầu vào và các nhãn đầu ra tương ứng.
Một khi mô hình được đào tạo hoàn tất, nó có thể đưa ra các dự đoán hoặc quyết định khi xử lý dữ liệu đầu vào mới, chưa từng được đào tạo.
Quá trình đào tạo này diễn ra theo trình tự các bước như sau:
(1) Một bộ dữ liệu được dán nhãn được sử dụng để đào tạo, bao gồm các cặp đầu vào-đầu ra. Đầu vào đại diện cho các tính năng hoặc thuộc tính của dữ liệu, trong khi đầu ra là kết quả được dán nhãn hoặc mong muốn.
(2) Một thuật toán xử lý dữ liệu đào tạo để tìm hiểu các mẫu và mối quan hệ giữa các tính năng đầu vào và nhãn đầu ra. Trong giai đoạn đào tạo này, thuật toán điều chỉnh các tham số nội bộ của nó để giảm thiểu sự khác biệt giữa dự đoán của nó và nhãn thực tế.
(3) Một khi đã được đào tạo và xác thực, mô hình có thể được sử dụng để đưa ra dự đoán hoặc quyết định về dữ liệu mới, chưa từng được học hỏi. Nó lấy các tính năng đầu vào và tạo ra các dự đoán đầu ra dựa trên các mẫu đã học.
Bản thân việc học có giám sát được phân loại thành hai loại chính: hồi quy và thống kê phân loại.
Một ví dụ về thống kê và dự đoán
Ví dụ chúng ta có một bảng thống kê về những căn nhà đã được mua bán tại một sàn bất động sản. Số liệu bao gồm diện tích căn nhà và giá bán.
Từ ví dụ này, chúng ta dùng thuật toán thống kê để xem xét mối liên hệ giữa giá trị căn nhà và diện tích của nó.
(Hình 1: Bảng thống kê giao dịch)
(Hình 2: Biểu đồ thống kê)
Trong ví dụ này, cách xử lý của chúng tôi như sau:
(1) Chúng tôi sử dụng dữ liệu để đào tạo với 2 biến: size và price.
(2) Lựa chọn thuật toán để thiết lập mối quan hệ giữa đầu vào và đầu ra.
(3) Dự đoán số liệu mới: Căn nhà có diện tích 100m2 sẽ có giá bao nhiêu?
Một ví dụ khác về thống kê phân loại
Một bài toán phân loại khác, ví dụ chúng ta thu thập dữ liệu về chiều cao của một số đối tượng nam và nữ (M hoặc W). Và từ đó, dựa trên chiều cao chúng tôi sẽ dự đoán một người có chiều cao 1m7 thì khả năng là nam hay nữ. Mặc dù đề bài hơi phi thực tế nhưng đây là một bài toán chỉ dùng cho mục đích phân tích.
P(M|h)
P(W|h) = 1 – P(M|h)
Lý thuyết Bayes
Bayes, được đặt theo tên của Mục sư Thomas Bayes, là lý thuyết cơ bản trong lĩnh vực thống kê, nó tính toán xác suất của một vấn đề dựa trên các đặc tính, yếu tố, điều kiện đã được xác định.
Lý thuyết Bayes hữu ích trong trường hợp đã xác định các tố, và có thể cập nhật thêm các yếu tố biến động mới.
Lý thuyết được biểu thị bằng công thức toán học:
P(A∣B)= P(B∣A)P(A)/P(B)
– P (A∣ B) là xác suất của sự kiện A xảy ra với điều kiện rằng sự kiện B đã xảy ra.
– P (B ∣ A) là xác suất xảy ra sự kiện B với sự kiện A đã xảy ra.
– P(A) là xác suất trước của sự kiện A.
– P(B) là xác suất trước của sự kiện B.
Lý thuyết Bayes cho phép cập nhật xác suất của một sự kiện (A) dựa trên bằng chứng mới (B).
Từ ví dụ trước đó về dự đoán giới tính, chúng ta biểu diễn bằng công thức toán học:
P(M∣h) = P(h∣M)P(M)/P(h)))
Từ thời điểm này, chúng ta có thể sử dụng quy luật xác suất tổng thể để đại diện cho P(h). Trên thực tế, giới tính nam và nữ là một tập hợp các sự kiện tách biệt theo cặp mà sự kết hợp trong toàn bộ không gian mẫu.
P(h)= P(h∣M)P(M) + P(h∣W)P(W)
Chúng ta chỉ đơn giản tham gia vào việc viết lại các hàm toán học một cách đơn giản, và nhìn thoáng qua, quá trình này có vẻ hơi tầm thường. Tuy nhiên, trước hết, nó phục vụ mục đích chứng minh rằng hàm sigmoid không được chọn ngẫu nhiên mà xuất hiện một cách tự nhiên trong các công thức. Hơn nữa, chúng tôi sẽ nghiên cứu các trường hợp cụ thể để minh họa sự sáng suốt của những lần viết lại như vậy.