Học có giám sát – Bước chân vào deep learning [3]

Xử lý ngôn ngữ tự nhiên

Học có giám sát – Bước chân vào deep learning [3]

Nguyễn Văn Hiến

18 Tháng 5 2025 - 4:08 sáng

1. Học có giám sát

Học có giám sát (supervised learning) rất giỏi trong việc dự đoán nhãn khi "cho trước các đặc trưng đầu vào". Mỗi cặp "đặc trưng-nhãn" được gọi là một mẫu (example). Đôi khi, ngay cả khi nhãn chưa được biết, mẫu cũng có thể chỉ các đặc trưng đầu vào. Mục tiêu của chúng ta là tạo ra một mô hình có khả năng ánh xạ bất kỳ đặc trưng đầu vào nào tới nhãn (tức là dự đoán).

Lấy một ví dụ cụ thể: Giả sử chúng ta cần dự đoán liệu bệnh nhân có bị đau tim hay không, thì kết quả quan sát "đau tim" hoặc "không đau tim" sẽ là nhãn của mẫu. Các đặc trưng đầu vào có thể là các dấu hiệu sinh tồn như nhịp tim, huyết áp tâm trương và huyết áp tâm thu, v.v.

Học có giám sát có thể phát huy tác dụng bởi vì khi huấn luyện tham số, chúng ta cung cấp cho mô hình một tập dữ liệu, trong đó mỗi mẫu đều có nhãn thực tế. Nói theo thuật ngữ của lý thuyết xác suất, chúng ta muốn dự đoán xác suất có điều kiện của "việc ước tính nhãn dựa trên các đặc trưng đầu vào đã cho". Mặc dù học có giám sát chỉ là một trong vài loại bài toán học máy chính, nhưng trong công nghiệp, hầu hết các ứng dụng thành công của học máy đều sử dụng học có giám sát. Điều này là do, ở một mức độ nào đó, nhiều nhiệm vụ quan trọng có thể được mô tả rõ ràng là việc ước tính xác suất của những điều chưa biết, khi cho trước một tập hợp dữ liệu cụ thể có sẵn. Ví dụ:

Dựa trên hình ảnh chụp cắt lớp vi tính (Computed Tomography – CT) của khối u, dự đoán đó có phải là ung thư hay không;
Cho một câu tiếng Anh, dự đoán bản dịch tiếng Pháp chính xác;
Dựa trên dữ liệu báo cáo tài chính của tháng này, dự đoán giá cổ phiếu vào tháng tới;

Quá trình học của học có giám sát thường có thể được chia thành ba bước chính:

Chọn ngẫu nhiên một tập con từ một lượng lớn các mẫu dữ liệu đã biết, thu thập nhãn thực tế cho mỗi mẫu. Đôi khi, các mẫu này đã có nhãn (ví dụ, bệnh nhân có hồi phục trong năm tới không?); đôi khi, các mẫu này có thể cần được gán nhãn thủ công (ví dụ, phân loại hình ảnh). Các đầu vào này và các nhãn tương ứng cùng nhau tạo thành tập dữ liệu huấn luyện;
Chọn một thuật toán học có giám sát, thuật toán này lấy tập dữ liệu huấn luyện làm đầu vào và xuất ra một "mô hình đã hoàn thành việc học";
Đưa các đặc trưng của những mẫu chưa từng thấy trước đây vào "mô hình đã hoàn thành việc học" này, sử dụng đầu ra của mô hình làm dự đoán cho nhãn tương ứng.

Toàn bộ quá trình học có giám sát được minh họa trong Hình 1.3.1.

Tóm lại, ngay cả khi sử dụng mô tả đơn giản về việc dự đoán nhãn cho các đặc trưng đầu vào cho trước, học có giám sát vẫn có thể áp dụng nhiều dạng mô hình, và đòi hỏi nhiều quyết định mô hình hóa khác nhau, tùy thuộc vào loại, kích thước và số lượng của đầu vào và đầu ra. Ví dụ, chúng ta sử dụng các mô hình khác nhau để xử lý "các chuỗi có độ dài bất kỳ" hoặc "các chuỗi có độ dài cố định".

2. Hồi quy

Hồi quy (regression) là một trong những nhiệm vụ học có giám sát đơn giản nhất. Giả sử có một bảng dữ liệu bán nhà, trong đó mỗi hàng tương ứng với một ngôi nhà, và mỗi cột tương ứng với một thuộc tính liên quan, ví dụ như diện tích nhà, số lượng phòng ngủ, số lượng phòng tắm, và khoảng cách đi bộ đến trung tâm thị trấn, v.v. Các thuộc tính của mỗi hàng tạo thành một vector đặc trưng cho mẫu nhà đó. Nếu một người sống ở New York hoặc San Francisco, và người đó không phải là CEO của Amazon, Google, Microsoft hay Facebook, thì vector đặc trưng của nhà họ (diện tích nhà, số lượng phòng ngủ, số lượng phòng tắm, khoảng cách đi bộ) có thể tương tự như: $[600, 1, 1, 60]$ (ví dụ: 600 feet vuông, 1 phòng ngủ, 1 phòng tắm, 60 phút đi bộ). Nếu một người sống ở Pittsburgh, vector đặc trưng này có thể gần hơn với $[2500, 3, 2, 10]$ . Khi mọi người tìm kiếm nhà mới trên thị trường, họ có thể cần ước tính giá trị thị trường hợp lý của một ngôi nhà. Tại sao nhiệm vụ này có thể được xếp vào loại bài toán hồi quy? Về cơ bản, điều này được quyết định bởi đầu ra. Giá bán (tức là nhãn) là một giá trị số. Khi nhãn nhận một giá trị số bất kỳ, chúng ta gọi đó là bài toán hồi quy, mục tiêu lúc này là tạo ra một mô hình sao cho dự đoán của nó rất gần với giá trị nhãn thực tế.

Nhiều vấn đề trong cuộc sống có thể được xếp vào loại bài toán hồi quy. Ví dụ, dự đoán điểm đánh giá của người dùng cho một bộ phim có thể được coi là một bài toán hồi quy. Có một câu chuyện nhỏ ở đây: vào năm 2009, nếu ai đó thiết kế được một thuật toán tuyệt vời để dự đoán điểm đánh giá phim, người đó có thể đã thắng giải thưởng Netflix trị giá 1 triệu đô la. Một ví dụ khác, dự đoán thời gian nằm viện của bệnh nhân cũng là một bài toán hồi quy. Tóm lại, một quy tắc kinh nghiệm tốt để xác định bài toán hồi quy là bất kỳ câu hỏi nào liên quan đến "bao nhiêu" rất có thể là một bài toán hồi quy. Ví dụ:

Ca phẫu thuật này cần bao nhiêu giờ;
Trong 6 giờ tới, thị trấn này sẽ có bao nhiêu lượng mưa.

Ngay cả khi bạn chưa từng sử dụng học máy trước đây, có thể bạn đã vô tình giải quyết một số bài toán hồi quy. Ví dụ, bạn nhờ người sửa ống nước, người thợ mất 3 giờ để thông tắc đường ống thoát nước thải, sau đó anh ta gửi cho bạn hóa đơn 350 đô la. Trong khi đó, bạn của bạn thuê cùng người thợ đó trong 2 giờ và nhận hóa đơn 250 đô la. Nếu ai đó yêu cầu bạn ước tính chi phí thông tắc, bạn có thể giả định rằng người thợ tính một khoản phí cơ bản nào đó, sau đó tính phí theo giờ. Nếu những giả định này đúng, thì với hai mẫu dữ liệu này, bạn đã có thể xác định cấu trúc giá của người thợ: phí dịch vụ tận nơi 50 đô la, cộng thêm 100 đô la mỗi giờ. Bạn đã vô tình hiểu và áp dụng thuật toán hồi quy tuyến tính.

Tuy nhiên, các giả định trên đôi khi không khả thi. Ví dụ, một số khác biệt là do nhiều yếu tố khác ngoài hai đặc trưng đó. Trong những trường hợp này, chúng ta sẽ cố gắng học các mô hình nhằm giảm thiểu "sự khác biệt giữa giá trị dự đoán và giá trị nhãn thực tế". Hầu hết các chương trong cuốn sách này sẽ tập trung vào việc tối thiểu hóa hàm mất mát sai số bình phương.

3. Phân loại

Mặc dù các mô hình hồi quy có thể giải quyết tốt các bài toán "bao nhiêu", nhưng nhiều bài toán lại không như vậy. Ví dụ, một ngân hàng muốn thêm tính năng quét séc vào ứng dụng di động của mình. Cụ thể, ứng dụng này có thể tự động hiểu văn bản nhìn thấy từ hình ảnh và ánh xạ các ký tự viết tay sang các ký tự đã biết tương ứng. Những bài toán kiểu "cái nào" được gọi là bài toán phân loại (classification). Bài toán phân loại mong muốn mô hình có thể dự đoán mẫu thuộc về hạng mục (category, chính thức gọi là lớp (class)) nào. Ví dụ, các chữ số viết tay có thể có 10 lớp, nhãn được đặt là các chữ số từ 0 đến 9. Bài toán phân loại đơn giản nhất là chỉ có hai lớp, được gọi là phân loại nhị phân (binomial classification). Ví dụ, tập dữ liệu có thể bao gồm hình ảnh động vật, và nhãn có thể là hai lớp: chó và mèo. Hồi quy là huấn luyện một hàm hồi quy để xuất ra một giá trị số; phân loại là huấn luyện một bộ phân loại để xuất ra lớp dự đoán.

Tuy nhiên, làm thế nào mô hình đưa ra được dự đoán phân loại "cứng" kiểu "có" hoặc "không" này? Chúng ta có thể cố gắng hiểu mô hình bằng ngôn ngữ xác suất. Với một đặc trưng mẫu cho trước, mô hình gán một xác suất cho mỗi lớp có thể. Ví dụ, trong ví dụ phân loại chó mèo trước đó, bộ phân loại có thể xuất ra xác suất hình ảnh là mèo là 0.9. Con số 0.9 này có ý nghĩa gì? Có thể hiểu là: bộ phân loại chắc chắn 90% rằng hình ảnh mô tả một con mèo. Độ lớn của xác suất dự đoán lớp truyền tải một dạng không chắc chắn của mô hình, các chương sau của cuốn sách này sẽ thảo luận về các thuật toán khác vận dụng khái niệm không chắc chắn.

Khi có nhiều hơn hai lớp, chúng ta gọi vấn đề này là bài toán phân loại đa lớp (multiclass classification). Các ví dụ phổ biến bao gồm nhận dạng chữ số viết tay $[0, 1, ..., 9]$ . Khác với việc giải quyết các bài toán hồi quy, hàm mất mát phổ biến cho các bài toán phân loại được gọi là entropy chéo (cross-entropy), sẽ được trình bày chi tiết trong Mục 3.4 của cuốn sách này.

Xin lưu ý rằng lớp phổ biến nhất không nhất thiết là lớp cuối cùng được sử dụng để ra quyết định. Lấy ví dụ, giả sử trong sân sau có một cây nấm như trong Hình 1.3.2.

Bây giờ, chúng ta muốn huấn luyện một bộ phân loại phát hiện nấm độc, dự đoán xem nấm có độc hay không dựa trên ảnh chụp. Giả sử bộ phân loại này xuất ra xác suất Hình 1.3.2 chứa nấm tử thần là 0.2. Nói cách khác, bộ phân loại chắc chắn 80% rằng cây nấm trong hình không phải là nấm tử thần. Mặc dù vậy, chúng ta cũng sẽ không ăn nó, bởi vì không đáng để chấp nhận rủi ro tử vong 20%. Nói cách khác, tác động của rủi ro không chắc chắn lớn hơn nhiều so với lợi ích. Do đó, chúng ta cần coi "rủi ro kỳ vọng" là hàm mất mát, tức là cần nhân xác suất của kết quả với lợi ích (hoặc tác hại) liên quan. Trong trường hợp này, tổn thất do ăn nấm là $+ \infty$ , trong khi tổn thất do vứt bỏ nấm là $- 0.1$ . Thực tế, thận trọng là có lý, cây nấm trong Hình 1.3.2 thực sự là một cây nấm tử thần.

Phân loại có thể trở nên phức tạp hơn nhiều so với phân loại nhị phân hay đa lớp. Ví dụ, có một số biến thể của nhiệm vụ phân loại có thể được sử dụng để tìm kiếm các cấu trúc phân cấp, trong đó cấu trúc phân cấp giả định rằng có một số mối quan hệ giữa nhiều lớp. Do đó, không phải tất cả các lỗi đều như nhau. Người ta thà phân loại nhầm vào một lớp liên quan còn hơn là phân loại nhầm vào một lớp xa xôi, điều này thường được gọi là phân loại phân cấp (hierarchical classification). Một ví dụ ban đầu là Carl Linnaeus, người đã phân loại động vật theo cấu trúc phân cấp.

Trong ứng dụng phân loại động vật, việc nhầm một con chó Poodle thành Schnauzer có thể không quá tệ. Nhưng nếu mô hình nhầm lẫn Poodle với khủng long thì thật nực cười. Mức độ liên quan trong cấu trúc phân cấp có thể phụ thuộc vào cách người dùng dự định sử dụng mô hình. Ví dụ, rắn đuôi chuông và rắn chuột (gopher snake) có thể có quan hệ họ hàng gần gũi, nhưng nếu nhầm rắn đuôi chuông thành rắn chuột có thể gây chết người. Bởi vì rắn đuôi chuông có độc, còn rắn chuột thì không.

4. Bài toán gán nhãn

Một số bài toán phân loại rất phù hợp với phân loại nhị phân hoặc đa lớp. Ví dụ, chúng ta có thể huấn luyện một bộ phân loại nhị phân thông thường để phân biệt chó và mèo. Sử dụng các thuật toán thị giác máy tính tiên tiến nhất, mô hình này có thể được huấn luyện rất dễ dàng. Mặc dù vậy, cho dù mô hình có chính xác đến đâu, khi bộ phân loại gặp một động vật mới, nó có thể bó tay. Ví dụ, Hình 1.3.3 là hình ảnh "Những nhạc sĩ thành Bremen" (một câu chuyện cổ tích nổi tiếng của Đức), trong đó có một con mèo, một con gà trống, một con chó, một con lừa, và nền là một vài cái cây. Tùy thuộc vào việc chúng ta cuối cùng muốn làm gì với mô hình, việc coi đây là một bài toán phân loại nhị phân có thể không có nhiều ý nghĩa. Thay vào đó, chúng ta có thể muốn mô hình mô tả nội dung của hình ảnh đầu vào: một con mèo, một con gà trống, một con chó, và một con lừa.

Bài toán học dự đoán các lớp không loại trừ lẫn nhau được gọi là phân loại đa nhãn (multi-label classification). Lấy ví dụ, các nhãn mà mọi người dán trên các blog công nghệ, như "Học máy", "Công nghệ", "Tiện ích", "Ngôn ngữ lập trình", "Linux", "Điện toán đám mây", "AWS". Một bài viết điển hình có thể sử dụng 5-10 nhãn, vì các khái niệm này có liên quan với nhau. Một bài đăng về "Điện toán đám mây" có thể đề cập đến "AWS", trong khi một bài đăng về "Học máy" cũng có thể liên quan đến "Ngôn ngữ lập trình".

Ngoài ra, khi xử lý tài liệu y sinh, chúng ta cũng gặp phải loại vấn đề này. Việc gán nhãn chính xác cho tài liệu là rất quan trọng, giúp các nhà nghiên cứu xem xét tài liệu một cách toàn diện. Tại Thư viện Y khoa Quốc gia Hoa Kỳ (The United States National Library of Medicine), một số người chú giải chuyên nghiệp sẽ kiểm tra mọi bài báo được lập chỉ mục trong PubMed để liên kết nó với các thuật ngữ liên quan trong Mesh (Mesh là một bộ sưu tập khoảng 28.000 nhãn). Đây là một quá trình rất tốn thời gian, và người chú giải thường có độ trễ một năm giữa việc lưu trữ và gán nhãn. Ở đây, các thuật toán học máy có thể cung cấp các nhãn tạm thời cho đến khi mỗi bài báo được xem xét thủ công một cách nghiêm ngặt. Trên thực tế, trong những năm gần đây, tổ chức BioASQ đã tổ chức các cuộc thi để thực hiện công việc này.

5. Tìm kiếm

Đôi khi, chúng ta không chỉ muốn xuất ra một lớp hoặc một giá trị thực. Trong lĩnh vực truy xuất thông tin, chúng ta muốn xếp hạng một tập hợp các mục. Lấy ví dụ về tìm kiếm trên web, mục tiêu không chỉ đơn giản là phân loại "truy vấn (query) - trang web (page)", mà là tìm ra phần người dùng cần nhất trong vô số kết quả tìm kiếm. Thứ tự của kết quả tìm kiếm cũng rất quan trọng, thuật toán học cần phải xuất ra một tập con các phần tử đã được sắp xếp theo thứ tự. Nói cách khác, nếu yêu cầu chúng ta xuất ra 5 chữ cái đầu tiên trong bảng chữ cái, việc trả về "A, B, C, D, E" và "C, A, B, E, D" là khác nhau. Ngay cả khi tập hợp kết quả là giống nhau, thứ tự bên trong tập hợp đôi khi lại rất quan trọng.

Một giải pháp khả thi cho vấn đề này: trước tiên gán cho mỗi phần tử trong tập hợp một điểm số liên quan tương ứng, sau đó truy xuất các phần tử được đánh giá cao nhất. PageRank, vũ khí bí mật ban đầu đằng sau công具 tìm kiếm Google, là một ví dụ ban đầu về hệ thống tính điểm này, nhưng điểm đặc biệt của nó là nó không phụ thuộc vào truy vấn thực tế. Ở đây, họ dựa vào một bộ lọc liên quan đơn giản để xác định một tập hợp các mục liên quan, sau đó sắp xếp các kết quả chứa điều kiện truy vấn dựa trên PageRank. Ngày nay, các công cụ tìm kiếm sử dụng học máy và các mô hình hành vi người dùng để thu được điểm số liên quan của trang web, nhiều hội nghị học thuật cũng tập trung vào chủ đề này.

6. Hệ thống đề xuất

Một loại vấn đề khác liên quan đến tìm kiếm và xếp hạng là hệ thống đề xuất (recommender system), mục tiêu của nó là đưa ra các đề xuất "cá nhân hóa" cho người dùng cụ thể. Ví dụ, đối với đề xuất phim, trang kết quả đề xuất cho người hâm mộ khoa học viễn tưởng và người yêu thích phim hài có thể rất khác nhau. Các ứng dụng tương tự cũng xuất hiện trong đề xuất sản phẩm bán lẻ, âm nhạc và tin tức, v.v.

Trong một số ứng dụng, khách hàng sẽ cung cấp phản hồi rõ ràng, bày tỏ mức độ yêu thích của họ đối với một sản phẩm cụ thể. Ví dụ, xếp hạng và đánh giá sản phẩm trên Amazon. Trong một số trường hợp khác, khách hàng cung cấp phản hồi ngầm. Ví dụ, một người dùng bỏ qua một số bài hát trong danh sách phát, điều này có thể cho thấy những bài hát đó không phù hợp lắm với người dùng này. Nhìn chung, hệ thống đề xuất sẽ chấm điểm cho sự phù hợp của "người dùng và mục cụ thể", "điểm số" này có thể là xếp hạng ước tính hoặc xác suất mua hàng. Từ đó, đối với bất kỳ người dùng nào, hệ thống đề xuất có thể truy xuất tập hợp các đối tượng có điểm số cao nhất, sau đó đề xuất chúng cho người dùng. Trên đây chỉ là các thuật toán đơn giản, trong khi các hệ thống đề xuất được sản xuất công nghiệp tiên tiến hơn nhiều, chúng xem xét chi tiết hoạt động của người dùng và đặc điểm của mục. Các thuật toán của hệ thống đề xuất được điều chỉnh để nắm bắt sở thích của một người. Ví dụ, Hình 1.3.4 là những cuốn sách về học sâu được Amazon đề xuất dựa trên thuật toán cá nhân hóa, đã nắm bắt thành công sở thích của tác giả.

Mặc dù hệ thống đề xuất có giá trị ứng dụng to lớn, nhưng việc chỉ sử dụng nó như một mô hình dự đoán vẫn còn một số thiếu sót. Thứ nhất, dữ liệu của chúng ta chỉ chứa "phản hồi đã qua chọn lọc": người dùng có xu hướng đánh giá những thứ mà họ có cảm xúc mạnh mẽ. Ví dụ, trong thang điểm đánh giá phim năm sao, sẽ có nhiều đánh giá năm sao và một sao, nhưng đánh giá ba sao lại ít hơn đáng kể. Ngoài ra, hệ thống đề xuất có khả năng hình thành các vòng lặp phản hồi: hệ thống đề xuất trước tiên sẽ ưu tiên đẩy một mặt hàng có lượng mua lớn (có thể được coi là tốt hơn), tuy nhiên thói quen mua hàng hiện tại của người dùng thường tuân theo thuật toán đề xuất, nhưng thuật toán học không phải lúc nào cũng tính đến chi tiết này, dẫn đến việc được đề xuất thường xuyên hơn. Tóm lại, nhiều vấn đề liên quan đến cách xử lý việc chọn lọc dữ liệu, các yếu tố khuyến khích và vòng lặp phản hồi là những vấn đề nghiên cứu mở quan trọng.

7. Học chuỗi

Hầu hết các vấn đề trên đều có đầu vào kích thước cố định và tạo ra đầu ra kích thước cố định. Ví dụ, trong bài toán dự đoán giá nhà, chúng ta xem xét một tập hợp các đặc trưng cố định: diện tích nhà, số lượng phòng ngủ, số lượng phòng tắm, thời gian đi bộ đến trung tâm thành phố; trong bài toán phân loại hình ảnh, đầu vào là hình ảnh có kích thước cố định, đầu ra là một số lượng cố định các xác suất dự đoán (liên quan đến mỗi lớp); trong những trường hợp này, mô hình chỉ coi đầu vào như "nguyên liệu" để tạo ra đầu ra, mà không "ghi nhớ" nội dung cụ thể của đầu vào.

Nếu các mẫu đầu vào không có mối quan hệ nào với nhau, các mô hình trên có thể hoàn hảo. Nhưng nếu đầu vào là liên tục, mô hình có thể cần có chức năng "ghi nhớ". Ví dụ, chúng ta nên xử lý các đoạn video như thế nào? Trong trường hợp này, mỗi đoạn video có thể bao gồm số lượng khung hình khác nhau. Thông qua hình ảnh của khung hình trước, chúng ta có thể chắc chắn hơn về những gì xảy ra trong khung hình sau. Ngôn ngữ cũng vậy, đầu vào và đầu ra của dịch máy đều là các chuỗi văn bản.

Một ví dụ khác, trong y học, đầu vào và đầu ra dạng chuỗi càng quan trọng hơn. Hãy tưởng tượng, giả sử một mô hình được sử dụng để theo dõi bệnh nhân chăm sóc đặc biệt, nếu nguy cơ tử vong của họ trong 24 giờ tới vượt quá một ngưỡng nhất định, mô hình này sẽ đưa ra cảnh báo. Chúng ta chắc chắn không muốn bỏ qua tất cả thông tin về tiền sử bệnh của bệnh nhân trong mỗi giờ đã qua, mà chỉ đưa ra dự đoán dựa trên các phép đo gần đây nhất.

Những vấn đề này là ví dụ về học chuỗi, một trong những ứng dụng thú vị nhất của học máy. Học chuỗi đòi hỏi phải thu nhận chuỗi đầu vào hoặc dự đoán chuỗi đầu ra, hoặc cả hai. Cụ thể, cả đầu vào và đầu ra đều là các chuỗi có độ dài thay đổi, ví dụ như dịch máy và chuyển đổi văn bản từ giọng nói. Mặc dù không thể xem xét tất cả các loại chuyển đổi chuỗi, nhưng các trường hợp đặc biệt sau đây đáng được đề cập.

Gán nhãn và Phân tích cú pháp. Điều này liên quan đến việc chú giải các chuỗi văn bản bằng các thuộc tính. Nói cách khác, số lượng đầu vào và đầu ra về cơ bản là như nhau. Ví dụ, chúng ta có thể muốn biết động từ và chủ ngữ ở đâu, hoặc có thể muốn biết những từ nào là thực thể được đặt tên. Thông thường, mục tiêu là phân tích và chú giải văn bản dựa trên các giả định về cấu trúc và ngữ pháp để thu được một số chú giải. Điều này nghe có vẻ phức tạp hơn nhiều so với thực tế. Dưới đây là một ví dụ rất đơn giản, sử dụng "gán nhãn" để chú giải một câu, nhãn này cho biết những từ nào tham chiếu đến thực thể được đặt tên. Nhãn là "Ent", viết tắt của thực thể (entity).

Tom has dinner in Washington with Sally Ent - - - Ent - Ent
Nhận dạng giọng nói tự động. Trong nhận dạng giọng nói, chuỗi đầu vào là bản ghi âm của người nói (như trong Hình 1.3.5), chuỗi đầu ra là bản ghi văn bản nội dung người nói đã nói. Thách thức của nó là so với văn bản, khung âm thanh nhiều hơn đáng kể (âm thanh thường được lấy mẫu ở 8kHz hoặc 16kHz). Nghĩa là, không có sự tương ứng 1:1 giữa âm thanh và văn bản, vì hàng nghìn mẫu có thể tương ứng với một từ riêng lẻ. Đây cũng là một bài toán học "chuỗi sang chuỗi", trong đó đầu ra ngắn hơn nhiều so với đầu vào.

Hình 1.3.5 -D-e-e-p- L-ea-r-ni-ng- trong bản ghi âm.
Văn bản sang tiếng nói. Điều này ngược lại với nhận dạng giọng nói tự động. Nói cách khác, đầu vào là văn bản, đầu ra là tệp âm thanh. Trong trường hợp này, đầu ra dài hơn nhiều so với đầu vào. Mặc dù con người dễ dàng nhận ra các tệp âm thanh phát âm không tự nhiên, nhưng điều này không đơn giản đối với máy tính.
Dịch máy. Trong nhận dạng giọng nói, thứ tự xuất hiện của đầu vào và đầu ra về cơ bản là giống nhau. Còn trong dịch máy, trật tự của các yếu tố trong đầu vào và đầu ra thường không tương ứng trực tiếp, và sự khác biệt này là rất quan trọng. Nói cách khác, mặc dù chúng ta vẫn chuyển đổi một chuỗi thành một chuỗi khác, nhưng số lượng đầu vào và đầu ra cũng như thứ tự của các chuỗi tương ứng phần lớn sẽ không giống nhau. Ví dụ dưới đây, "Căn chỉnh (dịch word-for-word) sai" phản ánh xu hướng đặc biệt của người Đức là đặt động từ ở cuối câu.

Tiếng Đức: Haben Sie sich schon dieses grossartige Lehrwerk angeschaut? Tiếng Anh: Did you already check out this excellent tutorial? Căn chỉnh (dịch word-for-word) sai: Did you yourself already this excellent tutorial looked-at?

Các nhiệm vụ học tập khác cũng có ứng dụng học chuỗi. Ví dụ, việc xác định "thứ tự người dùng đọc trang web" là một vấn đề phân tích bố cục hai chiều. Một ví dụ khác, các vấn đề đối thoại đối với việc học chuỗi còn phức tạp hơn: việc xác định lượt đối thoại tiếp theo cần xem xét trạng thái lịch sử đối thoại cũng như kiến thức về thế giới thực... Những vấn đề như trên đều là các lĩnh vực nghiên cứu học chuỗi đang rất được quan tâm.

Xử lý ngôn ngữ tự nhiên

Nguyễn Văn Hiến

Tôi là Nguyễn Văn Hiến, Founder của Tummosoft. Tôi có hơn 20 năm lập trình, vào thời điểm máy vi tính còn là tài sản quý giá của người giàu. Nhưng sức đam mê công nghệ của tôi đã giúp tôi vượt qua những khó khăn và theo đuổi nghề lập trình. Đối với tôi, sáng tạo các sản phẩm công nghệ bằng ngôn ngữ cũng giống như người nghệ sĩ sáng tác những họa phẩm.

1. Học có giám sát

2. Hồi quy

3. Phân loại

4. Bài toán gán nhãn

5. Tìm kiếm

6. Hệ thống đề xuất

7. Học chuỗi

Nguyễn Văn Hiến

Bài viết liên quan