Nhìn lại 30 năm phát triển của phần mềm kiểm tra lỗi chính tả

Nhìn lại 30 năm phát triển của phần mềm kiểm tra lỗi chính tả
4 Tháng chín 2024 - 3:09 sáng
155
155
Nếu tính theo tiêu chuẩn của ngành máy tính thì phần mềm kiểm tra chính tả đã có lịch sử lâu đời. Nó đã bắt đầu vào cuối những năm 50, thời kỳ của những chiếc máy tính khổng lồ và sản phẩm chính tả đầu tiên có tên là (Blair, 1960).

Nếu tính theo tiêu chuẩn của ngành máy tính thì phần mềm kiểm tra chính tả đã có lịch sử lâu đời. Nó đã bắt đầu vào cuối những năm 50, thời kỳ của những chiếc máy tính khổng lồ và sản phẩm chính tả đầu tiên có tên là (Blair, 1960).

Hầu hết các phương pháp kiểm tra chính tả trong thời kỳ này đều sử dụng từ điển, có nghĩa là, phần mềm kiểm tra không theo ngữ cảnh, nó chỉ đơn thuần là đánh giá một từ với danh sách các từ viết đúng được lưu trữ sẵn. Nhưng một số kết quả thì chính xác nhưng một số thì không.

Kiểm tra chính tả bằng phương pháp trigram

Chẳng hạn, mô hình hoạt động của hệ thống (Morris và Cherry, 1975) được thực hiện như sau. Để kiểm tra văn bản, nó chia các từ thành nhóm ba chữ cái (trigram), rồi đếm số lượng ký tự của mỗi từ, sau đó so sánh với tần suất sử dụng trong văn bản.

Ví dụ, khi kiểm tra văn bản có chứa hai từ gồm exm và xmi, phương pháp trigram sẽ không tìm thấy bất cứ từ nào giống như hai từ trên trong văn bản, vì vậy nó nghi nghờ đây là lỗi chính tả và xếp đứng đầu trong danh sách. Và dĩ nhiên phương pháp này sẽ không tìm thấy các từ sai nhưng thường xuyên được sử dụng trong văn bản.
Ưu điểm của phương pháp trigram là không cần đến một bộ từ điển, nó vẫn có thể hữu ích trong trường hợp muốn kiểm tra chính tả trong thời điểm hiện nay.

Kiểm tra chính tả bằng phương pháp sử dụng từ điển

Hầu hết các hệ thống kiểm tra chính tả đều sử dụng từ điển để đối chiếu. Trong những năm 1980, các nhà xuất bản đã bắt đầu sử dụng công nghệ máy tính và từ điển để kiểm tra chính tả.

Tuy nhiên các phần mềm kiểm tra lỗi chính tả trong giai đoạn này có nhược điểm về công nghệ là kích thước của RAM là khá nhỏ. Do đó, việc lưu trữ sẵn một bộ từ điển trong bộ nhớ chính là không thể. Chỉ một phần nhỏ các từ vựng ghi vào bộ nhớ, phần còn lại được trữ sẵn trong đĩa cứng. Một kỹ thuật được sử dụng phổ biến ở thời kỳ đó có tên là fix-strip (McIlroy, 1982).

Dung lượng từ điển chính tả nên lớn hay nhỏ?

Có hai quan điểm trái ngược nhau, số lượng từ vựng trong phần mềm kiểm tra chính tả nên lớn hay nhỏ? "Càng lớn, càng tốt," đó có thể là phản ứng đầu tiên của một người. Còn phía phản biện thì cho rằng, một từ ngắn sai chính tả sẽ sanh ra một từ khác (Person, 1986).

Có những lỗi phát sinh liên quan đến từ mới, một từ đúng chính trả nhưng không có trong từ điển. Và trong trường hợp này phần mềm sẽ báo lỗi. Nhưng nếu tích hợp quá nhiều các từ hiếm, nó sẽ dẫn đến một điều là các từ điển ngày một lớn, chứa đầy các từ hiếm.

Việc sử dụng một từ điển lớn hơn thường được ưa chuộng trong lập trình, những từ hiếm giống như các từ thông thường nên được coi là lỗi tiềm ẩn.

Một số cải tiến sau này trong các phần mềm kiểm tra lỗi chính tả có thể kể đến là việc bổ sung một từ điển người dùng riêng để thêm các tự vựng mới. Hoặc là bổ sung phần từ điển các từ vựng dễ xảy ra lỗi chính tả.

Nguyễn Văn Hiến

Tôi là Nguyễn Văn Hiến, Founder của Tummosoft. Tôi có hơn 20 năm lập trình, vào thời điểm máy vi tính còn là tài sản quý giá của người giàu. Nhưng sức đam mê công nghệ của tôi đã giúp tôi vượt qua những khó khăn và theo đuổi nghề lập trình. Đối với tôi, sáng tạo các sản phẩm công nghệ bằng ngôn ngữ cũng giống như người nghệ sĩ sáng tác những họa phẩm.

Bài viết liên quan