Mô hình xác xuất The Noisy Channel, giải pháp xử lý tín hiệu bị nhiễu sau truyền dẫn – Lịch sử ngành xử lý ngôn ngữ tự nhiên [1970-1983]
Giai đoạn thứ 3 (1970-1983) chứng kiến sự phát triển mạnh mẽ của ngành xử lý ngôn ngữ tự nhiên và nhận dạng tiếng nói và đồng thời các thuật toán và mô hình đã được phát triển đó vẫn được duy trì phát triển. Trong giai đoạn này, lý thuyết xác xuất thống kê có đóng góp quan trọng trong lĩnh vực nhận dạng giọng nói. Đặc biệt là việc ứng dụng các mô hình Hiden Markov Model, và mô hình The Noisy Channel.
Mô hình xử lý thông tin nhiễu – The Noisy Channel
Mô hình the noisy channel dựa trên lý thuyết: Giả sử thông tin là có độ dài một (bit) bị nhiễu (mất mát, biến đổi) khi truyền qua các kênh truyền dẫn như dây đồng, dây cáp quang (xác suất này được gọi là xác suất lỗi.). Hãy phục hồi thông tin trở về trạng thái ban đầu.
Để giải quyết bài toán này, nó cho phép sử dụng 2 biến: Mô hình nguồn (Source Model) và Mô hình nhiễu (Noise Model)
– Mô hình nguồn (Source Model): Phần này mô tả khả năng xuất hiện của một từ, cụm từ hoặc chuỗi từ trong ngôn ngữ nguồn. Nó có thể dựa trên các xác suất xuất hiện của các từ hoặc các thông tin ngữ cảnh.
– Mô hình nhiễu (Noise Model): Phần này mô tả cách mà thông điệp có thể bị nhiễu hoặc sai sót trong quá trình truyền tải qua channel. Nó cung cấp thông tin về cách các từ hoặc phần của thông điệp ban đầu có thể bị thay đổi hoặc sai sót thành thông điệp mà ta đã nhận được.
Ví dụ, nếu xác suất lỗi của kênh truyền thông là 0,1, thì ma trận chuyển đổi sẽ như sau:
0 | 1
—|—
0 | 0.9 | 0.1
1 | 0.1 | 0.9
Ma trận chuyển đổi này cho biết rằng xác suất của một bit 0 được truyền qua kênh truyền thông và vẫn là 0 là 0,9. Xác suất của một bit 1 được truyền qua kênh truyền thông và vẫn là 1 cũng là 0,9. Xác suất của một bit 0 được truyền qua kênh truyền thông và bị biến đổi thành 1 là 0,1. Xác suất của một bit 1 được truyền qua kênh truyền thông và bị biến đổi thành 0 cũng là 0,1.
Mô hình the noisy channel là một mô hình đơn giản, nhưng nó có thể được sử dụng để mô tả một loạt các kênh truyền thông thực tế. Mô hình này được sử dụng trong các ứng dụng như dịch máy, xử lý văn bản và thông tin, cũng như trong các hệ thống gợi ý ngôn ngữ tự nhiên.
Ví dụ về mô hình nhiễu bằng Java
Dưới đây là một ví dụ bằng Java sử dụng thuật toán the noisy channel để phục hồi một từ vựng bị biến đổi trở về trạng thái ban đầu: Ví dụ này định nghĩa một từ vựng có hai từ: “hello” và “world”. Xác suất lỗi của kênh truyền thông là 0,1, có nghĩa là mỗi bit có thể bị biến đổi thành một bit khác với xác suất 0,1.
Ví dụ này cũng định nghĩa một từ vựng bị biến đổi là “helloo”. Từ này được tạo ra bằng cách biến đổi một bit trong từ “hello” thành một bit khác.
Hệ thống noisy channel sẽ sử dụng xác suất lỗi để tính toán khả năng của mỗi từ trong từ vựng. Từ có khả năng cao nhất sẽ được trả về là từ được phục hồi.
Trong trường hợp này, từ được phục hồi là “hello”. Điều này là do xác suất của từ “hello” là cao hơn xác suất của từ “world”.
import java.util.Map;
import java.util.HashMap;
public class NoisyChannel {
private Map<String, String> vocabulary;
private Map<String, Double> probabilities;
public NoisyChannel(Map<String, String> vocabulary, Map<String, Double> probabilities) {
this.vocabulary = vocabulary;
this.probabilities = probabilities;
}
public String decode(String noisyWord) {
// Xác định khả năng của mỗi từ trong từ vựng
Map<String, Double> probabilitiesOfWords = new HashMap<>();
for (String word : vocabulary.keySet()) {
double probability = 1;
for (int i = 0; i < noisyWord.length(); i++) {
char noisyCharacter = noisyWord.charAt(i);
char originalCharacter = vocabulary.get(word).charAt(i);
probability *= probabilities.get(noisyCharacter + "-" + originalCharacter);
}
probabilitiesOfWords.put(word, probability);
}
// Trả về từ có khả năng cao nhất
String mostProbableWord = "";
double maxProbability = Double.MIN_VALUE;
for (String word : probabilitiesOfWords.keySet()) {
double probability = probabilitiesOfWords.get(word);
if (probability > maxProbability) {
maxProbability = probability;
mostProbableWord = word;
}
}
return mostProbableWord;
}
public static void main(String[] args) {
// Định nghĩa từ vựng và xác suất lỗi
Map<String, String> vocabulary = new HashMap<>();
vocabulary.put("hello", "xin chào");
vocabulary.put("world", "thế giới");
Map<String, Double> probabilities = new HashMap<>();
probabilities.put("0-1", 0.1);
probabilities.put("1-0", 0.1);
probabilities.put("0-0", 0.9);
probabilities.put("1-1", 0.9);
// Tạo hệ thống noisy channel
NoisyChannel system = new NoisyChannel(vocabulary, probabilities);
// Tạo từ vựng bị biến đổi
String noisyWord = "helloo";
// Phục hồi từ vựng bị biến đổi
String restoredWord = system.decode(noisyWord);
System.out.println("Từ vựng bị biến đổi: " + noisyWord);
System.out.println("Từ vựng được phục hồi: " + restoredWord);
}
}
KẾT QUẢ
Từ vựng bị biến đổi: helloo
Từ vựng được phục hồi: hello