Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh-Việt Luận văn cử nhân tin học

  • Phát hành tailieutonghop
  • Đánh giá
  • Lượt tải 73
  • Sử dụng Miễn phí
  • Dung lượng 1.013,8 KB
  • Cập nhật 06/02/2013

Giới thiệu

LUẬN VĂN CỬ NHÂN TIN HỌC

ĐỀ TÀI:
NGHIÊN CỨU VÀ CÀI ĐẶT BỘ GÁN NHÃN TỪ LOẠI CHO SONG NGỮ ANH-VIỆT

Ngày nay, khi khoa học công nghệ phát triển hết sức mạnh mẽ, yêu cầu nắm bắt thông tin về khoa học, kỹ thuật, công nghệ nhanh chóng và chính xác là hết sức cần thiết. Hiện nay, đa số các tài liệu đều được viết bằng tiếng Anh. Do đó, việc chuyển các tài liệu này về tiếng Việt là điều rất cần thiết. Nếu làm được điều này, mọi người sẽ có được nhiều cơ hội tiếp cận với các thông tin tri thức mới. Nhưng công việc này tương đối khó khăn mặc dù hiện nay có khá nhiều hệ dịch tự động (như dịch trực tiếp, dịch qua ngôn ngữ trung gian, dịch dựa trên luật hoặc dịch dựa trên thống kê…) nhưng đa số các các hệ dịch này đều chưa đạt kết quả cao.

Do đó, việc cải tiến chất lượng các hệ dịch máy luôn được quan tâm. Hiện nay, hệ dịch máy dựa trên chuyển đổi cú pháp được đánh giá khá cao. Hệ dịch máy này bao gồm khá nhiều giai đoạn như tiền xử lý, gán nhãn từ loại, phân tích hình thái, phân tích cú pháp, chuyển đổi trật tự từ, xử lý ngữ nghĩa,… Dịch máy là một qui trình tương đối phức tạp, do vậy, trong luận văn này chúng tôi chỉ tập trung giải quyết một bài toán trong hệ dịch máy này, đó là giai đoạn gán nhãn từ loại. Đây là một bước cơ sở, làm nền tảng cho các giai đoạn sau. Kết quả của việc gán nhãn từ loại sẽ ảnh hưởng tới các giai đoạn khác. Trong luận văn này, ngoài việc cố gắng cải tiến kết quả của gán nhãn từ loại, chúng tôi còn sử dụng các thông tin có được sau khi gán nhãn từ loại để xây dựng một ngữ liệu về từ loại cho tiếng Việt. Nó sẽ giúp tiết kiệm rất nhiều thời gian và chi phí trong việc xây dựng ngữ liệu tiếng Việt, và ngữ liệu được tạo ra sẽ là nguồn dữ liệu vô cùng quý giá phục vụ cho các mục đích nghiên cứu về tiếng Việt khác.

CHƯƠNG I: TỔNG QUAN

Trong chương này, chúng ta sẽ tìm hiểu tổng quan về gán nhãn từ loại và tầm quan trọng của gán nhãn từ loại trong xử lý ngôn ngữ từ loại nói chung và dịch máy nói riêng.

1.1 Giới thiệu

Từ trước đến nay, dịch máy luôn là một bài toán rất khó do ngôn ngữ tự nhiên rất phức tạp. Mặc dù cho đến nay đã có rất nhiều cải tiến nhằm tăng chất lượng dịch máy nhưng kết quả đạt được vẫn còn tương đối hạn chế. Dịch máy là một quá trình khá phức tạp, gồm nhiều giai đoạn khác nhau như tiền xử lý, gán nhãn từ loại, phân tích cú pháp, chuyển đổi cú pháp, xử lý ngữ nghĩa…

Các giai đoạn này đều ảnh hưởng rất lớn đến kết quả của quá trình dịch máy. Gán nhãn từ loại là một giai đoạn khá quan trọng trong dịch máy. Nó có ảnh hưởng to lớn đến kết quả của các giai đoạn sau nó cũng như kết quả dịch máy. Việc gán nhãn từ loại chính xác không những ảnh hưởng đến kết quả của dịch máy, nó còn ảnh hưởng rất lớn đến kết quả của các bài toán khác trong xử lý ngôn ngữ tự nhiên, khai khoán dữ liệu như bài toán tìm từ đồng nghĩa, gần nghĩa, bài toán trích chọn thông tin, bài toán phân loại, làm chỉ mục…

1.2 Tổng quan về gán nhãn từ loại

1.2.1 Gán nhãn từ loại là gì?

Để hiểu rõ hơn về gán nhãn từ loại là gì thì trước tiên, chúng ta cần phải biết một số khái niệm về nhãn từ loại. Vậy nhãn từ loại là gì? Trong một câu, mỗi từ đóng một vai trò nhất định. Để thể hiện chức năng ngữ pháp của mỗi từ, người ta sử dụng nhãn từ loại. Ví dụ như trong câu tiếng Anh sau: I want to book a book. Từ “book” có hai nhãn từ loại là động từ và danh từ. Hoặc trong câu tiếng Việt sau: Tôi đi học. thì nhãn từ loại của từ “tôi” là đại từ, “đi học” là động từ Trong luận văn này, chúng tôi chỉ tập trung vào việc gán nhãn cho câu tiếng Anh. Do đó, trong phần này chúng tôi sẽ chỉ đề cập các nhãn từ loại cho tiếng Anh. Hiện nay trên thế giới có khá nhiều bộ nhãn từ loại. Trong luận văn này, chúng tôi sử dụng bộ nhãn của Pen Tree Bank, môt bộ nhãn khá phổ biến hiện nay. Dưới đây là một số nhãn trong bộ nhãn này: IN Giới từ(Preposition or subordinating conjunction) JJ Tính từ(Adjective) NN Danh từ, số ít hay không đếm được(Noun, singular or mass) NP Danh từ riêng số ít(Proper noun, singular) RB Trạng từ(Adverb) VB Động từ dạng nguyên thể không “to”(Verb, base form) VBP Động từ không phải ngôi 3 số ít hiện tạ (Verb, non-3rd person singular present ) (Tham khảo thêm ph ần ph ụ lục A ).

Trong một câu, mỗi từ đóng một vai trò ngữ pháp khác nhau, do đó tuỳ theo ngữ cảnh trong câu mà mỗi từ có một loại nhãn thích hợp. Nhưng để xác định được nhãn từ loại của các từ trong một câu không đơn giản, do đa số các từ đều có nhiều từ loại khác nhau, tuỳ vào ngữ cảnh mà chúng ta có thể chọn nhãn từ loại thích hợp cho từ. Đây chính là công việc chủ yếu của gán nhãn từ loại, tìm nhãn từ loại chính xác cho các từ trong một câu.

Download tài liệu để xem thêm chi tiết