Biểu diễn văn phạm pcfg probabilistic context-free grammar năm 2024
TÛm tắt Trong b‡i n‡y, ch ̇ng tÙi nghiÍn cứu phương ph·p xử l ̋ hiện tượng nhập nhằng v‡ c·c hiện tượng c ̇ ph·p phụ thuộc từ trong ph‚n tÌch c ̇ ph·p tiếng Việt. Ch ̇ng tÙi đề xuất việc x‚y dựng một cÙng cụ ph‚n tÌch c ̇ ph·p dựa trÍn văn phạm phi ngữ cảnh với luật cÛ chứa thÙng tin về x·c suất v‡ từ v ựng. X·c suất luật được tÌnh dựa trÍn tập ngữ liệu mẫu, sử d ụng mÙ hÏnh bigram, kết hợp với phương ph·p l‡m trơn nội suy tuyến tÌnh để giảm ảnh hưởng của từ cụ thể đối với x·c suất. Việc ph‚n tÌch c ̇ ph·p c‚u được tiến h‡nh dựa trÍn từ trọng t‚m của c‚u (từ điều khiển trung t‚m). C·c kết quả đạt được bước đầu cho thấy c·ch tiếp cận n‡y khả thi. Show Từ kho· : xử l ̋ ngÙn ngữ tự nhiÍn, ph‚n tÌch c ̇ ph·p, x·c suất, văn phạm phi ngữ cảnh 1. Giới thiệu Ph‚n tÌch c ̇ ph·p l‡ một vấn đề cơ bản v‡ quan trọng trong xử l ̋ ngÙn ngữ tự nhiÍn. Với một cÙng cụ ph‚n tÌch c ̇ ph·p tốt, ch ̇ng ta cÛ thể tÌch hợp v‡o nhiều ứng dụng trong xử l ̋ ngÙn ngữ tự nhiÍn như dịch m·y, tÛm tắt văn bản, c·c hệ thống hỏi đ·p, Ö để tăng tÌnh chÌnh x·c của c·c ứng dụng đÛ. Hiện nay, c·c cÙng cụ ph‚n tÌch c ̇ ph·p tiếng Việt đ„ đạt được một số kết quả nhất định. Tuy nhiÍn, phần lớn c·c kết quả đạt được mới dừng ở một số trường hợp c‚u cơ bản như c‚u đơn v‡ c·c c‚u ghÈp đơn giản. Hiện tượng nhập nhằng v‡ những trường hợp đặc biệt trong ph‚n tÌch c‚u vẫn chưa được giải quyết thoả đ·ng. Trong b‡i n‡y, ch ̇ng tÙi sẽ đề xuất c·ch giải quyết c·c vấn đề đÛ thÙng qua văn phạm phi ngữ cảnh cÛ bổ sung thÙng tin về từ vựng v‡ x·c suất v‡o luật c ̇ ph·p. Việc ph‚n tÌch c ̇ ph·p c‚u được tiến h‡nh dựa trÍn từ trọng t‚m của c‚u, sử dụng một phương ph·p cải tiến của mÙ hÏnh x·c suất thống kÍ Collins [5]. Trong phần sau, ch ̇ng tÙi sẽ trÏnh b‡y một số v ấn đề cÚn tồn tại trong ph‚n tÌch c ̇ ph·p tiếng Việt v‡ đề xuất c·ch giải quyết cho c·c vấn đề đÛ. Phần 3 giới thiệu một số nÈt chÌnh trong việc sử dụng văn phạm phi ngữ c ảnh từ vựng ho· kết hợp x·c suất (Lexicalized Probability Context Free Grammar ñ LPCFG) v‡o ph‚n tÌch c ̇ ph·p tiếng Việt. C·ch tÌnh x·c suất luật d ̆ng trong LPCFG được thảo luận phần 4. Tiếp theo, ch ̇ng tÙi sẽ mÙ tả thuật to·n ph‚n tÌch c ̇ ph·p sử dụng LPCFG. Phần 6 giới thiệu một số kết quả đạt được. Cuối c ̆ng l‡ kết luận v‡ hướng ph·t triển của nghiÍn cứu n‡y. 2. Một số vấn đề trong ph‚n tÌch c ̇ ph·p tiếng Việt 2. Hiện tượng nhập nhằng trong ph‚n tÌch c ̇ ph·p tiếng Việt Trong ph‚n tÌch c ̇ ph·p tiếng Việt, hiện tượng nhập nhằng xảy ra ở nhiều mức, từ mức từ, từ loại đến mức c ̇ ph·p c‚u. Điều n‡y dẫn đến một c‚u cÛ thể được ph‚n tÌch theo nhiều c·ch kh·c nhau, trong khi chỉ cÛ một v‡i c·ch ph‚n tÌch trong số đÛ đ ̇ng. Trong b‡i n‡y, ch ̇ng tÙi ch ̇ trọng giải quyết vấn đề ở m ức c ̇ ph·p. Qua khảo s·t việc ph‚n tÌch c ̇ ph·p c·c c‚u tiếng Việt, ch ̇ng tÙi thấy cÛ hai loại nhập nhằng. Một loại nhập nhằng do c‚u cÛ thể hiểu theo nhiều nghĩa kh·c nhau dẫn đến c·c c‚y c ̇ ph·p kh·c nhau. Trong trường hợp n‡y, mỗi c·ch hiểu sẽ ứng với một c‚y c ̇ ph·p v‡ c·c c‚y c ̇ ph·p đÛ đều được chấp nhận. VÌ dụ c‚u ì TÙi nhÏn thấy anh Hải ở tầng hai î cÛ thể hiểu theo hai c·ch. C·ch thứ nhất, khi tÙi nhÏn thấy anh Hải thÏ anh ấy đang ở tầng hai. Trong trường hợp n‡y, ở tầng hai bổ nghĩa cho danh ngữ anh Hải. C·ch hiểu thứ hai, khi tÙi đứng ở tầng hai thÏ tÙi nhÏn thấy anh Hải. Trong trường hợp n‡y, ở tầng hai l‡ bổ ngữ của tÙi nhÏn thấy anh Hải. Với loại nhập nhằng thứ hai, c‚u chỉ cÛ một nghĩa nhưng bộ ph‚n tÌch c ̇ ph·p vẫn tạo ra nhiều c‚y c ̇ ph·p, trong đÛ chỉ cÛ một c‚y đ ̇ng. L ̋ do của sự nhập nhằng n‡y l‡ qu· trÏnh ph‚n tÌch c ̇ ph·p đ„ lược bỏ ngữ nghĩa từ/ngữ m‡ chỉ quan t‚m đến nh„n c ̇ ph·p của ch ̇ng, dẫn đến nhiều luật c ̇ ph·p cÛ thể ·p dụng để ph‚n tÌch c‚u. VÌ dụ, với c‚u ì HÙm nay trời mưa î, tập luật c ̇ ph·p thuộc văn phạm phi ngữ cảnh (Context Free Grammar ñ CFG) 1 cần để ph‚n tÌch c‚u n‡y l‡:
|