20 Tháng Năm 2019
 
Diễn đànDiễn đànNhịp cầu ra thế...Nhịp cầu ra thế...Dịch về Y tế cộ...Dịch về Y tế cộ...Các bệnh thời sự- Cúm lợnCác bệnh thời sự- Cúm lợn
Trước Trước
 
Tiếp Tiếp
Bài mới
 02/09/2009 9:46 CH
 

Chào bác tuquy,

    Tôi kiểm tra lại TM của tôi thì thấy hoàn toàn đúng. Các câu này đúng là tôi dịch. Có lẽ bác BOCOHAN có trục trặc khi đồng bộ hóa.

Aiviet

Bài mới
 03/09/2009 4:57 CH
 
 Được sửa bở ndthien  vào 03/09/2009 5:02:03 CH

Chào các bác, sau khi thấy bác tuquy phản ánh về kết quả dịch trên Web BOCOHAN không đúng như nội dung mà bác aiviet đưa vào TM của Web BOCOHAN. Thay mặt những người tham gia phát triển sản phẩn này tôi đã bắt tay vào tìm hiểu nguyên nhân tại sao Web BOCOHAN lại “dở chứng”.

Để các bác tiện theo dõi tôi xin lấy một ví dụ mà bác tuquy phát hiện sai, đó là một bộ các câu sau:

-  “Many people with swine flu have had diarrhea and vomiting” -  tôi tạm gọi là câu X.

-  “Nhiều người bị cúm lợn bị tiêu chảy và nôn” -  tôi tạm gọi là câu Y.

-  “Gần như mọi người bị cúm bị ít nhất hai trong số các triệu chứng này” -  tôi tạm gọi là câu Z.

 Bác aiviet đã dịch câu X là Y. Thế nhưng khi đưa câu X này vào khung dịch  trên Web BOCOHAN và nhấn nút dịch thì thấy bên kết quả lại cho ra câu Z. Câu Z này có màu xanh dương, có nghĩa là cặp câu X-Z đã tồn tại trong TM.

 Bây giờ các bác nhấn vào ô “Gợi ý thêm”, lập tức bên dưới câu kết quả thấy hiện lên nút “Gợi ý”. Nhấn vào nút gợi ý thì ta thấy xuất hiện hai đáp án để cho mình lựa chọn gồm câu Y và câu Z, khi nhấn chọn câu Y thì cũng thấy nó cũng có màu xanh dương, tức là cặp câu X-Y cũng đã tồn tại trong TM.

Như vậy trong TM tồn tại hai cặp X-Y và X-Z chứ không phải là do “BOCOHAN web ráp câu không đúng ” như bác tuquy phỏng đoán.

Bây giờ chắc có bác tự hỏi “thế tại sao khi dịch xong mà chưa nhấn vào nút Gợi ý, kết quả không là Y mà lại là Z?”. Xin thưa rằng đó là một trong những đặc điểm hay của BOCOHAN – nó có chế độ ưu tiên khi đưa ra kết quả (cái này nếu bác nào quan tâm thì ta bàn sau…).

Lật lại vấn đề trên ta tự hỏi tại sao bác aiviet đưa vào TM của phần mềm BOCOHAN (phần mềm BOCOHAN Standard Edition 1.0/1.1 chạy trên máy tính cá nhân) cặp câu X - Y mà lại thấy có cả X – Z? Xin thưa rằng có hai nguyên nhân có thể xảy ra:

-          Một là: Lỗi về mặt kỹ thuật - lỗi khi chuyển TM của phần mềm lên TM của Web BOCOHAN.

-          Hai là: Do người dùng nào đó đã cố tình hoặc vô ý lưu cặp câu X-Z vào TM của Web BOCOHAN.

Việc kiểm tra hai nguyên nhân này không quá khó. Kết quả là do nguyên nhân thứ hai gây ra! Cụ thể là: Lúc 14 giờ 14 phút ngày 25/08/09 bác aiviet đưa vào CTM (TM của cộng đồng) cặp câu X-Y, sau đó hệ thống tự động lưu vào UTM (TM của bác aiviet). Tiếp đó, lúc 15 giờ ngày 31/08/09 có một bác (tôi tạm dấu tên) đưa vào CTM cặp câu X-Z…

 

Bài mới
 03/09/2009 6:23 CH
 
 Được sửa bở tuquy  vào 03/09/2009 8:51:05 CH

Chào bác ndthien,

Tôi cũng ít để ý tới chức năng "Gợi ý thêm". Hay là cho chức năng đó thành mặc định luôn đi.

Hoặc để cho BOCOHAN hay lên thì mình phải sort tập câu gợi ý đó dựa theo "điểm dịch" bằng cách dùng kết hợp:

  1. Độ chênh lệch số từ của câu tiếng Anh so với câu tiếng Việt: chẳng hạn câu 5 từ thì khó lòng mà dịch thành câu 20 từ được.
  2. Xem xét những từ không dịch được. Xét mấy câu sau:
    (A) I fly to Chicago.
    (B) Tôi bay tới Chicago.
    (C) Hôm nay tôi đi chơi.
    (D) Welcome to VIEGRID.
    (E) Chào mừng đến VieGrid.
    (F) Chào mừng đến Vietnam.
    => rõ ràng câu B có khả năng hơn câu C khi dịch từ câu A, tương tự cho câu DEF. Có thể xem từ Chicago ở đây là từ khóa (keyword) của A & B. Dễ dàng thấy các con số, dấu câu,... cũng có thể làm keyword  (ví dụ câu tiếng Anh có $100 thì khi dịch qua câu tiếng Việt vẫn là $100 hoặc 100) và còn nhiều thứ khác nữa. Tôi hay dùng cách này để tìm văn bản song ngữ trên BBC, VOA. 
  3. Dùng từ điển song ngữ Anh-Việt để tính điểm dịch.
  • Cho câu tiếng Anh đầu vào: input (chiều dài n)
  • Câu được dịch là tiếng Việt: output (chiều dài m)
  • Mỗi câu có nhiều từ, các punctuation,.. gọi chung là các token.
  • Đầu tiên các bác cứ việc tách từng token của input & output rồi dóng hàng ngang cho input, dọc cho output để lập 1 ma trận M (n,m). Ứng với mỗi (i, j) thuộc ma trận thì bác cứ tra từ điển, nếu TraTu(input[i])=output[j] thì tăng 1 điểm cho ma trận đó. Cứ tiếp tục cho hết i, j

    => mở rộng của cách 3 này chính là ý tưởng nguyên thủy của word-alignment trong SMT.

Có thể kết hợp (2) vào (3) để tăng k điểm cho những  trường hợp từ không được dịch, con số k đó có được sau khi đã thử đánh giá độ chính xác k từ testset. Ngoài ra cũng có thể sử dụng 1 số heuristic khác để tăng điểm hoặc trừ điểm cho (3): ví dụ như câu tiếng Anh có 1 dấu phẩy mà câu tiếng Việt có tới 2 dấu phẩy thì trừ 2 điểm. Hoặc các bác có thể sử dụng ngay mấy sentence pattern của BOCOHAN để chấm điểm luôn: ví dụ too...to nếu được dịch thành quá...đến nỗi thì tăng 2 điểm.

Tổng điểm sau khi thực hiện các tiêu chí trên sẽ được dùng để sắp xếp lại gợi ý của BOCOHAN => phần lớn những gợi ý sát sẽ nằm trên cùng.

Thời gian chạy của cả 3 cách này cũng nhanh nên sẽ dùng được cho BOCOHAN. Nếu BOCOHAN sử dụng các tiêu chí (1 & 3) trên thì câu Y sẽ được chọn thay vì Z, hoặc các bác có thể sử dụng cách khác miễn sao chọn được Y lên đầu là "ngon". BOCOHAN ưu tiên ráp X-Z trong khi đã có X-Y nên tôi thấy không "khoái" lắm.  Mặc dù sẽ thông minh như chủ, nhưng engine của BOCOHAN được làm cho thông minh chừng nào hay chừng đó. 

Trên đó chỉ là một vài ý tưởng sơ khởi nên còn có thể cải tiến được thêm nhiều. Các bác thảo luận thêm. 

Bài mới
 04/09/2009 7:28 SA
 

Trước tiên, xin phép được thay mt nhóm phát trin BOCOHAN rt cm ơn ý kiến đóng góp quý báu ca bác tuquy.

Bước đầu tôi nhận thấy các tiêu chí đánh giá của bác tuquy rất hay, chúng tôi sẽ nghiên cứu khả năng ứng dụng vào BOCOHAN. Hiện tại BOCOHAN cũng đã có các tiêu chí để đánh giá độ ưu tiên cho các phương án dịch. Tiêu chí đánh giá thì có thể có nhiều tuy nhiên không thể áp dụng tất cả chúng để đánh giá một cái cụ thể được; cần phải xác định độ ưu tiên của từng tiêu chí, sự mâu thuẫn giữa các tiêu chí với nhau,...

Mong các bác tiếp tục đóng góp để chúng tôi hoàn thiện BOCOHAN hơn và cũng là để chúng tôi phục vụ cộng đồng tốt hơn!

PS: Hình như chúng ta đang "chiếm đất" của chuyên mục "Dịch y tế cộng đồng - Cúm lợn" thì phải . Có lẽ nên nhờ bác Admin chuyển các bài liên quan đến chủ đề "BOCOHAN web ráp câu không đúng" sang chuyên mục "Công cụ hỗ trợ dịch BOCOHAN" để mọi người tham gia cho tiện.

 

Bài mới
 04/09/2009 10:19 CH
 
 Được sửa bở dovuhue  vào 04/09/2009 10:52:34 CH

Chào cả nhà, 

Theo tôi hiểu thì bác tuquy muốn dùng một tập các tiêu chí để  tính dồn điểm dịch: cộng thêm n điểm hay trừ bớt m điểm theo một tập các trọng số W nào đó hoặc giữ nguyên điểm khi thõa điều kiện nào đó. Sau khi chạy qua từng tiêu chí thì điểm dịch sẽ thay đổi, nếu nghĩ ra nhiều tiêu chí phù hợp thì điểm dịch càng phản ánh đúng câu được dịch hơn => mọi "tiêu chí mơ hồ" đều nhắm tới điểm dịch cụ thể để đánh giá cho cặp câu cụ thể. Độ ưu tiên của tiêu chí hay "mức độ quan trọng của tiêu chí" đều có thể được thể hiện bằng các trọng số trong W, hơn nữa có thể tìm được tập trọng số tối ưu cho W sao cho điểm dịch do máy chấm càng phù hợp với người chấm càng tốt (tunning). Như vậy việc xác định độ ưu tiên & loại trừ mâu thuẫn của các tiêu chí cũng có thể được làm một cách tự động thông qua bước tunning.

Có thể áp dụng tiêu chí 1 của bác tuquy để lọc ra những cặp câu bị chênh nhiều quá, sau đó mới dùng 2 & 3 để chấm điểm dịch.

Nếu dùng từ điển thì cũng nên nghĩ tới cách xử lý những biến thể (morphology) của một từ bởi vì từ điển không chứa tất cả morphology của từ. Do đó tôi đề xuất thêm tiêu chí thứ 4 để tính điểm

(4) Cơ bản cũng như cách 3, nhưng trước tiên các token của câu input phải được steam về nguyên gốc (dùng ngữ liệu WordNet kết hợp với thuật toán Porter). Đồng thời các mục từ tiếng Anh trong từ điển song ngữ Anh-Việt cũng phải được steam về gốc. Sau đó lấy điểm trung bình của 3 & 4. Ngoài ra, do tiếng Việt có từ kép nên các token của câu tiếng Việt phải được tokenize theo mức từ kép (Chào_mừng đến VIEGRID)

 Một số ý cần suy nghĩ thêm:

  • Bổ sung từ điển các cụm từ & tokenize theo cụm từ trong từ điển đó.
  • Có cần phải loại luôn mấy từ tầm thường (stop word) và mạo từ?
  • Sau khi ma trận được chạy thì có thể có những dòng/cột trống trên ma trận M(m, n) của 3 & 4. Những dòng/cột đó là những từ không dịch được bằng từ điển thì có nên trừ điểm?

Theo tôi, để khả chuyển (khả năng thêm bớt tập tiêu chí phù hợp) thì BOCOHAN nên dựa vào tập tiêu chí để tính ra điểm dịch rồi mới sort (chắc đây cũng là ý của bác tuquy thì phải 

ndthien đã viết

Trước tiên, xin phép được thay mt nhóm phát trin BOCOHAN rt cm ơn ý kiến đóng góp quý báu ca bác tuquy.

Bước đầu tôi nhận thấy các tiêu chí đánh giá của bác tuquy rất hay, chúng tôi sẽ nghiên cứu khả năng ứng dụng vào BOCOHAN. Hiện tại BOCOHAN cũng đã có các tiêu chí để đánh giá độ ưu tiên cho các phương án dịch. Tiêu chí đánh giá thì có thể có nhiều tuy nhiên không thể áp dụng tất cả chúng để đánh giá một cái cụ thể được; cần phải xác định độ ưu tiên của từng tiêu chí, sự mâu thuẫn giữa các tiêu chí với nhau,...

Mong các bác tiếp tục đóng góp để chúng tôi hoàn thiện BOCOHAN hơn và cũng là để chúng tôi phục vụ cộng đồng tốt hơn!

PS: Hình như chúng ta đang "chiếm đất" của chuyên mục "Dịch y tế cộng đồng - Cúm lợn" thì phải . Có lẽ nên nhờ bác Admin chuyển các bài liên quan đến chủ đề "BOCOHAN web ráp câu không đúng" sang chuyên mục "Công cụ hỗ trợ dịch BOCOHAN" để mọi người tham gia cho tiện.

Bài mới
 27/09/2009 9:29 CH
 

Chào cả nhà,

Tôi tìm được 1 loạt các bài báo hay nên post lên đây cho mọi người "thưởng thức" khi rỗi.

clair.si.umich.edu/clair/antho...

Bài mới
 27/09/2009 9:45 CH
 

Chào bác tuquy,

Đề nghị bác chuyển về mục Các công nghệ dịch hay CNTT với dịch thuật. Đây là mục Cúm lợn.

Cảm ơn bác

Aiviet

Bài mới
 27/09/2009 10:04 CH
 

Chào bác aiviet,

Xin lỗi, do tôi viết không rõ. Các bài báo đó không phải về dịch thuật cũng như dịch CNTT mà là một số cách tính "điểm dịch".

Tôi không có quyền xóa chính bài viết của mình. Nhờ bác admin xóa dùm bài viết.

Cám ơn,

aiviet đã viết:

Chào bác tuquy,

Đề nghị bác chuyển về mục Các công nghệ dịch hay CNTT với dịch thuật. Đây là mục Cúm lợn.

Cảm ơn bác

Aiviet

Bài mới
 27/09/2009 10:04 CH
 
 Được sửa bở tuquy  vào 27/09/2009 10:05:15 CH

Chào bác aiviet,

Xin lỗi, do tôi viết không rõ. Các bài báo đó không phải về dịch thuật cũng như dịch CNTT mà là một số cách tính "điểm dịch".

Tôi không có quyền xóa chính bài viết của mình. Nhờ bác admin xóa dùm bài viết.

Cám ơn,

aiviet đã viết:

Chào bác tuquy,

Đề nghị bác chuyển về mục Các công nghệ dịch hay CNTT với dịch thuật. Đây là mục Cúm lợn.

Cảm ơn bác

Aiviet

Trước Trước
 
Tiếp Tiếp
Diễn đànDiễn đànNhịp cầu ra thế...Nhịp cầu ra thế...Dịch về Y tế cộ...Dịch về Y tế cộ...Các bệnh thời sự- Cúm lợnCác bệnh thời sự- Cúm lợn