Thesaurus một module quan trọng cuả Goolge

Bạn vào google và gõ “Ket qua so so” google sẽ trả lại cho bạn trang kết quả kèm theo thông điệp “Hiển thị kết quả cho ket qua xo so”. Ồ Google thật là thông minh nó hiểu được bạn đang muốn tìm kiếm kết quả xổ số nhưng đánh sai chính tả và nó tự tìm cho bạn kết quả đúng. Đứng đằng sau sự thông minh này của Google là một module ít người biết đến có tên là Thesaurus, dịch ra tiếng việt thì Thesaurus gần nghĩa với từ “Từ điển” tuy nhiên về ngữ nghĩa thì phức tạp hơn nhiều  nên tốt nhất cứ để nguyên tên tiếng Anh cho đỡ phải giải thích.

Những phần mềm thesaurus ra đời khá lâu trước khi Google thành lập, nó ra đời để đáp ứng nhu cầu tìm kiếm sách của các thư viện khắp nước Mỹ. Khác nhiều so với những thuật toán xếp hạng và các module khác của Google về cơ bản thesaurus hoạt động cơ bản dựa vào con người, các thuật toán cũng được sử dụng nhiều nhưng chỉ dừng lại ở vai trò hỗ trợ. Để dễ hiểu chúng ta sẽ theo case study là từ “Ket qua so so”

Lúc đầu Google không thể hiểu được “Ket qua so so” là cụm từ viết sai chính tả của “Ket qua so xo” nhưng khi nhiều người search như vậy bộ lọc của Thesaurus sẽ gửi từ khóa “Ket qua so so” đến một nhân viên Google phụ trách phần tiếng Việt, nhân viên này sẽ nhận ra ngay đây là từ viết sai chính tả của “Ket qua so xo” và anh/chị ta sẽ lưu ngay từ ngày vào trong dữ liệu trong Thesaurus và từ đó trở đi nếu ai đó gõ “Ket qua so so” họ đều nhận được kết quả chính xác.

Ví dụ trên chỉ là chức năng phát hiện những từ viết sai chính tả, một chức năng đơn giản nhất của thesaurus, ngoài khả năng trên thì thesaurus còn có chức năng: tìm từ gần nghĩa, từ trái nghĩa, khái niệm rộng và khải niệm hẹp… Tóm lại nó là một phần mềm quản lý từ ngữ rất phức tạp.

Khi tìm kiếm một cụm từ ở bên dưới trang kết quả tìm kiếm bạn sẽ thấy “Các tìm kiếm liên quan đến ket qua xo so”, đó là những cụm từ gần nghĩa được thesaurus lưu trữ lại và gợi ý cho người sử dụng.

Hiện nay các thuật toán LSI và một số thuật toán content khác giúp Google tìm ra mối liên hệ giữa các từ ngữ, tuy nhiên về khả năng xử lý ngôn ngữ thì máy tính không bao giờ tốt bằng con người vì vậy dù rất giỏi thuật toán thì Google vẫn phải phụ thuộc vào đội ngũ nhân viên ngôn ngữ vẫn đang ngày đêm âm thầm phân tích và quản lý hàng triệu cụm từ để giúp cho người dùng dễ dàng tìm kiếm hơn.

Hiểu sâu được cơ chế hoạt động của thesaurus sẽ giúp cho SEOer lập được kế hoạch từ khóa hiệu quả hơn và chú ý hơn đến việc cảm nhận sự ảnh hưởng của các anchor text liên quan đến từ khóa chính. Tuy nhiên nhiên đây là một hệ thống phần mềm khá phức tạp nên có lẽ chúng ta chỉ cần hiểu khái niệm và lưu ý về các key liên quan là đủ cho công việc.

Tài liệu tham khảo: Information Architecture – Richard Saul Wurman

Leave a Reply

Your email address will not be published. Required fields are marked *