Mô phỏng thuật toán xác định độ liên quan giữa link và content trong pages

Đợt cập nhật penguin 2.0 vừa qua làm cho anh em trong cộng đồng SEO mất ăn mất ngủ, có lẽ thời kỳ của build link tay to thiên về số lượng sẽ không còn nữa, chúng ta phải bước vào 1 kỷ nguyên mới: Kỷ nguyên chất lượng link. Trên Search Engine Land tôi đã từng nghe một chuyên gia nói rằng với việc build link: Build link phù hợp hay là chết.

Với một chút kinh nghiệm về các thuật toán của google và đôi chút hiểu biết về toán học tôi xin đưa ra dự đoán của mình về cách mà google đánh giá link của bạn có phù hợp với nội dung của page đặt link hay không.

Để nghiên cứu chúng ta phải đưa về những điều kiện đơn giản và lý tưởng: tôi giả sử trang đặt link được gắn với từ khóa “Vietnam travel” có 3 link với anchor text dưới đây, chúng ta sẽ xác định chỉ số liên hệ của mỗi link đó với từ khóa gốc

vietnam hotels
thailand travel
Vietnam girl

Trong thế giới của từ khóa thì các từ luôn có những mối hiên hệ theo các chiều khác nhau: ví dụ “đá” và “đấm” đều là những động từ, “khách sạn” và resort đều thuộc lĩnh vực du lịch. Để cho dễ dàng đánh giá độ liên quan ta đánh giá theo những chiều cụ thể. Để đánh giá sự phù hợp của từ “Vietnam travel” với 3 từ kia tôi sẽ đánh giá theo 2 chiều Ngành nghề và Địa lý:

Vietnam hotel:
ngành nghề: 1  – cùng lĩnh vực du lịch
địa lý: 1 – cùng vùng địa lý Việt Nam

Thailand travel:
ngành nghề: 1 – cùng lĩnh vực du lịch
địa lý: 5 – khác đất nước

Vietnam girl
ngành nghề: 5 – khác lĩnh vực
địa lý:1 – cùng vùng địa lý Việt Nam

Để tính khoảng cách từ 1 điểm đến gốc tọa độ 2 chiều chúng ta dùng công thức đơn giản:

Như vậy độ liên quan của 3 link trên trang gốc với từ khóa “Vietnam travel” như sau:

“Vietnam hotel” là từ gần nhất với từ khóa gốc của trang đặt link với từ “Vietnam travel”

Đây chỉ là một mô hình đơn giản trong thực tế Google có thể có hàng nghìn chiều và với một khối lượng từ khóa khổng lồ thì việc xác định được chỉ số liên hệ giữa link và nội dung page đặt link sẽ diễn ra phức tạp hơn. Với google họ cần phải dùng hàng nghìn hàng vạn máy tính để xác định các thông số này còn với chúng ta việc xác định đơn giản hơn nhiều, đọc qua 3 từ là bạn có thể đoán ra ngay từ nào có mối liên hệ gần hơn. Bản chất thuật toán của google là mô tả lại những hoạt động của con người nên anh em SEOs cứ yên tâm dù thế nào thì máy tính nó vẫn ngu hơn con người 😀

Hi vọng rằng với chút ít chia sẻ của mình về vấn đề thuật toán giúp các bạn nhận ra rõ hơn sự quan trọng của việc tạo link phù hợp.

14 thoughts on “Mô phỏng thuật toán xác định độ liên quan giữa link và content trong pages

  1. Tùng

    A Châu cho e hỏi: Việc đánh số 1 & 5 kia có thang bậc k hay chỉ là số lấy để ví dụ ạ? Nếu có cho e thông tin chi tiết được k ạ?

    Reply
    1. chaucd Post author

      Google dùng các thuật toán LSI để đánh giá các thông số này, và cũng có khi dùng người để xác định

      Reply
  2. Đặng Thế Phương

    Bài viết của anh rất giá trị. Theo như bài viết trên của anh thì chỉ mới xác định yếu tố tiêu đề từng link thì phải ? Theo em để chuẩn xác hơn, ta sẽ tính giá trị của từng link thông qua các yếu tố : các thẻ meta, heading, bold….
    và một số yếu tố khác, em kết luận như vậy vì : giả sử như trong link “VietNam hotel” có chứa nội dung về “Vietnam travel” thì giá trị liên kết sẽ khác đi rất nhiều.
    Bên trên là ý kiến cá nhân của em, mong nhận sự chỉ giáo từ anh.
    Thân ái !

    Reply
    1. chaucd Post author

      Trong bài viết anh đơn giản hóa các yếu tố để làm rõ vấn đề, trong thực tế thì GG đánh giá mọi yếu tố chứ

      Reply
  3. Tai SQ

    Đọc bài viết của bạn mình mới nhớ ra ở buổi đại hội seo năm 2013 cũng có một nhận vật chia sẻ về phương pháp xác định khả năng dính peguin bằng toán học ,, 😀

    Reply
  4. kimhue

    thấy cá tiền bối chia sẻ việc viết nhật kí và hôm nay được tiền bối chỉ dạy em nên em nghĩ việc này thiết thực

    nhưng nếu ko có nhật kí mà dựa trên các số lượng bài viết của mình liệu có biết được webstie biến mất do quá trình mình làm ko hả các tiền bối

    Reply

Leave a Reply

Your email address will not be published. Required fields are marked *