Liệu Google có thể dùng Entropy để chống spin content ?

Trong bài viết này có sử dụng môt số khái niệm toán học có thể xa lạ với đa số các bạn làm SEO vì vậy tôi sẽ cố gắng sử dụng các ví dụ minh họa mang tính chất giản tiện hóa để giúp các bạn SEOer có thể hiểu dễ dàng hơn, những điều này có thể không hoàn toàn chính xác trong học thuật.

1. Entropy là gì

Entropy là một thông số để đo độ hỗn loạn của một văn bản (có thể hiểu là 1 bài viết trên web). Để hiểu rõ vấn đề này có thể so sánh với các chỉ số chứng khoán hàng ngày chúng ta nghe rất nhiều như chỉ số VN Index tăng, Down John giảm, Nickey đứng im,… mặc dù không thông hiểu về ngành tài chính nhưng chúng ta đều có cảm nhận là thị trường chứng khoán Việt Nam đang tăng, chứng khoán Mỹ giảm còn kinh tế Nhật thì đang đứng im. Có được nhận định nhanh như vậy là do các nhà toán học đã tổng hợp diễn biến phức tạp của thị trường chứng khoán vào một chỉ số.

Với Entropy cũng vậy khi đưa ra một văn bản nó sẽ đánh giá tổng hợp bằng một chỉ số sự hỗn loạn (hay sự khó đoán) của văn bản đó. Ví dụ cho 2 văn bản chỉ gồm 2 từ

Văn bản thứ nhất bắt đầu bằng từ “Có” ta có thể suy ra văn bản này có thể là:

có tiền
có tài
có đức
có thai
có nghĩa
có lý
có tật
…..

Văn bản thứ hai bắt đầu bằng từ “khúc” thì có thể suy ra văn bản này có thể là:

khúc khuỷu
khúc triết

Chúng ta thấy rằng văn bản thứ nhất bạn sẽ khó đoán hơn rất nhiều so với văn bản 2, và như vậy Entropy 1 > Entropy 2

2. Google có thể dùng entropy để chống spin content như thế nào

Mỗi ngôn ngữ khác nhau sẽ có entropy trung bình khác nhau và mỗi một văn bản sẽ ứng với 1 entropy khác nhau, một bài viết văn học do tác giả phải dùng nhiều từ ngữ và các thủ pháp văn học sẽ có entropy cao hơn so với một văn bản kỹ thuật với mục đích càng dễ hiểu càng tốt. Tuy nhiên trong một lĩnh vực sẽ có một khoảng giá trị trung bình nào đó. Giả sử:

Lĩnh vực văn học: Entropy 0.8 – 0.9
Lĩnh vực y tế: Entropy 0.5 – 0.6

Điều gì xảy ra khi bạn spin content? dù spin bằng bất cứ cách nào thì một cách logic bạn sẽ làm tăng entropy của một văn bản. Tại sao ư? với một văn bản thông thường thì bạn có thể dễ dàng đoán hơn hẳn một văn bản qua spin. Quy lại ví dụ với văn bản số 2:

khúc triết

giá sử bạn dùng phần mềm spin content từ “triết” bạn thấy gần nghĩa với từ “lý” như vậy văn bản 2 sau khi spin có thể là:

khúc triết
khúc khuỷu
khúc lý

Rõ ràng entropy của văn bản này đã tăng lên do quá  trình spin content của bạn. Và chỉ với việc đo entropy Google có thể dễ dàng tìm ra bài viết nào spin content.

3. Tại sao spin content vẫn sống?

Để phạt văn bản của bạn vì tội spin thì Google phải có một thang điểm Entropy nhất định, ví dụ trong tiếng Anh lĩnh vực văn học thì entropy = 0.8 – 0.9 nếu gặp một bài văn tiếng anh có entropy >0.9 thì sẽ ăn phạt. Nếu bạn spin content nhưng do ăn may entropy = 0.89 thì bạn sẽ thoát, nhưng chắc bạn sẽ không ăn may nhiều đâu 😀

Trên thế giới có hàng trăm ngôn ngữ và mỗi ngôn ngữ thì có hàng nghìn lĩnh vực khác nhau, mỗi lĩnh vực lại có một khoảng entropy đặc thù khác nhau mà để phân loại văn bản và tìm ra chỉ số entropy mỗi lĩnh vực không hề dễ dàng. Vì vậy nếu bạn spin content một văn bản tiếng Anh thì sẽ dễ bị Google phạt hơn nhiều so với tiếng Việt.

Tại sao? vì đơn giản Google là của Mỹ và họ sẽ thuận lợi nhất với việc phân tích tiếng Anh còn tiếng Việt có lẽ lợi ích quá bé nhỏ đối với Google để họ đầu tư phân tích chi tiết để tìm ra khoảng entropy ứng với từng lĩnh vực trong ngôn ngữ tiếng Việt.

4. Dân SEOer chúng ta phải làm gì?

Nếu bạn đang xây dựng một website hướng tới sự bền vững: hãy bỏ ngay chiến thuật spin content ra khỏi đầu mình
Nếu bạn đang SEO chỉ với mục đích kiếm tiền: nhanh tay hớt váng đi trước khi Google sờ đến 😀

Làm SEO không ai hoàn toàn Black hat mà cũng chẳng ai thuần túy White hat, hi vọng rằng chia sẻ của tôi sẽ giúp cho bạn hoạch định tốt hơn cho kế hoạch SEO của mình

Chú ý: Giả thuyết Google sử dụng entropy để chống spin content chỉ là suy đoán của tôi, tuy nhiên bạn có thể hiểu là GG không dùng cách này thì sẽ dùng cách khác và cách họ tiếp cận vấn đề khác xa so với suy nghĩ của chúng ta.

Tài liệu tham khảo:

– http://vi.wikipedia.org/wiki/L%C3%BD_thuy%E1%BA%BFt_th%C3%B4ng_tin

– http://doc.edu.vn/tai-lieu/de-tai-entropy-ung-dung-trong-kinh-te-va-loi-di-nao-cho-viet-nam-33172/

15 thoughts on “Liệu Google có thể dùng Entropy để chống spin content ?

  1. olalavui

    Có vẻ điều này hơi khó ở VN nếu như đoạn spin phù hợp với nội dung của cả bài viết đăng lên thì thang điểm trên đâu thể nào áp dụng đc 🙂

    Reply
    1. chaucd Post author

      Entropy là thông số đo sự hỗn loạn nên khi văn bản viết không tự nhiên thì độ hỗn loạn này tăng lên

      Reply
  2. phongkhamdakhoathienhoa

    em nghĩ việc chống spincontent hiện nay của gg ở vn chắc chưa hoạt động, anh em dù sao thì cũng nên có nội dung tốt thì hơn để dự phòng sau này nếu gg hoạt động

    Reply
    1. chaucd Post author

      Google sẽ có những cách tiếp cận khác để chống lại thôi. Nên để xây dựng 1 site bền vững thì tốt nhất là content đừng spin

      Reply
  3. du hoc canada

    Nếu lạm dụng spin content thì sẽ dễ bị google phạt, thích hợp cho mấy bác đi spam 🙂 , bài viết rất hay, giúp mình hiểu thêm nhiều vấn đề của việc dùng tool spin content….thanks thớt.

    Reply

Leave a Reply

Your email address will not be published. Required fields are marked *