Phỏng vấn Matt Cutts – chuyên gia của Google (P1)

Matt Cutts là kỹ sư phần mềm của Google từ năm tháng 1/2000. Trước khi làm việc cho Google, anh đã hoàn thành đề tài nghiên cứu của mình về đồ họa máy tính tại trường Đại học North Carolina ở Chapel Hill. Ngoài ra anh cũng đã tốt nghiệp thạc sỹ tại trường UNC – Chapel Hill và cử nhân toán học và canh nghệ tại trường Đại học Kentucky.

Matt là tác giả của phần mềm Safe Search là bộ lọc hữu hiệu phục vụ cho Google. Ngoài kinh nghiệm làm việc ở Google, Matt còn nắm giữ những thanh tin tối mật khi làm việc cho Bộ Quốc Phòng Mỹ và anh cũng làm việc cho một công ty game. Anh chia se rằng Google là một trong những công việc thú vị nhất của anh cho tới nay.

Hiện nay Matt đang quản lý đội Webspam cho Google. Matt nói về những vấn đề liên quan tới Webspam trên blog của mình.

Nội dung cuộc phỏng vấn

Enric Enge: Chúng ta hãy cùng tìm hiểu khái niệm “crawl budget”. Theo tôi được biết thì Googlebot sẽ đi tới các website và tính toán số lượng trang nó sẽ phải Index trong một ngày và nó sẽ rời đi khi đã hoàn thành công việc.

Matt Cutts: Tôi sẽ cố gắng nói trình bày theo một cách khác cho dễ hiểu. Điều đầu tiên chúng ta nên nhớ rằng sẽ không có bất cứ một điều nào giống như “indexation cap”. Rất nhiều người nghĩ rằng một domain chỉ được Index một lượng trang nhất định. Nhưng googlebot không hoàn toàn làm việc như thế.

“…số lượng trang mà chúng tôi Crawl tương ứng với Pagerank của trang đó”

Cũng không có một giới hạn nào cho việc crawl. Cách tốt nhất để nắm được vấn đề này là chúng ta nên hiểu số lượng trang được Index tương ứng với Pagerank. Chính vì thế nếu bạn có nhiều liên kết tới trang chủ của bạn, chúng tôi sẽ crawl trang đó. Sau đó trang chủ của bạn có thể liên kết tới rất nhiều những trang khác và những trang đó sẽ có được Pagerank. Chúng tôi cũng sẽ crawl luôn những trang đó. Tuy nhiên, khi trang của bạn càng sâu thì đồng nghĩa với việc Pagerank của bạn sẽ có xu hướng giảm xuống.

Một cách lý giải khác là những trang có Pagerank thấp trong website của bạn sẽ phải cạnh tranh với rất nhiều những trang khác có cùng Pagerank hoặc có Pagerank cao hơn. Có rất nhiều trang trong website của bạn có Pagerank rất thấp hoặc bằng 0. Những trang có nhiều liên kết thường được nhận ra và crawl khá nhanh. Những trang có Pagerank thấp có xu hướng được crawl không thường xuyên.

Một điều cũng vô cùng thú vị khi nghiên cứu thuật ngữ “crawl budget” là mặc dù không có bất cứ một giới hạn nào trong crawl nhưng vẫn có khái niệm “host load”. Host load là số lượng kết nối đồng thời mà server có thể xử lý được. Tưởng tượng rằng website của bạn chỉ có thể xử lý 1 kết nối cùng 1 lúc. Điều này chỉ cho phép googlebot lấy 1 trang tại 1 thời điểm và dẫn tới việc “host load” sẽ rất thấp. Trong khi đó có một số trang như Facebook hoặc Twitter có thể có “host load” rất cao vì cùng một lúc các website này cho phép thực hiện nhiều kết nối.
Trang của bạn có thể ở trong một host ảo với rất nhiều website khác cùng một địa chỉ IP. Về mặt lý thuyết, website của bạn sẽ bị hạn chế về số lượng trang googlebot crawl. Nếu chúng ta chỉ có thể lấy ra 2 trang từ 1 website vào một thời điểm và chúng ta chỉ có thể crawl chúng vào một thời điểm cụ thể, sẽ đặt ra một câu hỏi liệu chúng ta có thể lấy được bao nhiêu trang từ host đó.

Eric Enge: Chính vì vậy ở đây anh sẽ có hai nhân tố. Một là Pagerank, từ đây chúng ta có thể tính được số lượng trang có thể crawl được trên website. Nhưng “host load” cũng có thể ảnh hưởng tới kết quả của kết quả này.

Matt Cutts: Đúng như vậy. Cho tới nay, có một lượng lớn các website đứng ở vị trí hàng đầu mà Pagerank và những nhân tố khác có thể quyết định việc chúng ta sẽ đi sâu vào nghiên cứu website này như thế nào.Tuy nhiên “host load” cũng có thể có những ảnh hưởng nhất định với một website. Điều này dẫn tới vấn đề những nội dung trùng lặp. Tưởng tượng rằng chúng ta kiểm tra 3 trang từ 1 website và phát hiện ra rằng hai trang kia lại là bản sao của trang thứ 3. Chúng ta sẽ loại hai trang kia và chỉ giữ lại một trang. Đó là lý do tại sao nội dung của các trang có vẻ ít. Chính vì thế chúng ta có thể sẽ kiểm tra nhiều tới mức có thể từ 1 trang.

Nếu mà “host load” của bạn bị giới hạn, bạn chỉ có một lượng hữu hạn các trang đượng Crawl do giới hạn của webserver, khi bạn có những trang trùng lặp chúng tôi sẽ loại bỏ những trang đó điều này đồng nghĩa với việc bạn bỏ lỡ cơ hội có những trang có nội dung đặc biệt, chất lượng tốt được Index.

Eric Enge: Chính vì chi phí cho những trang có nội dung giống nhau sẽ lãng phí “crawl budget”.

Matt Cutts: Đúng như vậy. Có một ý kiến cho rằng nếu nếu bạn có một lượng Pagerank cụ thể, chúng tôi sẽ kiểm tra nhiều website đó. Nhưng một số trang có thể bị loại và đó là một kiểu lãng phí. Điều này cũng có thể xảy ra ở host load khi chúng ta không thể truy cập rất nhiều trang
.
Eric Enge: Một khái niệm nữa mà chúng ta cần đề cập tới đó là khái niệm “link juice”. Tôi sẽ sử dụng thuật ngữ Pagerank nhưng tổng quát hơn sẽ được hiểu là “link juice”. Thuật ngữ “link juice” ở đây có thể được hiểu là có những mối liên hệ với những khái niệm như sự tin cậy và uy tín của thuật ngữ Pagerank. Khi bạn liên kết từ một trang tới trang bản sao, bạn đang lãng phí Pagerank của mình. Điều đó có đúng không?

Matt Cutts: Cũng có thể hiểu theo cách đó. Điển hình, nội dung trùng lặp không phải là một nhân tố quan trọng quyết định việc bao nhiêu trang sẽ được crawl, nhưng đó cũng là một nhân tố. Lời khuyên của tôi ở đây là nó sẽ trở nên hữu hiệu hơn nếu bạn có thể sắp xếp được cấu trúc của website. Vì sau đó bạn sẽ không phải lo lắng nhiều về vấn đề những trang có nội dung trùng lặp và những vấn đề khác đi kèm với chúng. Bạn có thể sử dụng 301 Redirects cho những URLs trùng lặp sao để gộp chúng lại vào cùng một URL. Nếu bạn không thể dùng 301 Redirect, bạn có thể dùng rel=canonincal.

Một vài người không thể kết nối được với web server để thực hiện một 301. Nguyên nhân của việc này có thể là do họ đang truy cập vào mạng của trường học, free host hoặc là một host nào đó tương tự. Nhưng nếu họ có thể xử lý nó trong cấu trúc của site, thì sau này họ có thể giải quyết nó với 301 Redirect hoặc rel=canonical.

Eric Enge: Đúng vậy, đó chắc chắn là một tiêu chuẩn vàng. Có thể hiểu là bạn có 1 trang và có 10 liên kết tới trang đó. Nếu 3 trong số những trang đó là những trang trùng lặp và bị loại bỏ thì bạn đã bỏ mất 3 cơ hội để được chúng tôi crawl.
(đối với những nội dung trùng lặp):” Chúng ta cố gắng gộp những trang đó lại hơn là loại chúng hoàn toàn”

Matt Cutts: Không cần thiết phải như vậy. Đó là một trường hợp mà chúng ta có thể thử nghiệm. Chúng ta cố gắng gộp những trang đó lại hơn là loại chúng hoàn toàn. Nếu bạn liên kết tới 3 trang có nội dung giống nhau, công cụ tìm kiếm sẽ có thể nhận ra đó là 3 trang giống nhau và chuyển link juice tới những trang đã được gộp lại này.

Đó không phải là trường hợp mà Pagerank bị lãng phí hoàn toàn. Nó phụ thuộc vào công cụ tìm kiếm và cách triển khai. Giả sử rằng các công cụ tìm kiếm đều triển khai khác nhau, nếu bạn có thể làm được việc đó trên website của bạn nơi mà các liên kết đều đi tới 1 trang duy nhất. Đó làm một điều thích hợp hơn.

Eric Enge: Anh có thể nói them về Session IDs?

Matt Cutts: Đừng sử dụng nó. Ngày nay, hầu hết mọi người sẽ có một ý tưởng hay để tạo một website mà không sử dụng Session IDs. Về điểm này, hầu hết những người sáng tạo phần mềm đều nghĩ tới, không chỉ đứng ở góc độ công cụ tìm kiếm mà còn ở góc độ của người sử dụng. Người sử dụng thường có xu hướng click vào những link đẹp và họ cũng thường có xu hướng nhớ những liên kết trông đẹp mắt hơn.

Tuy nhiên Nếu bạn không thể tránh khỏi điều đó, Google sẽ cung cấp cho bạn một công cụ để giải quyết vấn đề Session IDs. Người ta vẫn có thể làm như ở trong Yahoo!, nói một cách dễ hiểu là nếu một thông số URL không có giá trị hoặc không có thông số có thể sẽ bị bỏ qua, họ sẽ viết lại chúng với một URL đẹp hơn. Google cung cấp lựa chọn này cho người dùng và sẽ rất tốt nếu chúng ta sử dụng nó. Một vài công cụ tìm kiếm khác cũng làm như thế, nhưng sẽ tốt nhất nếu bạn không phải sử dụng Session IDs.

Eric Enge: Cuối cùng, điều đó có thể dẫn tới tình trạng các nội dung trùng lặp

Matt Cutts: Đúng, chính xác là như vậy và công cụ tìm kiếm gần như có thể xử lý vấn đề này khá tốt. Những trường hợp điển hình nhất cũng không phải là vấn đề hóc búa nhưng tôi đã từng gặp một trường hợp mà ở đó rất nhiều trang với những phiên bản khác nhau được index với những Session IDs khác nhau. Với những site riêng của bạn thì bạn nên xem xét kỹ vấn đề này và bạn sẽ không phải lo ngại về việc công cụ tìm kiếm xử lý vấn đề này như thế nào.

Eric Enge: Hãy thử xem xét những chương trình liên minh (Affiliate programs). Người khác gửi cho bạn những truy cập, họ đặt cho các URL đó một tham số. Bạn giữ những tham số đó trong suốt quá trình người khác vào thăm website, đó là một điều hoàn toàn bình thường. Liệu có phải công cụ tìm kiếm sử lý vấn đề này rất tốt hoặc là sẽ xảy ra nguy cơ có những nội dung trùng lập ở đây.

Matt Cutts: Nội dung trùng lập hoàn toàn có thể xảy ra. Nếu bạn tham gia các chương trình co-brand (Sử dụng chung một thương hiệu) mà sự khác nhau giữa các trang chỉ là biểu tượng và đó là cách mà những người sử dụng dùng chúng như những trang giống nhau. Công cụ tìm kiếm tỏ ra rất hữu hiệu trong việc cố gắng gộp những trang này vào với nhau, nhưng trong một vài trường hợp vẫn xảy ra tình trạng những nội dung trùng lặp.

(Còn tiếp)

Leave a Reply

Your email address will not be published. Required fields are marked *