Related Posts Plugin for WordPress, Blogger...

Google dùng ngữ cảnh để xác định liên kết rác như thế nào?

Được khẳng định bằng sự ra đời của Penguin, máy tìm kiếm ngày càng chú ý đến việc rải liên kết nhằm mục đích thao túng links và anchor text của một trang. Penguin chính thức được cập nhật vào này 24 tháng 4 năm 2012 và cùng với đó là một bài viết trên blog chính thức của Official Google Webmaster Central mang tên "Một bước tiến nữa để có được các trang web chất lượng cao".

Nội dung bài viết đề cập Google đang giảm dần thứ hạng các trang có dấu hiệu vi phạm Hướng dẫn cho quản trị Web của Google (Google’s Webmaster Guidelines). Bài viết do Matt Cutts, người đứng đầu Web Spam của Google viết, trong đó ông nêu rõ:


Chúng tôi sẽ không tiết lộ các dấu hiệu cụ thể bởi chúng tôi không muốn người dùng “chơi chiêu” với máy tìm kiếm, giảm tương tác người dùng, gợi ý duy nhất của chúng tôi dành cho các quản trị web là hãy tập trung vào việc tạo ra các trang web chất lượng cao, nâng cao trải nghiệm người dùng và sử dụng SEO mũ trắng thay vì cố gắng dùng các thủ thuật không được khuyến cáo.


Bài viết đã chỉ rõ các trường hợp mà Web Spam sẽ nhắm tới, đó là các trang có dấu hiệu nhồi nhét từ khóa, liên kết không tự nhiên, và nội dung trùng lặp. Tháng trước tôi viết một bài viết nói về cách Google nhận dạng nội dung trùng lặp: Google Scoring Gibberish Content to Demote Pages in Rankings? (Google đánh giá nội dung trùng lặp để giảm thứ hạng trang web?)


Năm 2004, Google đã cấp bằng sáng chế cho phương thức giúp máy tìm kiếm kiểm tra ký hơn nội dung bao quanh liên kết để giúp hiểu rõ hơn ngữ cảnh của liên kết kết đó. Trong ví dụ của liên kết không tự nhiên trong bài viết của Webmaster Central blog, chúng tôi nắm rõ được cách thức của một liên kết được tạo ra trong ngữ cảnh có ý nghĩa hoàn toàn phù hợp với ngữa cảnh và nội dung bài viết:




Lạm phát thứ hạng tìm kiếm do liên kết

Bằng sáng chế có chỉ ra một số các "kỹ thuật thổi phồng thứ hạng các nội dung, do đó làm giảm chất lượng kết quả tìm kiếm":


Liên kết rác – bao gồm một lượng lớn các liên kết của một trang nhằm mục đích tăng hạng cho trang đó. Họ đưa ra ví dụ có một số Spammer trả tiền cho chủ các trang có thứ hạng cao để được liên kết với họ để kéo thứ hạng trang của họ tăng lên”.


Anchor Text rác – là hình thức mua lại các liên kết từ một số lượng lớn các trang liên kết đến một trang sử dụng cùng một anchor text (neo văn bản), để trang đó được xếp hạng cao cho từ khóa đó trong kết quả tìm kiếm.


Thả bom Google - Rất giống với neo văn bản rác, phương pháp này nhằm mục đích thao túng bảng xếp hạng nhằm mục đích chính trị chứ không phải nhằm mục đích tăng lợi nhuận kinh tế hay thương mại.


Cấu trúc trang: rất nhiều trang thiết kế trang với các liên kết như “liên kết sản phẩm”, “liên kết nghề nghiệp”, “liên kết nhà đầu tư”, vv…để “thổi phồng” thứ hạng các trang liên kết đó.


Để xử lý và tránh các “kỹ thuật” kể trên, bằng sáng chế đưa ra một cách đó là máy tìm kiếm sẽ lưu tâm hơn đến ngữ cảnh xung quanh của một liên kết để quyết định thăng hay giáng thứ hạng của nội dung hay trang chứa liên kết đó.


Thông tin chi tiết bằng sáng chế:


Tóm tắt nội dung sáng chế

Là một hệ thống xếp hạng nội dung dựa trên ngữ cảnh đi kèm vớitài liệu tài liệuđó. Hệ thống sẽxác định một tài liệu tham khảo trong nội dungthứ nhất và tài liệu tham khảo nàycó liên quan đến một nội dung thứ hai. Hệ thống phân tích một phần của tài liệu đầu tiên liên quan đến tài liệu, xácđịnh một hoặc vài từ hiếm, tạo ngữ cảnh cho từ hiếm đó và xếp hạng nội dung thứ hai dựa trên ngữ cảnh dùng để nhận dạng kia.


Một thông tin nữa làđồng sáng tạo của sáng chếnày là Anna Patterson, phụ trách các bằng sáng chế thu thập dữ liệu của Google.


Xếp hạng dựa trên ngữ cảnh là quá trình như thế nào?




Khi máy tìm kiếm thu thập dữ liệu, nó có thể nhận diện các liên kết có trong trang và khoanh vùng dữ liệu xung quanh liên kết đó, ví dụ như bán kính năm từ (bên trái 5 từ, bên phải 5 từ) kể từ chỗ đặt liên kết. Trong ảnh trên, chúng ta có thể thấy một liên kết có anchor text "Saturn (Sao Chổi)”, và ngữ cảnh bên trái liên kết là “Beautiful of all the planets (Đẹp nhất trong các hành tinh)” và bên phải là “Is surrounded by an elegant (được bao quanh bởi 1 vành đai)”.

Bước tiếp theo Google sẽ xác định “từ hiếm nhất” trong phần nội dung liên quan đến liên kết, sử dụng quá trình nghịch đảo tần số tài liệu IDF (Viết tắt của inverse document frequency).


Trong trường hợp này, "hành tinh" là từ hiếm nhất trong ngữ cảnh bên trái và “vành đai” là từ hiếm nhất trong ngữ cảnh bên phải. Sáng chế nêu rõ ngữ cảnh xung quanh liên kết chỉ nên nằm trong khoảng 5 từ.


Chỉ nên dùng các từ chính được xác định bằng tần số xuất hiện của từ đó trong một số lượng nội dung nhất định, khoảng 50 nội dung chẳng hạn. Như thế đủ để xác định khối văn bản ngẫu nhiên bao gồm các từ được sử dụng.


Có thể có rất nhiều tài liệu liên kết đến một trang, và tiếp cận ngữ cảnh nghĩa là xác định thông tin của các trang tiềm năng. Ngữ cảnh nào có nhiều trang cùng sử dụng một loại từ ngữ gần các liên kết thì được xác định là thông tin ngữ cảnh. Do Sao thổ là một hành tinh, thế nên sẽ có rất nhiều các liên kết bao gồm từ “hành tinh” cùng với anchor text “sao thổ” trỏ đến trang đó. Và cũng bởi vì Sao thổ được coi là một vì tinh tú nên từ “tinh tú” sẽ xuất hiện gần liên kết với trang nói về Sao thổ sử dụng anchor text “Sao thổ”.


Những "bối cảnh" dùng để xác đinh “từ hiếm” xung quanh liên kết, hay “ngữ cảnh nhận dạng” được đề cập trong sáng chế dùng để đánh giá liên kết, đồng nghĩa với đánh giá xếp hạng một tài liệu. Các yếu tố khác cũng dùng để đánh giá bao gồm:


- Số lượng liên kết trỏ đến nội dung.

- Chất lượng nội dung trỏ đến.

- “Sự tươi mới” của nội dung trỏ đến.

- Các yếu tố xếp hạng cơ bản khác.


Nhìn vào ví dụ ở trên về liên kết không tự nhiên, từ ngữ xung quanh liên kết không mấy liên quan đến nội dung.


Nếu không có nhiều ngữ cảnh nhận dạng, hoặc có quá nhiều ngữ cảnh nhưng không đủ độ tin cậy, thì việc xếp hạng liên kết đó sẽ bị bỏ qua. Sáng chế này không có ý nói rằng các yếu tố đó là thứ hạng trang (PageRank) hay một dấu hiệu siêu văn bản liên quan.


Số lượng ngữ cảnh nhận dạng có thể thay đổi theo thời gian, do vậy có thể linh động một lượng bất kỳ. Một trang mà kiếm được nhiều liên kết trong một thời gian ngắn mà có cùng một ngữ cảnh nhận dạng thì cần phải xem xét lại và các liên kết đó sẽ không được tính đến trong quá trình đánh giá xếp hạng trang mà liên kết đó trỏ đến. Một trang có nhiều ngữ cảnh nhận dạng khác nhau sẽ được xếp thứ hạng cao hơn.


Tóm tắt


Bằng sáng chế này đã được đệ trình gần mười năm trước, nhưng chỉ mới được công nhận gần đây. Không ai có thể khẳng định Google sẽ sử dụng quy trình của sáng chế này, hoặc sử dụng nó thay thế cho các phương thức khác hoặc sẽ tiếp tục sử dụng nó.


Những vấn đề mà nó nhắm đến để giải quyết như liên kết rác, anchor text rác, thả bom Google, và cấu trúc trang on-page ... là những vấn đề Google vẫn đang phải đau đầu tìm cách giải quyết. Mặc dù các hướng dẫn hoặc các cập nhật mới như Google Penguin đã được phổ biến đến các quản trị web trong Google Webmaster tools, thì dường như Google vẫn là nhân vật năng nổ nhất trong việc giải quyết các vấn nạn này.


Bạn sẽ để ý hơn tới các từ ngữ mà bạn dùng xung quanh liên kết của mình trong thời gian tới không?


- Ghi rõ nguồn www.thegioiseo.com khi đăng tải các bài viết này.

- Bài viết có tham khảo nội dung của tác giả Bill Slawski (Seoby...)

- Link bài: Google dùng ngữ cảnh để xác định liên kết rác như thế nào?




Thủ thuật Seo - Seo tips Google dùng ngữ cảnh để xác định liên kết rác như thế nào?

Back to TOP