LDA là gì? Khám phá bí mật LDA trong tối ưu hóa onpage?
Latent Dirichlet Allocation (LDA) chứa rất nhiều điều bí ẩn?
Thứ nhất - LDA không phải là khái niệm quá mới mẻ, cũng không phải là do SEOmoz phát minh. Mô hình truy hồi thông tin (Information Retrieval) đã tồn tại 7 hoặc 8 năm và chuyên gia máy tính của IR đã nói về nó trước đây. Có một số nguồn về LDA mà Google có thể sử dụng nó.
Thứ hai - LDA Topics Tool của SEOmoz có gì mới mà sinh ra số điểm liên quan dựa trên một tập truy vấn (thuật ngữ tìm kiếm). Nó cho phép chơi chữ để làm tăng mức độ liên quan của một trang trong con mắt của Google. Nó hiển thị từ giúp Google xác định từ liên quan của trang để tìm kiếm truy vấn người dùng.
Máy biến đổi trò chơi?
Công cụ LDA Kyle Stone là một bộ biến đổi trò chơi.
Công cụ LDA của SEOmoz là một bộ biến đổi trò chơi? Nó chưa xuất hiện. Mục đích là để báo cáo nghiên cứu của Ben khi trình bày tại Mozinar. Rand sẽ viết tiếp một bài để giải thích thêm.
Tại sao lại thổi phồng tất cả lên như thế?
Thách thức đối với SEO
SEO luôn đối mặt với những thách thức để tìm ra thuật toán xếp hạng tiềm ẩn của Google. Làm thế nào để chúng ta được xếp hạng cao hơn? Tín hiệu nào là quan trọng nhất? Như chúng ta biết công cụ tìm kiếm là "các mô hình học", chúng cố gắng để hiểu "ngữ cảnh của các từ". Nhiều năm qua, Google đã nói rằng các webmaster nên tập trung vào việc cung cấp các nội dung chất lượng có liên quan (theo ngữ cảnh).
Có nhiều cách để xếp hạng cao hơn. Đó là:
1. Sao chép từ khóa có chất lượng trên trang web cùng với các anchortext có liên quan.
2. Tìm cách để có được các liên kết tốt.
3. Làm theo những gì mà Ben đã nói trong hội thảo này.
LDA – Mô hình hóa chủ đề và những phân tích
Theo cách hiểu thông thường, Latent Dirichlet Allocation tạm dịch là "mô hình hóa chủ đề”. Nhưng trong thuật ngữ tìm kiếm, LDA là công thức:
Bạn có hiểu được công thức đó? Đừng lo lắng; Mozzers cười. Nhà khoa học Hendrickson sẽ tiếp tục cuộc hội thảo này sau bữa ăn trưa)!
Đơn giản hóa LDA – Đây là cách Ben giải thích mô hình hóa chủ đề:
Tôi đã từng tự hào là tôi được điểm A môn Logic và Lý thuyết tổ hợp – Toán học dựa trên tập lý thuyết rời rạc. Tuy nhiên, các nhà khoa học máy tính bây giờ nhận thấy so với công thức này thì toán học dễ hơn.
Nó hợp lý hơn khi Rand Fishkin tham gia cùng Ben trên sân khấu và khi Todd Freisen kiểm duyệt và giải mã trong Q & A (Manuela Sanches của Brazil ngồi cạnh tôi và nói rằng "bài thuyết trình của Ben cần có phụ đề!").
Mục tiêu của LDA, từ giải mã của tôi theo tiếng Hy Lạp là làm thế nào để Google sử dụng phân tích về mặt ngữ nghĩa theo ngữ cảnh kết hợp với các tín hiệu khác để xác định các chủ đề/các khái niệm. Đó là cách mà Google sẽ phân tích từ trong trang web để xác định “thiết lập” phụ thuộc từ - làm thế nào tìm kiếm một truy vấn có liên quan tới các trang web trong cơ sở dữ liệu của nó.
Ví dụ: Làm thế nào Google gán từ liên quan đến "cam" trong một trang? Chúng xác định từ cam liên quan đến trái cây hay màu sắc được thiết lập bởi ngữ cảnh trên trang đó.
* Cam: Là từ gõ để tìm kiếm thì nó sẽ trả về tất cả các kết quả liên quan đến các bài viết nói về từ này. Do đó công công cụ tìm kiếm sẽ tìm tất cả những gì liên qan tới trái cây, màu sắc... Vậy nên mới cần đến bộ lọc từ LDA
Định nghĩa LDA:
"Latent Dirichlet Allocation (được phát minh bởi Blei và cộng sự, 2003) là một thuật toán học mạnh cho việc tự động và cùng phân nhóm từ vào "các chủ đề" và tài liệu vào hỗn hợp các chủ đề. Mô hình này đã được áp dụng thành công để thay đổi mô hình trong lĩnh vực khoa học theo thời gian (được phát minh bởi Griffiths và Steyver, 2004) và (Hall và cộng sự, 2008).
Mô hình hóa chủ đề gần giống với mô hình phân cấp Bayesian nghĩa là với mỗi tài liệu là sự trộn lẫn của nhiều chủ đề và mỗi chủ đề là một phân phối xác suất trên tập các từ".
Bayesian – là một thuật ngữ mà tôi thừa nhận! Bayesian là phương pháp dùng để phát hiện thư rác. Nó dựa trên một cơ sở dữ liệu và biết được ý nghĩa của từ. Đó là sự "huấn luyện" của chúng tôi khi chúng tôi đánh dấu email là thư rác. Nó nhìn vào email gửi đến và tính xác suất nội dung của email spam theo ngữ cảnh.
Tôi tìm thấy một bài thuyết trình bằng PowerPoint về các Kỹ thuật Suy diễn Bayes của Microsoft Research vào năm 2004 giới thiệu cách sử dụng LDA. Chúng ta hãy dừng lại slide thứ 54 và đọc:
"Chúng tôi có thể xây dựng công cụ suy luận đa năng để tự động hóa các thủ tục này?"
Microsoft đã được nhìn thấy mô hình LDA. Công cụ tìm kiếm sử dụng nó như là một trong những phương pháp chính của chúng?
Ben đã chọn hơn 8 triệu tài liệu mẫu với khoảng 1000 câu truy vấn. Anh ấy tin rằng Google đang sử dụng mô hình hóa chủ đề LDA để xác định (học) những từ mà chúng có liên kết đến, hay liên quan đến các từ khác trên trang. (Các yếu tố khác được đưa vào). Ben gọi kết quả là "giải thích sự xuất hiện đồng thời" sử dụng thuật toán "Cosine Similarity".
SEO Takeaway:
- Nói chung chủ đề nội dung có kết quả cao hơn trong Google SERPs.
- Công cụ tìm kiếm XUẤT HIỆN để áp dụng phân tích ngữ nghĩa khi index một trang và xác định mục đích của những từ trên trang.
Rand tweeted đã giải thích như sau:
LDA Catwalk Metaphor cùa Dana đối với Mô hình hóa Chủ đề:
Hãy tưởng tượng những từ trên trang web của bạn như là bạn đang đi trên các sàn diễn thời trang tại Paris. Cụm từ khóa là "mặc quần áo", từ nào liên quan đến việc ăn mặc và chủ đề của bạn. Liên kết từ mang một ý nghĩa và nhấn mạnh trang phục của người mẫu thời trang. Tính từ, từ bổ nghĩa và từ đồng nghĩa giống nhữ nữ trang, mũ và giày. Sự kết hợp có thể chuyển đổi các lớp cơ sở của bạn (thuật ngữ mục tiêu của bạn).
Sự nhập nhằng của chủ đề - tôi chỉ phá vỡ những "quy tắc" cho ngữ cảnh với phép ẩn dụ sàn diễn thời trang bằng cách tham khảo một trong hai mô hình ngữ cảnh dưới đây:
- Tôi đã sử dụng "mô hình" các thuật ngữ có liên quan đến "ngành công nghiệp thời trang".
- Phép ẩn dụ sàn diễn thời trang có nội dung không liên quan đến chủ đề thảo luận "mô hình hóa LDA".
Google Algorithm Exposed?
* Google Algorithm Exposed: Tạm hiểu là Tiết lộ thuật toán của Google
Ben đã nói rõ LDA là một CỐ GẮNG để giải thích cho SERPs. Trích dẫn từ các slide thuyết trình của anh ấy như sau:
Một người trong nhóm chúng tôi cần triển khai nó nên chúng tôi có thể:
1. Xem cách nó áp dụng cho các trang web.
2. Xem nó có giải thích giúp SERPs
Một hoặc hai hoặc ba hoặc không cái nào.
LDA không phải là LSI.
Có một vài tuyên bố SEOmoz đã đưa LSI hay Snakeoil ( hay SEO Expert còn gọi là chuyên gia SEO) trở lại. Ben nói rằng LDA không phải là LSI. Anh ấy giải thích rằng anh ấy không nói về chất lượng từ khóa trên một trang web nhưng có liên quan đến các chủ đề của trang. Anh ấy nói rằng:
Tương tự đối với lời giải thích đơn giản, LSI không có bias (độ lệch). LSI bị phá vỡ khi bạn cố gắng mở rộng số lượng các chủ đề.
Công cụ LDA đối phó với ngữ cảnh, sự liên quan về mặt ngữ nghĩa, không phải mật độ - ngoài ra còn có kmột số yếu tố ngẫu nhiên khác. Ví dụ:
Nếu SEOmoz có một trang nói về tất cả "SEO" và "các công cụ" và có vài từ khác trên trang có thể giải thích bằng một từ mà liên quan đến nhiều hơn chủ đề SEO, sau đó từ liên quan sẽ được sử dung. Có nghĩa là "các công cụ SEO" không phải được lặp đi lặp lại, và từ liên quan sẽ được giải thích bởi Google khi bị liên quan.
Dường như Ben có bộ não của công cụ tìm kiếm, lưu ý rằng sự "xuất hiện" LDA là những gì mà Google đang hướng đến trong tương lai gần. Anh nói (diễn giải):
Nếu Google không làm việc đó, thì họ sẽ có kết quả trả về là như nhau. Và Google có thể đã sử dụng nó.
Rand giải thích:
Đó là một sự trùng hợp siêu ngẫu nhiên nếu Google không sử dụng nó.
Tín hiệu on-page mạnh hơn liên kết?
Chúng ta đang đi theo hướng tập trung nhiều mô hình hóa chủ đề trên on-page? Tôi không đam mê IR nhưng tôi có kế hoạch sử dụng tập trung khả năng vào tìm hiểu cách công cụ tìm kiếm truy xuất thông tin. Chúng tôi đang xử lý một semantic Web. LDA có thể có thể cho thấy rằng tối ưu hóa on-page mà tốt thì sẽ gửi một tín hiệu mạnh hơn là các liên kết.
Công cụ LDA của SEOmoz cố gắng để chứng tỏ nội dung có liên quan đến từ khóa đã chọn, nó tính toán sự liên quan của các câu truy vấn.
Dưới đây cho thấy mức độ liên quan đến trang Công cụ của SEOmoz là một trang tương tự như Aaron Wall's SEO Book.
Theo LDA, điểm số ở trên là một chỉ số liên quan đến nội dung trên trang.
- Nội dung của Aaron (Tên riêng của lập trình viên người Mỹ) là 72% * có truy vấn liên quan cho "công cụ seo."
- Trang công cụ của SEOmoz là 40% * có liên quan.
CHÚ Ý: Bạn có thể chạy các trang tương tự và nhận được kết quả khác nhau. Kết quả giống nhau ở chỗ SEO Book luôn ghi điểm liên quan đến từng phần nhưng với tỷ lệ khác nhau. Đây là thuật toán ngẫu nhiên của Monte Carlo (địa danh) tại nơi làm việc phải không Ben?
Câu hỏi của Mozinar:
"Làm thế nào mà chúng tôi có thể thực hiện được điều này cho SEO?"
Câu trả lời của Ben:
"Tôi thực sự không làm SEO. Tôi viết code".
Các bạn hãy đến với chúng tôi để chơi và thử nghiệm sân chơi của Google.
Sử dụng công cụ LDA này để quyết định xem liệu bạn có thể giành chiến thắng để tối ưu hóa các tín hiệu on-page trên trang của bạn.
1. Sử dụng LDA Topics Tool để trả lại những từ có thể được sử dụng cho một truy vấn trên trang.
2. Sau đó xác định người đang xếp hạng cho thuật ngữ đó.
3. Đơn giản, chỉ cần viết nội dung có chất lượng dựa vào những quan sát mà bạn phát hiện ra.
Hãy nghĩ đến cách tối ưu hóa on-page truyền thống nếu bạn không thực hiện tốt trong SERPs. Trong ví dụ trên, thay vì đặt ví dụ "các công cụ SEO" trên trang, LDA cho thấy có những cách tốt hơn để nói với Google là bạn đang có chủ đề đó. Công cụ này cung cấp cách để đo được điều đó.
QUAN TRỌNG: Còn có một ngưỡng mà có quá nhiều từ liên quan sẽ xuất hiện như là spam quá nhiều, LDA không phải được sử dụng cho cuộc chơi của Google.
Bạn hãy tự kiểm tra công cụ LDA và rút ra kết luận của riêng bạn.
***********
KHUYẾN CÁO: Tôi không nói là phương pháp này đã phát hiện ra kho báu SEO tiềm ẩn. Thời gian, thử nghiệm với một công cụ SEOmoz mới đồng thời quan sát hành vi của SERPs sẽ tiết lộ câu trả lời cho bạn. Trong khi chờ đợi, tôi sẽ khoác lên các trang web của tôi và truy cập chúng với các thuật ngữ có liên quan khiến chúng bị mê hoặc hay để chúng có thể leo lên sàn diễn thời trang của Google.
Đọc đến đây chắc bạn vẫn còn mơ hồ về LDA phải không? Mơ hồ đó là đúng vì để hiểu được LDA bạn cần có kiến thức về môn toán học rời rạc. Hơn nữa đây cũng là quan điểm riêng của tác giả Dana Lookadoo.
- Vui lòng ghi nguồn www.thegioiseo.com khi đăng lại bài viết này.
- Bài viết của tác giả Dana Lookadoo (Seomoz).
Thủ thuật Seo - Seo tips LDA là gì? Khám phá bí mật LDA trong tối ưu hóa onpage?