Chương 2: Cách hoạt động của công cụ tìm kiếm: Thu thập dữ liệu, Lập chỉ mục, Xếp hạng

Cách hoạt động của Google

Cách hoạt động của công cụ tìm kiếm đều có 3 bước chung: Thu thập dữ liệu, Lập chỉ mục và Xếp hạng. Như đã giới thiệu trong Chương 1, SEO là tối đa hóa công cụ tìm kiếm. Nhiệm vụ của công cụ tìm kiếm là sắp xếp các nội dung trên internet để cung cấp kết quả trả lời phù hợp nhất cho nhu cầu tìm kiếm của người dùng.

Để hiển thị trên Google, trước tiên website cần được công cụ tìm kiếm chấp thuận hay gọi là Index, lập chỉ mục. Đây là phần quan trọng nhất của câu đố SEO: Nếu công cụ tìm kiếm không thể tìm thấy trang web, thì trang web của bạn sẽ xuất hiện trong SERPs (Trang kết quả của công cụ tìm kiếm).

Cách thức hoạt động của công cụ tìm kiếm 

Công cụ tìm kiếm hoạt động thông qua ba chức năng chính:

  1. Thu thập dữ liệu: Tìm kiếm nội dung trên Internet
  2. Lập chỉ mục: Lưu trữ và sắp xếp nội dung được tìm thấy trong quá trình thu thập dữ liệu. Khi một trang nằm trong chỉ mục, trang đang chạy sẽ được hiển thị cho các truy vấn có liên quan.
  3. Xếp hạng: Hiển thị nội dung tốt nhất cho từng nhu cầu truy vấn của người tìm kiếm, các kết quả được sắp xếp theo thứ tự liên quan nhất cho đến ít liên quan nhất.

Cách Google thu thập dữ liệu

Thu thập dữ liệu là quá trình trong đó các công cụ tìm kiếm gửi các robot (được gọi là trình thu thập thông tin hoặc nhện) để tìm nội dung mới và cập nhật. Nội dung có thể khác nhau – đó có thể là trang web, hình ảnh, video, PDF, v.v. tất cả đều được định danh bởi các liên kết.

Cách hoạt động của Google

Googlebot bắt đầu bằng cách tìm nạp một vài trang web, sau đó theo các liên kết trên các trang web đó để tìm URL mới. Bằng cách đi theo đường dẫn liên kết này, trình thu thập thông tin có thể tìm thấy nội dung mới và thêm nó vào chỉ mục của họ có tên Caffeine – một cơ sở dữ liệu khổng lồ về các URL – và sau đó sẽ hiển thị phù hợp với truy vấn của người dùng.

Trình thu thập thông tin là một quy trình rất phức tạp, người quản trị web cần làm những công việc giúp hỗ trợ trình thu thập thông tin trang web được tốt hơn. Nếu bạn đang quan trị web, bạn nên làm một số điều sau sẽ giúp trang web bạn thân thiện hơn với trình thu thập thông tin của Google:

  • Sử dụng Robots.txt: Robot txt là một tệp được gắn vào hosting nơi chứa website. Robot txt như một người dẫn đường chỉ cho trình thu thập thông tin của Google cần thu  thập thông tin những trang nào và bỏ qua những trang nào.
  • Sử dụng sơ đồ trang xml để liệt kê các trang quan trọng cần thu thập thông tin biết có những trang nào tồn tại trên trang web của bạn và trang nào quan trọng hơn các trang khác và tần suất cập nhật trên trang web của bạn.

Lập chỉ mục là gì?

Các công cụ tìm kiếm xử lý và lưu trữ thông tin tìm thấy trong một chỉ mục, một cơ sở dữ liệu khổng lồ về tất cả nội dung trên internet. Ví dụ trang web của bạn về lĩnh vực y tế, Google sẽ xếp vào ngành y tế, trang web của bạn lĩnh vực thời trang, Google sẽ xếp vào ngành thời trang.

Khi người dùng thực hiện động tác tìm kiếm, Google sẽ dựa vào nội dung tìm kiếm đó để lọc các dữ liệu liên quan trong chỉ mục của Google, sau đó sẽ trả ra các kết quả liên quan nhất. Nếu trang web của bạn không được lập chỉ mục, thì Google sẽ không có dữ liệu về trang web của bạn và đương nhiên bạn sẽ không được xuất hiện trên công cụ tìm kiếm. Bạn có thể kiểm tra trang web đã được lập chỉ mục hay chưa bằng cú pháp: 

Site: yourdomain

VD Site:https://dgmasia.edu.vn/

Nếu kết quả trả ra

Cách hoạt động của Google
Kết quả tìm kiếm trang web không tồn tại

Thì nghĩa là trang web của bạn chưa được index, bạn nên liên hệ với người quản trị web để kiểm tra. Cách thức kiểm tra trên cũng có thể kiểm tra với 1 đường link cụ thể, bạn có thể thay yourdomain bằng đường link cụ thể và kiểm tra.

Làm sao biết trang web của bạn được công cụ tìm kiếm lập chỉ mục bao nhiêu phần?

Như bạn vừa đọc, điều kiện tiên quyết để hiển thị trong SERPs là trang web được lập chỉ mục. Nếu bạn đã có một trang web, hãy kiểm tra xem bao nhiêu trang đã được lập chỉ mục. Điều này sẽ giúp bạn xem Google có đang thu thập đúng như với những gì bạn muốn hay không.

Một cách để kiểm tra các trang được lập chỉ mục của bạn là “site:yourdomain.com”, một nhà điều hành tìm kiếm nâng cao. Truy cập Google và nhập “site:yourdomain.com” vào thanh tìm kiếm. Điều này sẽ trả về kết quả mà Google có trong chỉ mục của mình cho trang web được chỉ định:

Cách để kiểm tra trang web có bao nhiêu trang được lập chỉ mục, bạn kiểm tra theo cú pháp site:yourdomain.com. VD như kiểm tra trang web moz.com

Cách hoạt động của Google

Số lượng kết quả mà Google hiển thị (About 61,700 results) tuy không hoàn toàn chính xác nhưng sẽ cung cấp cho bạn số liệu tương đối về các trang được lập chỉ mục trên Google của website bạn.

Nếu không có kết quả hiển thị, trang web có thể gặp một số vấn đề sau:

  • Trang web quá mới và chưa được thu thập dữ liệu.
  • Điều hướng link nội bộ trang web khiến robot khó thu thập dữ liệu hiệu quả.
  • Trang web của bạn đang chặn công cụ tìm kiếm lập chỉ mục
  • Trang web của bạn đã bị Google phạt thủ công.

Xếp hạng công cụ tìm kiếm

Khi ai đó thực hiện tìm kiếm, các công cụ tìm kiếm sẽ lùng sục chỉ mục của họ để tìm nội dung có liên quan cao và hiển thị nội dung theo thứ tự từ liên quan cao nhất. Thứ tự kết quả tìm kiếm theo mức độ liên quan được gọi là xếp hạng. 

Xếp hạng của Google sẽ dựa trên các thuật toán của Google. Các thuật toán này sẽ được Google cập nhật và cải tiến liên tục để cải thiện chất lượng tìm kiếm – mục tiêu đưa ra kết quả phù hợp nhất so với truy vấn của người dùng.

Trong SEO, không phải tất cả các công cụ tìm kiếm đều như nhau. Sự thật là mặc dù có sự tồn tại của hơn 30 công cụ tìm kiếm lớn, nhưng những người làm SEO thực sự chỉ chú ý đến Google. Tại sao? Câu trả lời ngắn gọn là Google là nơi đại đa số mọi người tìm kiếm trên web. Nếu bao gồm Google Hình ảnh, Google Maps và YouTube (thuộc tính của Google), hơn 90% tìm kiếm trên web xảy ra trên Google.

Trải qua nhiều năm, các thuật toán của Google ngày càng phát triển và phức tạp. Tính đến thời điểm hiện tại có thể có hơn 250 thuật toán đánh giá trang web. Bảng dưới đây cho thấy trong một lược đồ các yếu tố phổ biến nhất để đánh giá xếp hạng trang web của Google.

Cách hoạt động của Google

Bước 1: Phân tích Truy vấn Người dùng

Bước đầu tiên sau khi người dùng nhập nội dung truy vấn vào thanh tìm kiếm, Google sẽ phân tích bằng cách chia nhỏ truy vấn thành một số từ khóa có ý nghĩa.

Ví dụ bạn gõ: “cách làm bánh” Google sẽ đưa bạn đến các trang chứa thông tin, cách làm các loại bánh. Còn bạn gõ “mua bánh” Google sẽ đưa bạn đến các trang mua bán, thương mai điện tử….

Ngoài ra Google ngày càng phát triển công nghệ tự học để liên kết các từ khóa cùng nghĩa lại với nhau. Vd nếu bạn tìm kiếm “làm thế nào để thay đổi được bóng đèn” sẽ giống với “làm thế nào để thay thế được bóng đèn”. Rồi những từ địa phương đồng nghĩa với nhau cũng đã được Google hiểu giống nhau.

Ngoài ra Google cũng đủ thông minh để hiểu ỗi chính tả, và đưa ra gợi ý tìm kiếm gần đúng nhất so với mong muốn tìm kiếm bị “sai chính tả” của người dùng.

Bước 2: Tìm trang phù hợp

Bước thứ hai sau khi hiểu được truy vấn của người dùng, google sẽ tìm kiếm trong chỉ mục và lọc ra những địa chỉ chứa nội dung gần đúng nhất so với truy vấn của người dùng.

Đây là giai đoạn quan trọng nhất của công cụ tìm kiếm và người làm web. Công cụ tìm kiếm cần đưa ra được những kết quả đúng nhất nhằm làm hài lòng người dùng. Qua đó người dùng sẽ sử dụng công cụ tìm kiếm đó nhiều hơn, và cho đến nay không công cụ nào làm tốt hơn Google ở bước này.

Đối với những nhà quản trị web, đây là bước quan trọng để trang web có thể xuất hiện trên top đầu tìm kiếm. Sau đây là những yếu tố quan trọng nhất để tối ưu trang web để phù hợp với truy vấn của người dùng:

  • Mức độ liên quan của tiêu đề và nội dung – tiêu đề và nội dung của bạn có liên quan đến truy vấn của người dùng hay không.
  • Loại nội dung – người dùng tìm kiếm hình ảnh hay văn bản.
  • Chất lượng của nội dung – nội dung ngoài việc liên quan phải hữu ích, thỏa mãn được người dùng.
  • Ngày xuất bản – Đối với các truy vấn liên quan đến tin tức, Google muốn hiển thị kết quả mới nhất vì vậy ngày xuất bản cũng được tính đến.
  • Mức độ phổ biến của một trang – Điều này giống như trang web của bạn được nhiều giới thiệu (backlink) từ những trang khác thì sẽ càng trở nên phổ biến trong mắt google. Quá trình này còn được gọi là Off-Page SEO
  • Ngôn ngữ của trang – tùy thuộc vào truy vấn của người dùng, google sẽ hiển thị các trang web đa phần có cùng ngôn ngữ với truy vấn.
  • Tốc độ trang web – Trang web tải nhanh (khoảng 2-3 giây) có lợi thế hơn so với các trang web tải chậm.
  • Loại thiết bị – Người dùng tìm kiếm trên thiết bị nào thì các trang web thân thiện với thiết bị đó sẽ được ưu tiên hơn.
  • Vị trí – Người dùng tìm kiếm kết quả trong khu vực của họ, ví dụ: “Nhà hàng Nhật ở Nha Trang” sẽ được hiển thị các kết quả liên quan đến vị trí của họ.

Đây chỉ là những vấn đề chủ yếu, như đã đề cập ở trên Google sử dụng hơn 255 yếu tố trong các thuật toán tìm kiếm để đảm bảo xếp hạng các trang web đúng nhất nhằm làm hài lòng người dùng.

Trên đây là sơ lược cách Google hoạt động từ thu thập dữ liệu – lập chỉ mục – xếp hạng. Bạn không cần phải cố gắng biết tất cả thuật toán của Google. Điều bạn nên trang bị sau khi hiểu được cách Google hoạt động là hãy tìm hiểu về việc chọn từ khóa cho nội dung của bạn trong Chương 3 (Nghiên cứu từ khóa)!

Tài liệu tham khảo:

  1. How Search Works (for beginners) – developers google
  2. How Search Engines Work – Moz
  3. How Google’s Search Engine Really Works (A Peek Under The Hood) – Neil Patel
  4. Search Engine Journal – SEO, Search Marketing News and Tutorials
093 830 7010