1 GOOGLE spider là gì

spider hay Google bot là thuật ngữ ám chỉ các ” con bọ ” được tự động sinh ra từ các máy chủ Google, chúng có nhiệm vụ săn tìm, truy lùng các liên kết ( link ) và thu thập dữ liệu trên các website. Google spider hoạt động chủ yếu dựa vào liên kết ( link ) trên các page, website và dựa vào hành vi người dùng hoặc truy vấn của trình duyệt tác động lên 1 page, website nào đó để lập chỉ mục cho page, website đó hiển thị trên công cụ tìm kiếm Google ( index ) và thời gian ở trong page, website của chúng là một khoảng thời gian nhất định

2 Phân loại Google spider

Được chia làm hai loại

1 Spider Google hoạt động chủ động

Thường thì, Cơ chế hoạt động của con bọ tìm kiếm là di chuyển trên mạng internet một cách không gây ồn ào. Mặc dù Spider Google là một phần mềm của Google, nhưng chúng ta thường hình dung nó như một con robot. Cơ chế hoạt động của con bọ tìm kiếm là di chuyển từ một liên kết đến liên kết khác, tức là “bò” qua tất cả các liên kết mà nó gặp phải.

Trừ khi bạn sử dụng tệp robot.txt để “kiểm soát” Spider Google hoặc sử dụng thẻ nofollow để ngăn nó lập chỉ mục một liên kết cụ thể. Tuy nhiên, ngay cả khi bạn sử dụng thẻ nofollow, bạn vẫn không thể ngăn Spider Google “bò” tới link đó, mà chỉ có thể làm nó “ghi nhớ” link đó. Nếu bạn thực sự muốn Spider Google không lập chỉ mục link đó, bạn cần sử dụng thẻ rel=”noindex”.

2 spider Google hoạt động thụ động

Bạn có thể “ra lệnh” cho Spider Google không? Câu trả lời là có, nhưng có một hạn chế. Mặc dù có cách để “ra lệnh”, nhưng không chắc chắn Spider sẽ tuân thủ hoàn toàn. Tuy nhiên, có thể nói rằng họ tuân thủ khoảng 90%.

Mức độ ra lệnh nhẹ nhất là có nhiều backlink. Spider di chuyển theo link, vì vậy bạn cần có các liên kết đến website của bạn để nó “trèo lên” và tìm kiếm trang web của bạn.

Mức độ thứ hai là thông báo cho Google biết về việc bạn có link mới (nội dung mới) bằng cách ping tới Google.

Ping là viết tắt của Packet Internet Grouper (Groper), là một công cụ được sử dụng trong mạng máy tính trên các mạng TCP/IP (ví dụ: Internet) để kiểm tra khả năng kết nối tới một máy chủ cụ thể và ước lượng thời gian trễ để gửi gói dữ liệu cũng như tỷ lệ gói dữ liệu có thể bị mất giữa hai máy tính. Công cụ này thực hiện nhiệm vụ này bằng cách gửi một số gói tin ICMP đến máy chủ và lắng nghe phản hồi.

Một cách đơn giản, ping có nghĩa là một người (A) đứng ở một nơi và hét lên “anh có nghe tôi nói gì không”, nếu người khác (B) nghe thấy, B sẽ hét lại “có, tôi nghe thấy”. A là liên kết mới của bạn, B là Google. Khi ping, Google sẽ biết về sự tồn tại của A và sẽ ra lệnh cho một Spider đến thu thập dữ liệu.

Mức độ thứ ba là Google Webmaster Tools. Bạn chỉ cần trở thành một con nhện và đi theo các liên kết trong 3 chữ “Google Webmaster Tools” để xem nội dung.

Mức độ cao nhất là gửi yêu cầu cho Google. Điều kiện là bạn phải có tài khoản Google Webmaster Too

3 Cách điều hướng của Google Spider

Vấn đề điều hướng Google spider trong website được đa số các SEOer ứng dụng chưa tốt, Google spider tuân theo thuộc tính follow – nofollow của liên kết hoặc index – noindex của thẻ meta hoặc thuộc tính disallow trong file robots.txt. Cũng giống như con người, thường thì khi đọc văn bản chúng ta hay đọc từ trên xuống dưới, từ trái qua phải và Google spider cũng đọc dữ liệu trên website của chúng ta như vậy. Do đó, thường những thông tin quan trọng chúng ta cần phải bố trí hợp lý với bố cục website để điều hướng Google spider, điều quan trọng nữa là liên kết nội bộ trên các page để điều hướng chúng từ page này qua page khác một cách hợp lý để website được thu thập dữ liệu tốt nhất.