Thursday, December 20, 2012

SEARCH ENGINE hoạt động như thế nào?

Để hiểu về search engine hoạt động như nào, các bạn cùng công ty seo Ancoti tìm hiểu về các vấn đề sau: 
Khái niệm về SE thì có lẽ Seoer nào cũng đã nắm rõ nhưng với người dùng Internet thì không phải ai cũng hiểu về nó. Nhưng người dùng sẽ biết được khi tìm kiếm một vấn đề nào đó thì máy chủ google hay yahoo, bing,... sẽ trả về chọ họ một loạt các kết quả. Và để người dùng tìm kiếm hiệu quả hơn thì họ cũng cần hiểu thêm một chút về bộ máy tìm kiếm mà họ sử dụng hàng ngày.


Search Engine làm việc bằng cách lưu trữ thông tin về nhiều trang Web và trả về kết quả mà người dùng tìm kiếm dựa trên những thông tin mà nó thu thập được. Những thông tin này  được thu thập bởi các Spider (chính là Web crawling) và nội dung của mỗi trang sẽ được phân tích để SE quyết định nên index cái nào (ví dụ, những từ khoá được thu thập từ các titles, heading hay một số trường đặc biệt gọi là meta tags) để trả về những thông tin mà người tìm kiếm mong muốn nhất.

Dữ liệu về những trang Web sẽ được lưu trữ tại các cơ sở dữ liệu chỉ mục để sử dụng cho những lần truy vấn sau. Một số Search Engine, như Google chẳng hạn, sẽ lưu trữ toàn bộ hay một phần trang gốc (được xem như một cache) cũng như thông tin về trang Web đó, trái lại với một số SE khác, như AltaVista sẽ lưu trữ tất cả các từ của những trang mà nó tìm thấy.
hoạt động của Search Engine


Khi người dùng nhập vào các Search Engine một truy vấn (chủ yếu là các keyword), các SE này sẽ kiểm tra các index của nó và cung cấp danh sách các trang Web phù hợp nhất, thường là các cụm từ ngắn hay một phần của một đoạn văn bản. Hầu hết các Search Engine đều sử dụng các Boolean Operators (toán tử luận lý) như AND, OR và NOT để xác định các search query (truy vấn tìm kiếm). Một số SE khác lại sử dụng những phương pháp tiên tiến hơn như Proximity Search (tìm kiếm gần kề) để cho phép người dùng xác định được khoảng cách giữa các từ khoá.

Dịch vụ thư mục – Indexing
Các dịch vụ thư mục như của Yahoo và hỏi-đáp như của Ask Jeeves không dùng phần mềm thu thập tự động thông tin Web. Thay vào đó, các biên tập viên sẽ thực hiện việc tổng hợp thư mục Web một cách thủ công. Mặc dù Yahoo không lập chỉ mục trang Web như cách của search engine nhưng nó thực sự cung cấp dữ liệu chất lượng cao. Tuy nhiên, với mức tăng trưởng hàng năm 70% tổng số trang Web từ nay đến 2003 theo như dự báo của International Data Corp. thì những dịch vụ thư mục kiểu này sẽ phải gia tăng liên tục số lượng biên tập viên để có thể duy trì được tính hữu dụng của dịch vụ.
Một loại search engine lai mới đang xuất hiện, sử dụng phương pháp phân tích ngôn ngữ để xác định dịch vụ thư mục, search engine hay cơ sở dữ liệu sẽ đáp ứng tốt nhất cho yêu cầu tìm kiếm thông tin của người dùng. Ví dụ, vấn tin “dân số Việt Nam” sẽ trả về thông tin điều tra dân số của Việt Nam, liên kết đến các Web site, thư mục và các thông tin có liên quan.

Tương lai của việc tìm kiếm – Searching
Một số search engine đã có tính năng tìm kiếm các đối tượng thay vì văn bản – chẳng hạn ảnh của một “ngôi sao” nào đó ở dạng JPEG. Tuy nhiên, còn rất nhiều nội dung multimedia như hình ảnh động của Shockware, Flash và dạng âm thanh, hình ảnh liên tục, hiện thời chưa thể lập chỉ mục được.
XML là một ngôn ngữ mô tả nội dung, không chỉ có khả năng chuyển tải thông tin mà còn có các thẻ định danh để mô tả thông tin này có ý nghĩa gì. Search engine có thể lập chỉ mục trang Web XML dễ dàng hơn nhờ những thẻ này cho biết thông tin tương ứng xuất hiện ở đâu trên trang. Ví dụ, thẻ định danh “125” báo cho search engine biết rằng 125 là giá. Điều này cho phép search engine so sánh giá của nhiều nhà bán lẻ khác nhau một cách dễ dàng và nhanh chóng.

0 comments:

Post a Comment