Để hiểu về search engine hoạt động như nào, các bạn cùng công ty seo Ancoti tìm hiểu về các vấn đề sau:
Khái niệm về SE thì có lẽ Seoer nào cũng đã nắm rõ nhưng với người dùng Internet thì không phải ai cũng hiểu về nó. Nhưng người dùng sẽ biết được khi tìm kiếm một vấn đề nào đó thì máy chủ google hay yahoo, bing,... sẽ trả về chọ họ một loạt các kết quả. Và để người dùng tìm kiếm hiệu quả hơn thì họ cũng cần hiểu thêm một chút về bộ máy tìm kiếm mà họ sử dụng hàng ngày.
Khái niệm về SE thì có lẽ Seoer nào cũng đã nắm rõ nhưng với người dùng Internet thì không phải ai cũng hiểu về nó. Nhưng người dùng sẽ biết được khi tìm kiếm một vấn đề nào đó thì máy chủ google hay yahoo, bing,... sẽ trả về chọ họ một loạt các kết quả. Và để người dùng tìm kiếm hiệu quả hơn thì họ cũng cần hiểu thêm một chút về bộ máy tìm kiếm mà họ sử dụng hàng ngày.
Search Engine làm
việc bằng cách lưu trữ thông tin về nhiều trang Web và trả về kết quả mà người dùng tìm kiếm dựa trên những thông tin mà nó thu thập được. Những thông tin này được thu thập bởi các Spider (chính là Web crawling) và nội dung của mỗi
trang sẽ được phân tích để SE quyết định nên index cái nào (ví dụ, những từ khoá
được thu thập từ các titles, heading hay một số trường đặc biệt gọi là meta
tags) để trả về những thông tin mà người tìm kiếm mong muốn nhất.
Dữ liệu về những
trang Web sẽ được lưu trữ tại các cơ sở dữ liệu chỉ mục để sử dụng cho những
lần truy vấn sau. Một số Search Engine, như Google chẳng hạn, sẽ lưu trữ toàn
bộ hay một phần trang gốc (được xem như một cache) cũng như thông tin về trang
Web đó, trái lại với một số SE khác, như AltaVista sẽ lưu trữ tất cả các từ
của những trang mà nó tìm thấy.
Khi người dùng nhập vào các Search Engine một truy vấn (chủ yếu là các keyword), các SE này sẽ kiểm tra các index của nó và cung cấp danh sách các trang Web phù hợp nhất, thường là các cụm từ ngắn hay một phần của một đoạn văn bản. Hầu hết các Search Engine đều sử dụng các Boolean Operators (toán tử luận lý) như AND, OR và NOT để xác định các search query (truy vấn tìm kiếm). Một số SE khác lại sử dụng những phương pháp tiên tiến hơn như Proximity Search (tìm kiếm gần kề) để cho phép người dùng xác định được khoảng cách giữa các từ khoá.
Dịch vụ thư
mục – Indexing
Các dịch vụ thư mục
như của Yahoo và hỏi-đáp như của Ask Jeeves không dùng phần mềm thu thập tự
động thông tin Web. Thay vào đó, các biên tập viên sẽ thực hiện việc tổng hợp
thư mục Web một cách thủ công. Mặc dù Yahoo không lập chỉ mục trang Web như
cách của search engine nhưng nó thực sự cung cấp dữ liệu chất lượng cao. Tuy
nhiên, với mức tăng trưởng hàng năm 70% tổng số trang Web từ nay đến 2003 theo
như dự báo của International Data Corp. thì những dịch vụ thư mục kiểu này sẽ
phải gia tăng liên tục số lượng biên tập viên để có thể duy trì được tính hữu
dụng của dịch vụ.
Một loại search
engine lai mới đang xuất hiện, sử dụng phương pháp phân tích ngôn ngữ để xác
định dịch vụ thư mục, search engine hay cơ sở dữ liệu sẽ đáp ứng tốt nhất cho
yêu cầu tìm kiếm thông tin của người dùng. Ví dụ, vấn tin “dân số Việt Nam” sẽ
trả về thông tin điều tra dân số của Việt Nam, liên kết đến các Web site, thư
mục và các thông tin có liên quan.
Tương lai của
việc tìm kiếm – Searching
Một số search
engine đã có tính năng tìm kiếm các đối tượng thay vì văn bản – chẳng hạn ảnh
của một “ngôi sao” nào đó ở dạng JPEG. Tuy nhiên, còn rất nhiều nội dung
multimedia như hình ảnh động của Shockware, Flash và dạng âm thanh, hình ảnh
liên tục, hiện thời chưa thể lập chỉ mục được.
XML là một ngôn ngữ
mô tả nội dung, không chỉ có khả năng chuyển tải thông tin mà còn có các thẻ
định danh để mô tả thông tin này có ý nghĩa gì. Search engine có thể lập chỉ
mục trang Web XML dễ dàng hơn nhờ những thẻ này cho biết thông tin tương ứng
xuất hiện ở đâu trên trang. Ví dụ, thẻ định danh “125” báo cho search engine
biết rằng 125 là giá. Điều này cho phép search engine so sánh giá của nhiều nhà
bán lẻ khác nhau một cách dễ dàng và nhanh chóng.







0 comments:
Post a Comment