全域性搜尋引擎原理
原理:
搜尋引擎的基本工作原理包括如下三個過程:首先在網際網路中發現、蒐集網頁資訊同時對資訊進行提取和組織建立索引庫再由檢索器根據使用者輸入的查詢關鍵字,在索引庫中快速檢出文件,進行文件與查詢的相關度評價,對將要輸出的結果進行排序,並將查詢結果返回給使用者。
1、抓取網頁。每個獨立的搜尋引擎都有自己的網頁抓取程式爬蟲(spider)。爬蟲Spider順著網頁中的超連結,從這個網站爬到另一個網站,通過超連結分析連續訪問抓取更多網頁。被抓取的網頁被稱之為網頁快照。由於網際網路中超連結的應用很普遍,理論上,從一定範圍的網頁出發,就能蒐集到絕大多數的網頁。
2、處理網頁。搜尋引擎抓到網頁後,還要做大量的預處理工作,才能提供檢索服務。其中,最重要的就是提取關鍵詞,建立索引庫和索引。其他還包括去除重複網頁、分詞(中文)、判斷網頁型別、分析超連結、計算網頁的重要度/豐富度等。
3、提供檢索服務。使用者輸入關鍵詞進行檢索,搜尋引擎從索引資料庫中找到匹配該關鍵詞的網頁為了使用者便於判斷,除了網頁標題和URL外,還會提供一段來自網頁的摘要以及其他資訊。
-
武漢異地審車需要什麼手續
申請人可以直接在機動車登記地以外省份直接檢驗,申領檢驗合格標誌,你只要帶上車主的身份證、行駛證、車輛保險資料、車船稅原件影印件去當地車管所辦理即可。在年審過程中要注意的是你的車輛不能有未處理的違章行為,否則不能進行正常的年審。...
-
晚上九點21分是什麼時辰
晚上九點21分屬於亥時。我國個人把一天等分為十二部分,每一部分相當於現在24小時制的2個小時,並以十二地支來命名每個時辰,從晚上23點起為子時,以此類推。這是我國古人根據一日間太陽出沒的自然規律、天色的變化以及自己日常的生產活動、生活習慣而歸納總結、獨創...
-
新鮮豆皮的做法
涼調最好吃,把豆皮切絲過一下熱水,控水待用,胡蘿蔔切絲過一下熱水控水、金針菇過一下熱水控水、把它們放在一起,加鹽、味極鮮、蠔油、少許白糖、醋、蒜末、薑末,然後用蔥花熟油倒進豆皮裡攪拌均勻即可。調料:姜5克、3/4茶匙鹽、1/4茶匙味精、適量水澱粉、熟植物油做...
-
考核成績是什麼意思
是指在某個領域的技術能力進行考試的成績,在某個方面的技術能力進行考核的成績。體現了一個人的能力和內心的選擇,其實每個人都有各自的優缺點,都有在某個領域擅長的地方。所以有時候不要因為某一件事情去完全否定一個人,要客觀理性的去看待人,這樣才能夠做出正確的...