在线观看av毛片亚洲_伊人久久大香线蕉成人综合网_一级片黄色视频播放_日韩免费86av网址_亚洲av理论在线电影网_一区二区国产免费高清在线观看视频_亚洲国产精品久久99人人更爽_精品少妇人妻久久免费

首頁 > 文章中心 > 信息檢索

信息檢索

前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇信息檢索范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。

信息檢索范文第1篇

【關鍵詞】網(wǎng)絡信息;檢索

隨著信息技術的高速發(fā)展,信息資源的越來越顯得重要,而網(wǎng)絡信息資源也逐步成為這個信息時代的核心資源。信息檢索技術也很快得到發(fā)展,在此網(wǎng)絡信息檢索隨著網(wǎng)絡的發(fā)展也應運而生。網(wǎng)絡信息檢索,就是將描述特定用戶所需網(wǎng)絡信息的提問特征,與信息儲存的檢索標識進行異同比較,從中找出與提問一致或基本一致的網(wǎng)絡信息的過程。相對傳統(tǒng)文獻檢索,網(wǎng)絡信息檢索顯現(xiàn)出了很多的優(yōu)越性,如不受時間地點的限制,檢索方式多樣化,多元化等。但是我覺得網(wǎng)絡信息檢索的發(fā)展還不是十分完善,仍存在些問題,如目前檢索工具在信息搜集缺乏統(tǒng)一的規(guī)范管理,檢索過程會出現(xiàn)很多雷同,甚至無用的垃圾信息等。以下從網(wǎng)絡信息檢索目前存在的問題,及針對問題面臨的以后的發(fā)展方向進行了探討。

隨著網(wǎng)上信息資源的膨脹發(fā)展,一種搜索引擎,無論它多么完善都不可能滿足一個人所有的檢索需求。如果遇到文獻普查、專題查詢、新聞調查與溯源、軟件及MP3下載地址搜索等情況,人們就更需要使用多種搜索引擎來比較、篩選和相互印證。為解決逐一登陸各搜索引擎,在各搜索引擎中分別多次輸入同一檢索請求等煩瑣操作,基于網(wǎng)絡檢索工具的檢索工具產生了。

目前這列檢索工具只要有兩種:集成搜索引擎和元搜索引擎。所謂集成搜索引擎是在一個檢索界面上鏈接若干種獨立的搜索引擎,檢索時,一次檢索輸入,可以指定搜索引擎也可以要求多個引擎同時檢索,搜索結果由各搜索引擎分別以不同頁面提交的網(wǎng)絡檢索工具,其實是利用網(wǎng)站鏈接技術形成的搜索引擎集合。集成搜索引擎制作與維護技術簡單,可隨時對所鏈接的搜索引擎進行增刪調整和及時更新,尤其大規(guī)模專業(yè)搜索引擎集成鏈接,深受特定用戶群歡迎。如國內天網(wǎng)搜霸和百度搜霸,國外比較著名的有“搜索之家” “網(wǎng)際瑞士軍刀”等。

另一個是元搜索引擎,用戶只需遞交一次檢索請求,由元搜索引擎負責轉換處理后提交給多個預先選定的獨立搜索引擎,并將所有查詢結果集中起來以整體統(tǒng)一的格式呈現(xiàn)到用戶面前。國外比較著名的元搜索引擎有Vivisimo、EZ2WWW、Kartoo、SurfWax、Fazzle等。目前國內現(xiàn)在還沒有見到真正意義上的元搜索引擎。元搜索引擎雖沒有網(wǎng)頁搜尋機制,亦無獨立的索引數(shù)據(jù)庫,但在檢索請求提交、檢索接口和檢索結果顯示等方面,均有自己研發(fā)的特色元搜索技術支持。目前元搜索引擎技術主要有并行處理式和串行處理式兩大類。并行式元搜索引擎運行時是將查詢請求同時發(fā)向各個獨立搜索引擎,然后將的結果按特定的順序呈現(xiàn)給用戶;串行式元搜索引擎運行時是將查詢請求先發(fā)向某個獨立搜索引擎,待其返回結果后再將請求發(fā)往另一個獨立搜索引擎。

從第一個元搜索引擎Metacrawler誕生至今,這一新型的網(wǎng)絡檢索工具異軍突起,發(fā)展迅速,目前可用的元搜索引擎已近百種。由于元搜索引擎的功能受著源搜索引擎和元搜索技術的雙重制約,元搜索引擎比較理想的并不多見。信息檢索專家邢志宇將元搜索引擎存在的問題歸納如下:(1)大多元搜索引擎不支持多語種,尤其是漢語檢索;(2)一些元搜索引擎實現(xiàn)檢索語法轉換的能力有限,不支持指定字段檢索,不能充分發(fā)揮各個獨立搜索引擎的高級檢索功能;(3)部分元搜索引擎無源搜索引擎列表,用戶不能自主選擇和調用源搜索引擎;(4)大部分元搜索引擎僅支持調用AltaVista、Excite、、Yahoo!、Infoseek、Lycos等常用的搜索引擎,一些大型搜索引擎如NorthernLight、HotBot等被排除在外,人為地限制了搜索資源的利用;(5)在檢索結果上,元搜索引擎只能返回十幾、數(shù)十條“相關度”較高的結果,大量可能有價值的源搜索引擎的檢索結果被忽視,影響檢索結果的全面性。

Internet的發(fā)展使信息采集、傳播和利用無論是從規(guī)模還是速度都達到了空前的水平。我覺得未來網(wǎng)絡信息檢索技術的發(fā)展方向如下:

1.智能化

現(xiàn)有的檢索引擎存在著查全率和查準率低的問題,未來的搜索引擎技術必須具有能及時挖掘新信息和及時能鏈接新增的信息,多途徑檢索功能,用戶可以交互式檢索,搜索出滿意的信息。提高網(wǎng)絡信息檢索技術水平并實現(xiàn)智能檢索,智能化是網(wǎng)絡信息檢索未來主要的發(fā)展方向。智能檢索是基于自然語言的檢索形式,機器根據(jù)用戶所提供的以自然語言表述的檢索要求進行分析,而后形成檢索策略進行搜索,智能檢索技術就是采用人工智能進行信息檢索的技術,它可以模擬人腦的思維方式,分析用戶以自然語言表達的檢索請求,自動形成檢索策略進行智能、快速、高效的信息檢索。最近幾年,智能信息檢索作為人工智能的一個獨立研究分支得到了迅速發(fā)展,而且目前已有一些搜索引擎支持智能檢索,但智能化程度還不高,這方面還有待進一步的發(fā)展。

2.標準化

現(xiàn)在的網(wǎng)站信息瞬息萬變,雜亂紛繁,很是需要進行分類整理。目前雖然有大量的搜索引擎,但還沒有一個統(tǒng)一嚴格的分類方法來管理,網(wǎng)絡信息資源在組織分類上需要制定一個統(tǒng)一的分類標準。還要規(guī)范網(wǎng)絡術語,提高資源共享的程度,這樣可以有效保證用戶的檢索效率。

3.個性化

信息檢索范文第2篇

[關鍵詞] 向量空間 中文 信息檢索 經濟

信息檢索( Information Retrieval) 是一個古老而又全新的話題。說它古老,因為自從有了文獻便有了信息檢索。當人們從中查找所需信息時,信息檢索也就應運而生。只不過那時可檢索的對象較少,因而檢索是一個不自覺的過程。早期的信息檢索主要是手工檢索,人們通過“心想――手翻――眼看”的方式進行。隨著社會的發(fā)展和信息量的增加,人們逐漸認識到信息檢索的必要性與重要性,信息檢索逐漸作為一門新興的學科發(fā)展起來?,F(xiàn)代信息檢索是以計算機科學與技術、網(wǎng)絡技術、光盤技術、通信技術等現(xiàn)代信息技術在信息存儲與檢索中的應用為基礎發(fā)展起來的。

一、信息檢索簡介

1.概念

廣義的信息檢索范圍很大,可以說從書本、報紙以及其他的各種媒體中查找人們需要的信息都可以稱為信息檢索。

狹義的信息檢索是特指利用計算機這個高效的工具對各種信息進行檢索的技術。信息檢索的內容包括文本、圖像、視頻和音頻等多種,但本文只討論文本信息的檢索技術,特別是中文信息的檢索技術。

信息檢索是一門研究從一定規(guī)模的文檔庫(Document Collection)中找出滿足用戶提出的信息需求(User Information Need)的技術。

2.Web信息檢索

Web的出現(xiàn)大大地促進了信息檢索技術的發(fā)展。Web上有異常豐富但又十分混亂的信息資源,其中絕大部分有用的信息還沒有挖掘出來。這是因為目前還沒有特別好的信息處理和檢索工具。這一領域的開發(fā)仍然處于初級階段。

3.中西文信息檢索比較

在文本信息檢索領域,西文信息檢索的發(fā)展較為迅速。西文信息檢索系統(tǒng)可以利用向量空間表示檢索信息內容,并將自然語言處理應用于信息檢索,大大提高了信息檢索的準確性。中文信息的檢索和英文信息的檢索在很多地方是一致的,但也有一些不同。比如中文詞語之間沒有空格,因此在索引前需要進行詞語切分。此外,與英文相比,漢語句法分析和語義理解更為困難。

4.信息檢索的模型

一般有兩種信息檢索模型:基于統(tǒng)計的模型和基于語義的模型。基于統(tǒng)計的模型是應用某些統(tǒng)計的手段從被檢索文檔和高標注等級文檔中查詢與用戶需求匹配程度最好的文檔;而基于語義的模型則嘗試對需求實現(xiàn)一定程度語法語義分析,即對自然語言文本進行一定程度的理解并重新生成查詢。

基于統(tǒng)計的模型主要有:布爾模型(Boolean Model)、擴展布爾模型(Extended Boolean Model)、向量空間模型(Vector Space Model)以及概率模型(Probabilistic Model)等。

二、向量模型

向量模型是重要的檢索模型,其主要優(yōu)點在于:a、通過對特征項的加權改進了模型的檢索效果;b.模型的部分匹配策略允許檢索出與查詢條件相接近的文獻;c.相似度的引進使得能夠對查詢結果進行排序,以倒排文檔方式提交結果。

1.文檔和項的向量空間表示

首先把一個文檔進行分詞處理,并去除那些停用詞,如“我”、“的”、“人們”等。然后對剩余的詞進行合并處理。

在一個給定的集合中先對每個文檔進行以上的操作,獲得每個文檔索引項的集合。再把所有文檔的索引項進行合并,形成了一個代表整個文檔集合的索引項集合,整個索引項集合表示了一個“空間”。在一個文檔空間中,可以給每個索引項賦一個權值,代表這個索引項在這個文檔中的地位。如表1所示,文檔1的向量空間是(3,4,5),文檔2的向量空間是(2,3,3)。

與文檔空間相對應的一個概念是“項空間”,它是指一個索引項在文檔集合中的各個文檔權值的集合。如表1所示,索引項“經濟”的向量空間是(4,3,0,0),索引項“金融”的向量空間是(5,3,0,5)。

于是文獻和查詢均可用由項構成的向量來表示:d=(t1,t2, ……,tn) 。項的權重(term weight) :對于有n 個不同的項的系統(tǒng),文獻D=(t1,t2,……,tn)。

2.項權值

項t k(1≤k≤n)常常被賦予一個數(shù)值Wk,表示它在文獻中的重要程度,稱為項t k 的權重。因此,我們一般用D=(w1,w2,…,wn)的形式表示文獻。特征項的權重計算,是人為賦予的,因此主觀性較強,但比較權威的確定權重的方法是運用TF - IDF 公式,即Wik = tfik/dfk=tfik ×idfk,其中tfik為特征項Tk在文檔Di中的出現(xiàn)頻率,稱為項頻率(term frequency);dfk則是文檔集D中出現(xiàn)特征項Tk的文檔的數(shù)量,稱為文檔頻率;idfk為dfk的倒數(shù),稱為反轉文檔頻率(inverteddocument frequency)。另外,還應考慮到文檔的長度,否則長文檔易被檢出,而短文檔會被漏檢,所以通常還要對上面公式進行標準化處理。

假設有三個項:“經濟”、“金融”和“計算機”,它們在不同文檔中的權值如表1所示。

根據(jù)這個表,可以畫出權值和文檔的三維向量空間。

3.計算向量之間的相似程度

相似度S(Similarity):指兩個文檔內容相關程度的大小,當文檔以向量來表示時,可以使用向量文檔向量間的距離來衡量,一般使用內積或夾角θ的余弦來計算,兩者夾角越小說明相似度越高。由于查詢也可以在同一空間里表示為一個查詢向量(見圖1),可以通過相似度計算公式計算出每個文檔向量與查詢向量的相似度,排序這個結果后與設立的閾值進行比較。如果大于閾值則頁面與查詢相關,保留該頁面查詢結果;如果小于則不相關,過濾此頁。這樣就可以控制查詢結果的數(shù)量,加快查詢速度。

三、以經濟信息檢索為例的實例分析

經濟發(fā)展依賴于自然資源的開發(fā)與利用,也離不開經濟信息資源的開發(fā)和利用。開發(fā)經濟信息資源,實際上是對人類智力的開發(fā),是一種知識和科學技術的開發(fā),一種生產技能和管理技能的開發(fā)?,F(xiàn)在,經濟信息已經滲透到現(xiàn)代生活的各個領域,有效地地開發(fā)和利用經濟信息,提高經濟信息的傳播速度已經成為現(xiàn)代經濟發(fā)展的一種推動力,能夠大大提高勞動者的智力水平,從而促進經濟的發(fā)展。因此,在以經濟建設為中心、大力發(fā)展社會主義經濟的過程中,必須不斷地開發(fā)和利用經濟信息資源。

經濟信息是一種社會資源,作用于經濟活動過程,已經成為現(xiàn)代社會經濟發(fā)展的一個先決條件?,F(xiàn)代經濟建設是一個龐大而復雜的系統(tǒng),需要依據(jù)大量的經濟信息去控制、指揮、協(xié)調和組織系統(tǒng)的內部關系,系統(tǒng)和系統(tǒng)之間也需要靠經濟信息去聯(lián)系,才能使經濟活動達到人們預期的目標。在科學技術迅猛發(fā)展的社會里,經濟信息資源顯得更加重要。

假設現(xiàn)有一個包含4篇經濟金融類相關信息文檔的集合,這4篇文檔如下:

D1:金融投資的對象是金融資產……

D2:金融資產是獲得投資收益的資產……

D3:證券投資、基金投資和期權投資組成金融投資……

D4:獲得投資收益是證券性金融投資的主要目的……

檢索表達式Q為:金融投資的資產收益。

首先,需要對文檔和檢索表達式進行分詞處理,其結果如下:

D1:金融/投資/的/對象/是/金融/資產/……

D2:金融/資產/是/獲得/投資/收益/的/資產/……

D3:證券/投資/、/基金/投資/和/期權/投資/組成/金融/投資/……

D4:獲得/投資/收益/是/證券/性/金融/投資/的/主要/目的/……

Q:金融/投資/的/資產/收益/。

然后除去停用詞,去除后的文檔如下:

D1:金融/投資/對象/金融/資產/……

D2:金融/資產/獲得/投資/收益/資產/……

D3:證券/投資/基金/投資/期權/投資/組成/金融/投資/……

D4:獲得/投資/收益/證券/金融/投資/主要/目的/……

Q:金融/投資/資產/收益/。

計算項的權值根據(jù)公式

各個索引項的df和idf值如表2所示

各個索引項在文檔中的頻度如表3所示

則各個索引項在文檔中的權值如表4所示

檢索表達式的權值很簡單,如表5所示

采用內積法計算向量的相似度,則可以看出,文檔D3與檢索表達式的相似度最高,D1、D2、D4相同且低于D3。

四、算法分析總結

算法的計算復雜程度還需要進一步探討,目前這些研究都還不夠深入,許多問題還有待于進一步探討;同時由于自然語言的復雜性,新查詢向量的查全率和查準率雖然有所提高向量模型是以假設向量空間的各維之間相互正交(即各關鍵字之間相互獨立) 為前提的,因而不可避免地存在由此帶來的損失關鍵字間的相關性的缺點,可它把對文檔內容和查詢要求的處理簡化為向量空間中向量的運算,克服了布爾模型的二值評價的缺點,可以計算出文檔與查詢式的相關程度,因而可以很容易地進行輸出結果的排序,用戶相關性反饋機制也很容易實現(xiàn),尤其是具有對處理海量數(shù)據(jù)的適應性等種種優(yōu)點使得它自誕生以來,至今都有很強的生命力。

參考文獻:

[1]雷景生林冬雪符淺淺:基于改進向量空間模型的Web信息檢索技術研究[J].計算機工程, 2005, 1: 14~16

[2]王曉黎王文杰:基于向量空間模型的文本檢索系統(tǒng) [J].微電子學與計算機, 2006, 23: 188~190

[3]包金龍:基于向量空間模型的信息檢索系統(tǒng)的設計 [J].情報檢索, 2005, 7:44~45

[4]安茹娜:淺析經濟文獻信息的開發(fā)和利用[J].科技情報開發(fā)與經濟,2007,12:54~55

信息檢索范文第3篇

摘要:隨著信息技術的發(fā)展以及藥學信息資源的更新,傳統(tǒng)藥學信息檢索課程的教材內容和教學形式均有不同程度的老化。為應對這一問題,應強化對藥學類學生信息素養(yǎng)的培養(yǎng),改革該課程的教材和教學形式。

關鍵詞:藥學信息檢索;課程教學;改革

藥學信息檢索是藥學類專業(yè)的必修課程,在培養(yǎng)學生的藥學科研和工作能力方面起著不可替代的作用。在新的網(wǎng)絡環(huán)境下,藥學信息資源急劇膨脹,新技術、新手段不斷涌現(xiàn)。然而長久以來,無論是藥學信息檢索的課程教材還是教學手段,仍然維持20世紀的傳統(tǒng),無法跟上時展的潮流,培養(yǎng)的學生在檢索能力方面必然會有所欠缺。為了盡可能地克服這一缺陷,提高學生的信息獲取能力,有必要從教學團隊、教材、教學新手段等方面入手,加強本課程體系建設,更新課程內容,采用與時代接軌的新技術作為教學方法,提高學生的學習興趣,進而培養(yǎng)他們獲取更全面的藥學信息資源的能力[1-5]。

1藥學信息檢索教材建設

1.1現(xiàn)有藥學信息檢索教材的不足

本教學團隊在2015年調研常見藥學信息檢索類教材后總結了這些教材的不足之處。首先,這些教材缺乏反映藥學信息最新發(fā)展的內容:①不同程度地存在外文信息量不足、新藥研發(fā)相關信息和國外新上市藥物信息不足、藥物經濟信息和藥事管理信息欠缺等共性的問題。②隨著計算機技術和網(wǎng)絡信息技術的飛速發(fā)展,網(wǎng)絡數(shù)據(jù)庫檢索已成為當前信息檢索的主要工具,因此,藥學信息檢索理論應包含數(shù)據(jù)庫檢索常識。③文獻管理工具應運而生,極大地方便了文獻的檢索、管理與利用,多數(shù)教材沒有對該方面內容進行更新。④垂直搜索引擎自2000年左右出現(xiàn)后,十多年來蓬勃發(fā)展,已取得很多突破性的研究進展,典型的如學術google、soopat等,為廣大科研人員進行信息檢索提供了極大便利,而已出版教材對此類問題的介紹卻寥寥無幾。另外已出版教材中不同程度地存在內容陳舊和滯后的問題,其陳舊性主要表現(xiàn)在以下三個方面:①教材中手工檢索、光盤檢索等內容陳舊落后,而聯(lián)機檢索只適用于情報專業(yè)學生,不宜花費較多筆墨;②網(wǎng)絡信息發(fā)展日新月異,很多網(wǎng)站的網(wǎng)址、格局和具體內容等都已變化,而教材再版時卻缺乏修訂;③很多數(shù)據(jù)庫開始提供新的服務方式,其更趨于人性化和合理化。如引入文獻跟蹤傳遞、Client模式向WEB模式的轉變等,出版教材中對此鮮有介紹;④目前出版的同類教材多側重對檢索工具使用方法的羅列,在將檢索理論應用于具體問題方面存在不同程度的欠缺,實用性有待加強。

1.2革新藥學信息教材的建議

針對上述現(xiàn)有教材的不足,結合藥學信息資源與技術發(fā)展的趨勢,一部合格的教材至少應該具備涵蓋藥學信息更全面、檢索理論更完備、教學內容更合理、更新穎、易讀性更好和實用性更強等特點。結合多年的藥學信息檢索教學與相關科研經驗,筆者擬通過以下7個方面對藥學信息檢索教材進行改革。①立足全球藥物研發(fā)、生產、流通、使用及藥事管理等5大領域,進一步完善藥學信息資源的覆蓋范圍。從上述5個角度出發(fā),通過全面、系統(tǒng)地闡述各領域藥學信息的分布、相關權威網(wǎng)站信息資源和權威信息檢索工具,進一步拓寬藥學信息資源的覆蓋范圍,為學生將來從事相關領域工作奠定基礎。②進一步完善、改進藥學信息檢索的理論體系,在現(xiàn)有理論體系的基礎上,補充講解數(shù)據(jù)庫檢索常識和文獻管理應用等兩部分內容。③引入信息檢索的新工具、新理念,進一步完善、優(yōu)化和整合藥學信息檢索教材的內容。引入或強化對Googlescholar、百鏈、Markush專利檢索等新檢索方法的介紹。④更新教材中陳舊滯后的內容,系統(tǒng)性地更新重要數(shù)據(jù)庫、網(wǎng)站的信息,保證教材內容與最新信息的一致性。⑤通過增加案例分析的比例,從而提高教材的易讀性。同時,對于同類型檢索工具,采用概述全部、重點闡述經典工具的原則指導教材編寫。如對于期刊文獻的索引檢索工具,通過實例重點介紹科學引文索引(ScienceCitationIndex,SCI)的使用;對于期刊文獻的文摘檢索工具,通過實例詳細介紹Scifinder和Pubmed的檢索方法。⑥藥學信息檢索是一門實用性要求極高的課程,教材應重點突出實用性。教材編寫時可從藥學信息資源的分布規(guī)律和日常使用習慣出發(fā),強化對權威檢索工具的介紹,弱化對不常用工具的介紹。⑦新藥立項調研需要獲取多方面的信息,不僅涉及眾多的數(shù)據(jù)庫,要求調研人員具備深厚的藥學信息理論知識和扎實的檢索技能,同時還要求熟悉調研的基本程序?,F(xiàn)有教材在立項調研方面著墨不多,而藥學類專業(yè)學生在畢業(yè)后大部分從事藥學相關工作,因此有必要在教材中引入新藥立項調研的內容,幫助初學者了解新藥立項調研的主要流程,為其今后從事相關工作奠定基礎。

1.3新編藥學信息檢索教材的實踐

為實踐上述教材編寫理念,教學團隊積極申報,經專家論證和江蘇省教育廳批準,《新編藥學信息檢索教程》(ISBN:9787564166045)獲得立項為2015年江蘇省高等學校重點教材(新編)。全書共分3篇,分別是基礎篇、檢索篇和管理利用篇?;A篇主要包括第1章的內容,講述信息與文獻的概念、文獻的分類、藥學信息及其分布;重點講述信息檢索的概念、檢索步驟、檢索效果的評價方法、文獻鑒別方法與閱讀文獻的技巧;最后總結了數(shù)據(jù)庫檢索的常識?;A篇的學習為后續(xù)檢索和管理利用文獻奠定理論基礎。檢索篇包括第2、3、4、5章,按照信息資源的類型,分別講述網(wǎng)站信息資源(第2章)、書籍與期刊(第3章)、特種文獻(第4章)、其他藥學信息資源(第5章)常用的檢索系統(tǒng)及其使用方法。掌握這些資源的概念、特點及檢索技能,是做好信息檢索工作的前提與保障。管理利用篇主要包括第6、7章的內容,第6章介紹網(wǎng)頁及文獻管理的常用工具及其使用方法,重點介紹經典的文獻管理軟件EndNote;第7章介紹新藥立項調研的內容及方法。令人欣喜的是,2016年出版的《藥學信息檢索與利用》(ISBN:9787117221252)也對傳統(tǒng)教材的內容和體系作了較多的創(chuàng)新,這表明教學同仁們都已意識到對藥學信息檢索教材進行革新的緊迫性和必要性,并且進行了有益的嘗試。

2藥學信息檢索課程的新教學形式

一般而言,傳統(tǒng)藥學信息檢索的教學形式主要是教師課堂講授,輔以少量的學生檢索實踐。然而近年來慕課(Massiveopenonlinecourses,MOOC)模式正深刻影響著大學教學方式的轉型[3],針對藥學信息檢索教學仍然是課堂教授型為主的現(xiàn)狀,教學團隊在教學中引入MOOC模式,利用E-class平臺建設了課程網(wǎng)站(圖1),攝制主要教學內容的教學視頻,采用平時化、小組化的形式引導學生開展“課堂外+線上”的輔助學習形式。在教學實踐中,通過課程網(wǎng)站短小精悍的慕課視頻(圖2),提供暫停、回放等多種功能,由學生自我控制學習節(jié)奏;以在線交流或留言的方式提前了解學生的學習困難,在課堂上給予有效的輔導,同時以學生的相互交流促進其對知識的吸收;另外,通過課程網(wǎng)站若干典型的問題,幫助學生及時進行檢測,使其對自身的學習情況作出判斷,其結果經匯總處理后,能幫助教師進一步了解學生的學習狀況。傳統(tǒng)藥學信息檢索課程對學生學習質量的評測主要是通過書面考試,但學生可以在考試前突擊記憶知識點,考試成績并不能代表真實的檢索水平和能力,起不到全面的考察作用。為此,筆者所在教學團隊試行了綜合PBL教學模式和翻轉課堂(FlippedClassroom)模式的課程考核體系。該體系包括向學生小組檢索任務、學生分工完成檢索課題、課堂展示檢索報告、小組間互相提問并交流等環(huán)節(jié)。教師在整個體系中僅扮演引導者的角色,某一小組的成績由其他小組打分而來。但對于學生在檢索和展示過程中暴露出的問題和欠缺,教師結合理論知識和實踐經驗對學生進行點撥,從而深化學生對相關檢索技術的理解,強化學生的檢索技能。通過這樣的教學活動,不僅可以引導學生對藥學領域的熱點研究方向、焦點話題進行關注,訓練他們解決實際問題的能力,還通過引入團隊互評機制,使得對學生學習質量的評估更加客觀化和日?;E囵B(yǎng)藥學類專業(yè)學生的良好信息素養(yǎng)不僅需要強化他們的藥學信息檢索技能,還應該使學生認識到時刻接觸并掌握最新藥學信息的必要性和重要性,引導學生養(yǎng)成平時閱讀藥學研究、監(jiān)管、市場等相關信息的習慣。隨著智能終端與移動互聯(lián)網(wǎng)技術的發(fā)展,移動閱讀正在逐漸占據(jù)學生課堂外的主要閱讀時間[4-5],教育者不應排斥這一趨勢,而應該順勢而為。教學團隊在教學中注重發(fā)揮移動閱讀的優(yōu)勢,將教學內容與新興技術結合后推送給學生,通過增強內容的可讀性、技術的實用性來吸引學生關注,從而達到對學生全方位的教育目的。

3總結

目前的藥學信息檢索類教材編寫年代相對較早,存在不同程度的缺陷,難以適應新時代的教學需求。教學團隊一方面從課程教學內容入手,從基礎上更新教材,引入新的信息資源、檢索方法與技術,使學生所學與時展吻合。另一方面,對教學形式進行革新,引入慕課、移動學習、翻轉課堂、項目化任務等多種新教學手段,吸引學生的學習興趣,強化對學生實際檢索能力的訓練和考察。良好的信息獲取能力對于現(xiàn)代藥學類專業(yè)學生有重要意義,可以為學生今后的工作奠定全面扎實的信息檢索基礎。本次教學改革以新內容、新手段革新藥學信息檢索課程,有利于吸引學生的學習興趣,增強學生的學習效果,提高學生的檢索能力。

參考文獻

[1]楊霞.“互聯(lián)網(wǎng)+”視閾下醫(yī)學文獻檢索課的理性思考[J].電腦知識與技術,2016,12(30):172-175.

[2]劉玉婷,王凌,馬路.醫(yī)學信息檢索課程現(xiàn)狀調研及改革探討[J].醫(yī)學信息學雜志,2014,35(12):81-84+72.

[3]姬曉燕.醫(yī)藥文獻信息檢索教學的改進[J].藥學教育,2012,28(4):38-40.

[4]檀律科,何華,孫忠進,等.創(chuàng)新意識下的藥學研究生文獻檢索課程[J].藥學教育,2011,27(2):27-29.

[5]陳麗.新時期醫(yī)藥院校文獻檢索課教學改革探討[J].醫(yī)學信息學雜志,2011,32(6):88-90.

[6]張丹.MOOC環(huán)境下我國信息素養(yǎng)教育研究綜述[J].圖書情報工作,2016,60(11):143-148.

[7]曾潤喜,陳創(chuàng).大學生移動閱讀行為的研究進展評述[J].數(shù)字圖書館論壇,2017,13(3):60-67.

信息檢索范文第4篇

當今社會,科技飛速發(fā)展,我們已經進入了信息網(wǎng)絡化社會??焖?、全面、準確地獲取所需要的信息,是現(xiàn)代人才必備的素質。高校作為培養(yǎng)國家各種管理和科研人才的搖籃,必須上好信息檢索課。信息檢索課和其他課程既有共性,又有自身獨特的規(guī)律。要想上好這門課程應解決好如下幾個問題。

第一,要轉變思想觀念,給信息檢索課以應有的地位。

很多學生,也有部分教師認為信息檢索課對學生們是可有可無的,不開設此課學生照樣寫各種論文,照樣畢業(yè)。這是一種把此課的意義和目的簡單化的錯誤認識。

很多高校給信息檢索課設定了不同的名稱和地位,但多數(shù)都不能反映本課程的內在價值?,F(xiàn)在已是信息網(wǎng)絡時代了,這門課程同數(shù)學、語文、外語等學科一樣,應是一門基礎的必修課。信息檢索是人人起碼應具備的一種能力和手段,只不過不同專業(yè)的學生所檢索的信息內容不同罷了。該課程地位不高,也是學生不重視的一個主要原因。

信息檢索課應該是一門具有長遠戰(zhàn)略意義的課程,它關系到國家、民族的興衰。

第二,加強專業(yè)教師的培養(yǎng),建立一支專業(yè)教師隊伍。

人是生產力中最活躍的因素,起決定作用。信息檢索課對教師綜合素質要求很高,不僅要有良好的信息及其檢索素質,還要具備相應的計算機、圖書館學、外語知識,懂得更多其他的專業(yè)知識特別是懂自然科學各專業(yè)知識是非常重要的。

現(xiàn)在,很多大學都是由圖書館工作人員來承擔這項任務的。圖書館人員講此課程有其優(yōu)勢所在,但畢竟離專業(yè)教師水平還是有一定差距的。

教和學是教學過程中不可缺少的兩個相關的方面。所以我們應大力培養(yǎng)專業(yè)教師,越多越好,以解決現(xiàn)在這方面人才的缺乏和綜合素質不高的難題。要培養(yǎng)“復合型”人才,首先應有“復合型”的教師隊伍,使信息檢索課有質的飛躍。

第三,要明確信息檢索課的最終目的。

教學目的明確與否,直接影響教學質量和效果。學校和教師不應該把通過此課的教學使學生獲得相應的知識和能力來解決平時查資料、完成作業(yè)和寫畢業(yè)論文等作為此課的最終目的,這樣短視的目的勢必削弱此課的重大意義和價值,降低其應有的地位。

信息檢索這門課程培養(yǎng)的信息檢索意識和能力應該是一種持久的、終身起作用的一種能力,即使學生畢業(yè)離開教師和學校到新的工作崗位時,依然能憑借這種能力及時更新、補充、獲取新的信息知識,解決自學、科研、工作中的問題。

有了如此深刻的認識,必然激發(fā)教師的責任感和事業(yè)心,學生們也一定能重視起來,努力學好這門課程。

第四,正確處理理論課和實習課的關系。

每一門課程都是由特定的研究對象及其性質、特征等構成的完整理論體系,有其自身的規(guī)律和原則。如果不把這些最基本的東西講給學生,他們就不能對本課程有一個宏觀的掌握,沒有此知識作為基礎,學生們對實習課就心里沒數(shù),認識模糊,實習課將是盲目的,不會也不可能收到良好的效果。

我們強調理論知識的重要性,并不否定實習課的意義。這門課程實質就是讓學生們在具備了一定信息知識和意識后,用其去指導實習活動,培養(yǎng)信息檢索能力。能力是要通過實踐鍛煉培養(yǎng)出來的,本課程的最大特點之一就是實踐性強,強調學生多動手,動手查找各種工具書,運用各種數(shù)據(jù)庫及各種手段,去解決實際問題。因此,實習課也是此課程不可缺少的組成環(huán)節(jié),而且有其重要的地位和作用。

我們反對因這門課程實踐性強,而少傳授或不傳授必要的信息檢索知識;也反對因傳授必要的基礎理論知識而輕視實踐和實習。在有限的課時內,教師要根據(jù)本校實際狀況和不同專業(yè)特點,靈活處理兩者的關系,理論課和實習課都應有一定課時,不可偏廢,這樣才能獲得良好的教學效果。

第五,解決好開課時機和教材問題。

開課時機的選擇恰當與否,會影響教學效果。大學生在大一時忙于專業(yè)課學習,還沒有必須通過信息檢索來解決問題的需求。大一開設此課過早。過早開設,沒有實習課做及時運用是容易忘掉理論的。我們在教學過程中發(fā)現(xiàn)大二是開設此課的最好時機,因為大一是基礎積累階段,到大二就產生了檢索的客觀需求了,這時開設,學生們會有雪中送炭的感覺,因此他們會有很大的興趣去學習。過晚開設,不易在學校這幾年里通過理論知識學習和相應的實習課培養(yǎng)出這種終身攜帶的能力。學生在高校環(huán)境中有利于培養(yǎng)信息檢索能力的各種工具書、數(shù)據(jù)庫和檢索手段的幫助,走向社會后,很少有這樣的機會和條件,所以在大學期間培養(yǎng)這種能力是必要的。

信息檢索課教材五花八門,我們要根據(jù)學校的實際和培養(yǎng)目標來選取相應教材。我們對教材有如下要求:

第一,簡明實用。教材要傳授最基本的信息和檢索知識及原理。作為學生的理論基礎的教材,重點應放在各種工具書、數(shù)據(jù)庫、聯(lián)機檢索、網(wǎng)絡檢索方面,這樣有利于各專業(yè)學生快速掌握信息資源檢索和利用的方法。

第二,全面新穎豐富。教材除了介紹傳統(tǒng)檢索方法外,還應全面細致地介紹當今國內外信息檢索狀況及發(fā)展趨勢,提供本專業(yè)教師多年的經驗與學術觀點作為學生們學習此課的指導或導航,這樣能快速培養(yǎng)學生的信息意識和相應能力,少走彎路,擴展視野。

第三,大力介紹國內外主要的信息服務機構和服務系統(tǒng),使學生了解各種信息源及其質量,使教材更實用,保證學生們獲得的信息全面、權威。

第四,教材應配備各種相應的多媒體。由于本課特點,如有各種多媒體的幫助,教學效果會更好。這些多媒體結合教材內容提供了大量的樣例,并采取有利于學生思維方式和知識獲取的相應結構設計,這種集文字、圖像、音頻、視頻等于一體的教材,將直觀和理論結合起來,充分調動了學生們的各種感官,有效提高了學生參與的興趣和教學效果。

第五,與其他專業(yè)的關系。信息檢索的速度、全面性和準確性,不僅僅取決于了解、掌握信息源和用什么方法去獲取,而且還取決于對本專業(yè)知識的了解掌握情況,取決于對信息的表述語言的掌握。

世界上多數(shù)權威數(shù)據(jù)庫是用英文完成的,很多學生經常跨學科進行信息檢索,因此,從某種意義上說,信息檢索是多學科知識的綜合應用,信息檢索需要多種知識和技能的支持。社會進步、科技飛速發(fā)展是用戶信息變化、發(fā)展的直接動力。用戶不僅僅需要本專業(yè)的學術信息,他們更需要全方位的綜合信息。因此,信息檢索能力和復合型人才、多學科知識是不矛盾的。

第六,與宣傳、利用學校圖書館各種信息資源結合起來。

高校圖書館是學校的信息、科研中心,不僅有豐富的各種信息,更重要的是還有各種各樣的信息檢索工具、數(shù)據(jù)庫和檢索手段,是我們開設信息檢索課的最好的實習基地。

首先讓學生們了解、利用好本校各種信息資源是非常重要的。這些資源方便、實用,有針對性,使學生們省時省錢。教師在講信息檢索課時,有目的地讓學生們了解圖書館方面的知識,讓學生們知道本館有哪些資源,在什么位置,用什么樣檢索工具和方法能獲取。

這些不僅有利于學生們把理論與實踐結合起來,有利于通過動手實踐培養(yǎng)檢索能力,達到了本課的最終目的,同時也提高了圖書館資源的利用率。

信息檢索范文第5篇

Abstract: The Internet has brought convenience to the users' information retrieval, but also led to a large number of redundant information, resulting in inefficient retrieval. Semantic retrieval makes retrieval efficiency and retrieval accuracy greatly enhanced through semantic analysis of the requirements of the users to retrieve. Based on the analysis on basic elements of semantic retrieval and retrieval principle, this paper describes three common semantic retrieval systems, which embodies the advantages of semantic retrieval in network information retrieval environment.

關鍵詞: 語義檢索;本體;語義網(wǎng)

Key words: semantic retrieval;ontology;Semantic Web

中圖分類號:TP39 文獻標識碼:A 文章編號:1006-4311(2013)10-0203-02

0 引言

互聯(lián)網(wǎng)的快速發(fā)展和廣泛應用,為人們提供了一個廣闊的信息空間,也為信息檢索提供了一個廣闊的發(fā)展平臺?;ヂ?lián)網(wǎng)的開放性和自由性使得網(wǎng)絡信息資源呈現(xiàn)出數(shù)量巨大、異構性、分散性和動態(tài)性特征。但由于網(wǎng)絡信息時效性強以及互聯(lián)網(wǎng)缺乏必要的監(jiān)督和質量控制,使得大量垃圾信息混于高質量信息當中,增加了有效信息獲取的難度,影響檢索效率。因此,使用有效的檢索工具才能使得網(wǎng)絡信息資源為人們所充分利用。

1 網(wǎng)絡信息資源點與檢索工具

上世紀90年代中期出現(xiàn)的搜索引擎技術目前已經成為檢索各類網(wǎng)絡信息資源最主要的檢索工具。搜索引擎一般工作流程是借助于網(wǎng)絡自動搜索軟件(Robot、Spider等)訪問瀏覽網(wǎng)頁并抓取文件,并通過已瀏覽的網(wǎng)頁中的鏈接訪問更多網(wǎng)頁。在抓取網(wǎng)頁的同時對頁面文件進行分析分解以及索引,建立索引數(shù)據(jù)庫。當用戶在搜索引擎界面輸入搜索詞后,搜索引擎對搜索詞進行處理,按照處理后的搜索詞在索引數(shù)據(jù)庫中找出所有包含相關內容的網(wǎng)頁,并更具排名算法計算出排名順序然后按照一定的格式返回到搜索頁面。普通的搜索引擎缺點在于返回的檢索結果數(shù)量巨大,無關和冗余信息較多,用戶必須從中進行篩選。雖然布爾運算、截詞運算、自然語言檢索等技術使用大大提高了準確率,但對用戶檢索素養(yǎng)要求很高。針對以上問題,學者把研究對象放到對詞意的挖掘上,探索實現(xiàn)基于概念匹配的檢索技術和方法,基于本體的語義檢索成為研究重點。

2 語義檢索基本要素和原理

隨著人工智能以及自然語言處理的發(fā)展,尤其是語義網(wǎng)技術的興起,自上個世紀以來語義檢索研究得到了迅猛的發(fā)展。雖然對于語義檢索在概念上到目前為止沒有統(tǒng)一的界定,但是不同的研究都有一個共同之處就是基于對信息資源的語義處理時限效率更高的檢索[1]。本體是語義檢索的基礎,其主要任務是對信息資源進行語義表達。

本體(Ontology)原本是一個描述客觀事物本質的哲學概念,是對客觀存在的一個系統(tǒng)的解釋和說明。如今,本體是一種能在語義和知識層次上描述概念體系的有效工具,用來描述概念以及概念之間的關系,通過概念之間的管理來描述概念的語義。本體作為一種最先進的知識表示方式能夠充分的描述所以的數(shù)據(jù)結構,是推理和關系數(shù)據(jù)庫的結合[2]。概括的講本體能夠在人們和應用系統(tǒng)之間達成對術語含義的共享和共同理解,通過函數(shù)(functions)、關系(relations)、原則(axioms)和實例(instances)、類(classes)這5種元素表達本體中的知識,使其具有邏輯推理和語義識別功能,幫助檢索系統(tǒng)跨越目前基于關鍵詞的檢索過程中的上述問題以實現(xiàn)語義檢索[3]。目前實現(xiàn)網(wǎng)絡檢索的技術主要有兩種:第一種,依賴于編碼處理,以分類模式來描述信息資源以實現(xiàn)檢索的目的;第二種,是通過全文檢索查找文本中包含用戶指定的詞語的信息源。語義檢索的語義信息的提取和處理是基于語義網(wǎng)方法與技術的查詢處理與文檔標注及索引?;诒倔w的查詢處理包括:查詢消歧和查詢擴展,通過消岐,明確查詢的確切所指,準確反映用戶的信息意圖,繼而通過加入與其語義相關的其他概念來實施擴展。在對文檔進行語義標注與索引的基礎上,先進行實例檢索,再據(jù)此返回所有以檢出實例標注的文檔信息是語義標注文檔檢索的一種普遍思路。相對于傳統(tǒng)的網(wǎng)絡檢索,基于本體的語義檢索的優(yōu)勢在于體現(xiàn)語義信息,準確表達用戶的查詢意圖。

3 常見語義檢索系統(tǒng)介紹

3.1 一體化醫(yī)學語言系統(tǒng)(UMLS) UMLS(Unified Medical Language System)作為計算機化的情報檢索語言集成系統(tǒng),是美國國立醫(yī)學圖書館(NLM)主持的一項長期開發(fā)研究計劃。它不僅是自然語言處理、語言規(guī)范化以及語言翻譯的規(guī)范化工具,更是實現(xiàn)實現(xiàn)跨數(shù)據(jù)庫檢測的詞匯轉換系統(tǒng)并且還可以幫助用戶連接情報源,包括書目數(shù)據(jù)庫、事實數(shù)據(jù)庫、計算機化的病案記錄以及專家系統(tǒng)過程中對于其他的電子式生物醫(yī)學情報的一體化檢索。UMLS包括情報源圖譜(Information Sources Map)、語義網(wǎng)絡(Semantic Network)、專家詞典(SPECIALIST Lexicon) )和超級敘詞表(Metathesaurus)四部分。其中超級敘詞表是術語、生物醫(yī)學概念、等級范疇、詞匯及其涵義的廣泛集成。1997年第8版的超級敘詞表收錄了739439個詞匯,這些詞匯來源于30多種生物醫(yī)學詞表和分類表的能表達33萬多個概念的,詞匯量達到空前規(guī)模。而語義網(wǎng)絡是為超級敘詞表中的所有概念提供語義類型及相互關系結構的工具,是為建立概念術語間相互錯綜復雜關系而設計的。UMLS的語義網(wǎng)絡不僅運用了常規(guī)的語義控制手段,如屬分、相關關系控制、語義等級,同時在語義規(guī)范和語義關系分析、延伸等多方面有許多創(chuàng)新。

3.2 語義網(wǎng)(Semantic Web) 為了能夠在網(wǎng)絡環(huán)境下也同樣實現(xiàn)語義檢索的功能進而開發(fā)研究了語義網(wǎng)的W3C項目。W3C項目是將網(wǎng)絡上的數(shù)據(jù)通過一種方式進行連續(xù)和定義,通過這種定義和連續(xù)可以根據(jù)人的不同需求實現(xiàn)計算機將數(shù)據(jù)自動進行整合以及再利用,從而達到更有利于人機協(xié)作的目的。資源描述框架(Re-source Description Framework,簡稱RDF)是語義網(wǎng)的核心構件。在網(wǎng)絡中,一般用元數(shù)據(jù)對資源進行描述,而RDF則是處理元數(shù)據(jù)的一個基礎。RDF認為一個具體的元數(shù)據(jù)是由屬性值(Statements)、屬性(Properties)和資源(Resources)構成的三元關系模式[4],實際上是關于一個特定的資源特定屬性的取值聲明。使用RDFS語言,元數(shù)據(jù)的設計者不僅可以定義所描述資源的類別、屬性以及詞匯,還可以定義這些屬性或者對象的關系以及對象與屬性之間的相互關系,同時還可以進一步定義這些資源的對象、屬性以及屬性應用類別和取值條件等,通過這些定義從而能以計算機理解的標準方式對元數(shù)據(jù)進行描述語義內容以及元數(shù)據(jù)的結構關系。

3.3 WordNet WordNet是一種基于認知語言學的英語詞典,它是由普林斯頓大學的計算機工程師、心理學家和語言學家聯(lián)合設計的不僅是把單詞以字母順序排列,并且是按單側的意義組成的一個“單詞的網(wǎng)絡”。WordNet將所有的英語詞匯按詞性分為功能詞、形容詞、動詞、名詞和副詞五類。動詞被組成各種推演關系;名詞在詞匯記憶中被組成主題的層次;而形容詞和副詞被組織在N維超空間中。根據(jù)WordNet關系分析最大的優(yōu)勢是能在他的單詞網(wǎng)里通過相關關系消除歧義,因為WordNet分析主要是關系分析。WordNet在名詞的語義消歧率可以超過60%。

4 結語

從以上三個語義系統(tǒng)來看,無論是相對封閉的ULMS系統(tǒng)還是開放式的語義網(wǎng)、wordnet系統(tǒng)都具有較強的靈活性和擴展性。相對于常見的關鍵字信息檢索,語義檢索不需要用戶使用專業(yè)的檢索策略,也不需要語法嚴謹?shù)臋z索式,用戶可以將自己的信息需求通過自然語言直接表達出來。語義檢索在后臺經過大量的計算,分析用戶的用戶的語義文檔信息,充分利用各種語義關系消除歧義將用戶真正需要的準確的信息資源反饋給用戶,將用戶的檢索效率提升60—80%。因此,語義檢索無疑是當前信息爆炸條件下最適合的網(wǎng)絡信息檢索方式。

參考文獻:

[1]黃敏,賴茂生.語義檢索研究綜述[J].圖書情報工作,2008,(6):63-66.

[2]Studer R, Benjamins R, Fensel D. Knowledge Engineering, Principles and Methods[J].Data and Knowledge Engineering, 1998, 25(1-2):16l-197.

夏邑县| 津南区| 白玉县| 岑溪市| 昌平区| 定南县| 鹿泉市| 桂东县| 江口县| 泊头市| 云和县| 上林县| 九寨沟县| 松江区| 海安县| 沭阳县| 西峡县| 龙泉市| 桃园市| 长兴县| 彰武县| 肇源县| 龙井市| 宁城县| 鞍山市| 新闻| 泾源县| 昌宁县| 北海市| 红桥区| 托克逊县| 正安县| 峨山| 沙雅县| 汉川市| 哈尔滨市| 栾城县| 泰兴市| 威远县| 上栗县| 信宜市|