正文 大數據時代基於中文標記的圖像視頻綜合檢索方法研究

類別:都市言情 作者:物聯網技術(2013年11期) 本章:正文 大數據時代基於中文標記的圖像視頻綜合檢索方法研究

    大數據時代基於中文標記的圖像視頻綜合檢索方法研究

    學術研究

    作者:張揚奇 肖學福 陳祥軍 劉金彪

    摘要:隨著各類物聯網、雲計算等示範工程的試點應用,人類步入了大數據時代。圖像、視頻等多媒體綜合應用是大數據時代的基本特征之一,文章綜合研究了基於OCR、基於圖像特征和基於標記的圖像視頻檢索技術,提出了一種基於中文標記的數據中心視頻圖像資源綜合檢索方法,以期為提高數據中心多媒體數據的可用性提供借鑒。

    關鍵詞:大數據;中文標記;圖像視頻;綜合檢索

    中圖分類號:TP311. 文獻標識碼:A 文章編號:2095-1302(2013)11-0061-03

    0 引言

    隨著傳統數據中心向多媒體數據中心的發展,數據中心服務模式已經發生了翻天覆地的變化。大數據時代的核心特性有兩個要點:一是一切都被記錄,二是一切都被數字化。隨著大數據時代的來臨,它帶來兩個重大變化:一是數據量爆炸性增長,據統計,最近兩年來國內各類機房產生的數據量大於2010年以前人類文明所產生的數據量的總和;二是數據來源極其豐富,特別是諸如圖像、視頻等非結構化數據所占比例逐年增長。從存儲方麵看,傳統數據中心存儲內容包括資源信息、業務信息、統計信息、指揮信息等,主要以結構化的數據表的形式存在,現在數據中心存儲文本、數字、圖像、視頻、聲音等多種數據形式。這些變化對數據中心檢索技術要求越來越高,主要體現在:一是檢索載體多樣化。現代數據中心需要綜合利用磁盤、磁帶等綜合性數據庫。二是檢索手段綜合化。檢索目標由單一的文本檢索向文本、圖片、視頻、聲音、地理信息多種目標發展。三是檢索時機全域化。新數據文件增加不應中斷向用戶的服務,保障24 h全天候檢索的可用性。因此,為了更好地利用海量圖像、視頻等非結構化數據,提高圖像視頻數據的檢索效率,同時提高圖像視頻數據的可用性,有必要對圖像視頻檢索方法進行深入研究。

    1 圖像視頻檢索在大數據時代的意義

    多媒體信息包括文本、圖像、音頻、視頻等信息。使用關鍵詞檢索,隻能查詢到媒體文件對應的文件名等特征,而無法對媒體文件內容進行查詢,所以對於多媒體信息的查詢應該不同於簡單的文本信息的查詢。隨著越來越多的視頻多媒體形成了海量文檔,急需研究新一代的信息檢索技術。

    現代數據中心的發展具體來說,涉及數字化技術、超大規模數據庫技術、網絡技術、多媒體信息處理技術、信息壓縮與傳送技術、分布式處理技術、安全保密技術、可靠性技術、數據倉庫與聯機分析處理技術、信息抽取技術、數據挖掘技術、基於內容的檢索技術、自然語言理解技術等。在眾多技術門類中,對視頻圖像的檢索顯得尤為重要。本文主要研究基於內容匹配的數據中心圖片視頻資源的綜合信息檢索技術,為鐵路、水路、公路、航空、交通保障等領域的數據中心建設以及綜合性基礎性中心多媒體檢索技術的發展提供理論參考。

    2 國內外的研究現狀及動態

    國外基於關鍵鏡頭關鍵幀的視頻檢索技術已經發展了很多年,隨著視頻數據急劇增加,圖像視頻檢索已經成為一個新的研究熱點。從第一屆DIAL’04(The first International Workshop on Document Image Analysis for Libraries)開始,圖像視頻檢索就一直被當做專題來研究,近年來,數字圖像視頻檢索受到了極大的關注,DIAL、ICDAR等每次研討會議均對其進行專題討論。但是,由於國外圖片視頻中標記大多采用英文形式,而我國數據中心中圖片視頻標記是中文的,中英文在筆畫排列、字詞句構成、組織方式等方麵差異太大,他們的視覺特征明顯不同,現有的很多方法無法直接被我們直接采用。為了研究我國海量中文圖像數據的管理、檢索、利用,因此必須研究具有我國自主知識產權的基於中文標記的數字中心圖像視頻資源綜合檢索方法。

    2.1 基於OCR的文檔圖像檢索

    在海量的視頻圖像數據中,其中一部分可進行正確的OCR識別,進行上下文標記,完全可用傳統信息檢索技術檢索。對於各語係而言,其檢索技術是相通的,隻是OCR技術不同而已,但受到OCR技術的限製和視頻圖像本身質量的影響。在許多情況下,OCR識別結果並不盡人意,識別正確率對檢索結果影響很大。目前,主要有兩種容忍OCR識別錯誤的方法:一是對查詢詞進行擴充,估算OCR轉換錯誤,並對OCR誤差詞進行檢索;二是采用單詞距離匹配的策略,主要是通過在矢量空間中進行詞與詞的匹配,計算出查詢詞與OCR識別目標的距離來排序。采取這兩種檢索誤差容忍技術後,檢索正確率明顯提高,但統計顯示,當OCR識別正確率低於75%時,視頻圖像檢索質量將很難達到用戶滿意。

    2.2 基於圖像特征的圖像視頻檢索

    視頻資料中,大量的關鍵幀、鏡頭是不能進行OCR識別的,主要有以下幾個方麵原因:其一是技術限製。由於OCR技術本身的局限,對於非規則字體、複雜背景、圖像質量差、字符嚴重形變/扭曲、字符分割不完整等情況,OCR無能為力。即使能部分識別正確,但需要大量的人工校正,效率很低。其二是功能限製。對於簽字或者印章等需要用於確定性的具有法律效力的文件,不適合采用OCR進行識別。例如,史料文獻、名人手跡、重要的人工標記與墨跡、書法書畫等也隻能以文檔圖像的格式呈現。

    基於圖像特征的檢索技術已經被越來越多的專家學者所研究。基於圖像特征的檢索過程與CBIR(Content Based Image Retrieval)過程相似,但技術迥異。CBIR常用的顏紋理等基本特征不再有效,必須根據文檔圖像本身特點,抽取相應圖像視頻特征及規律進行檢索,目前研究主要集中於基於內容相似性和基於關鍵詞檢索。基於文檔凸顯內容相似性的建設主要是抽取基於文檔全局特征與基於幀圖像的局部特征來進行。全局特征主要有字符紋理統計、直方圖統計、字符投影分布、字符行統計等,而局部特征主要是字符圖像塊的區域寬度、位置與麵積等。還可將幀頁麵分為多層網格,抽取每個網格特征,進行基於網格的相似性比較。為了克服網絡尺寸最優選擇的一些問題,Cesarini、Mairinai等利用基於MXY樹進行檢索,在圖像區域分割時建立MXY,綜合全局特征與MXY樹結構特征形成特征矢量進行相似性比較。

    2.3 基於標記的圖像視頻檢索

    在基於空域語義上下文的概念標注優化中,Jiang等人基於概念之間的相關性學習得到一個語義圖模型,在對某個鏡頭進行標注時,首先得到各個概念對於這個鏡頭的預測結果,然後利用這個圖模型對預測結果進行平滑優化,並且在這個過程中考慮數據跨域的問題,即訓練語義圖模型的數據和對之進行優化的數據來自於不同的域,取得了較好的結果。Smith等人提出了一種Discriminative Model Fusion (DMF)方法,該方法將不同概念檢測子對鏡頭的輸出概率形成一個向量,然後以這個向量為鏡頭特征進訓練,並預測概念標注結果。Jiang等人對這個方法進行了修改,加入了用戶提供的標注信息。這些方法的問題在於,它們受限於語義詞典的大小,隻在詞典中的概念數目較少的時候證明比較有效。


>>章節報錯<<

如果您喜歡,請把《物聯網技術(2013年11期)》,方便以後閱讀物聯網技術(2013年11期)正文 大數據時代基於中文標記的圖像視頻綜合檢索方法研究後的更新連載!
如果你對物聯網技術(2013年11期)正文 大數據時代基於中文標記的圖像視頻綜合檢索方法研究並對物聯網技術(2013年11期)章節有什建議或者評論,請後台發信息給管理員。