正文 基於書目信息抓取的農家書屋閱讀推薦研究

類別:都市言情 作者:企業文化(2013年5期) 本章:正文 基於書目信息抓取的農家書屋閱讀推薦研究

    基於書目信息抓取的農家書屋閱讀推薦研究

    文化論壇

    作者:高亮

    摘 要:該文將書目信息抓取的思想融合到農家書屋數字化的閱讀平台中,設計了書目信息抓取軟件的模型,節約了網站建設的開發成本。根據不同書目的閱讀點擊率,提供了按照書目熱度排名的大眾化推薦,改善了農民讀者的閱讀感受,為將來的個性化服務提供一定的數據基礎。

    關鍵詞:書目信息 農家書屋 閱讀推薦

    1引言

    隨著農家書屋數字服務平台的書目資源更新,圖書數量急劇增長,農民讀者對書目信息的要求越來越高。數字農家書屋網站建設的經費和人力有限,如何在條件受限的情況下,降低建站成本,提升開發效率,保證圖書資源的動態更新,又能合理的為農民讀者作出閱讀推薦,其中的書目信息抓取技術就成為了農家書屋數字化建設中的關鍵共性技術。當前互聯網的專業圖書網站都有著豐富的書目信息,如亞馬遜和當當網,除了提供書目的書名、作者、出版社外,還附有封麵、內容簡介、目錄、價格、ISBN等詳細的書目信息。這些書目信息對於農民讀者借閱和網站開發者來說,都有著重要的參考價值。國內有部分OPAC係統通過豆瓣網的開放接口,遠程調用該類接口後,可將在豆瓣網的書目信息顯示在本係統中。但是這類遠程調用存在明顯的缺陷,需要在網絡可用的情況下進行遠程調用,調用需申請開通,訪問速率和頻率受限,信息抓取渠道單一,隻是簡單的信息擴展,僅限於信息的調用,缺乏對這些書目信息的再加工,整合利用。數字農家書屋針對這類問題設計了基於書目信息抓取的閱讀推薦,通過調用當當網和豆瓣網的書目信息,並保存到農家書屋數字化平台的本地數據庫中,支持在線和離線的瀏覽方式閱讀數字圖書,並根據各類別圖書的點擊率提供了閱讀熱度排行榜,同時緩解了書目信息的信息過載,成為了農民讀者的閱讀向導,提升了用戶的體驗滿意度。

    2係統設計

    2.1係統結構設計

    書目信息抓取軟件采取分層和模塊化的設計方式,層次化分為數據層和業務邏輯層。其中,數據層包括參數管理器和數據存取器兩個模塊;業務邏輯層包括網頁抓取器和抓取管理器兩個模塊。各個模塊的功能實現如下:

    1)參數管理器,完成對參數文件中的係統參數進行讀寫操作,包括數據庫連接參數、抓取線程、超時設置、網頁抓取器等設置。

    2)數據存取器,對數據庫中抓取到書目信息進行讀寫操作,並對數據庫連接池進行管理。

    3)網頁抓取器,對網頁進行抓取、解析、提取書目信息。因不同網站的URL和結構不同,為了對不同網站進行書目信息的抓取,需設計一個公共的網頁抓取器接口,再對不同網站設計各自的類,根據參數文件來定義不同的網站類,調用各自的類進行書目信息的抓取。

    4)抓取管理器,生成和分配書目的抓取ID序列,並進行多線程管理。調用網頁抓取器來抓取網頁的書目信息,保存數據庫。可以通過參數文件對抓取的網站範圍、書目ID範圍、線程數等進行設置管理。

    2.2係統數據設計

    書目信息抓取軟件主要包括書目、作者、圖片和附注四張表。書目用來保存網站來源、題名、出版社等信息;作者主要保存作者信息;圖片保存封麵、插圖等圖片類文件;附注保存內容簡介、目錄、摘要等信息。

    3係統的功能實現和測試


>>章節報錯<<

如果您喜歡,請把《企業文化(2013年5期)》,方便以後閱讀企業文化(2013年5期)正文 基於書目信息抓取的農家書屋閱讀推薦研究後的更新連載!
如果你對企業文化(2013年5期)正文 基於書目信息抓取的農家書屋閱讀推薦研究並對企業文化(2013年5期)章節有什建議或者評論,請後台發信息給管理員。