跳到主要內容

簡易檢索 / 詳目顯示

研究生: 顏逸品
Yi-Pin Yian
論文名稱: 網際網路半結構化資料之蒐集與整合研究
指導教授: 陳奕明
Yi-Ming Chen
口試委員:
學位類別: 碩士
Master
系所名稱: 管理學院 - 資訊管理學系
Department of Information Management
畢業學年度: 88
語文別: 中文
論文頁數: 108
中文關鍵詞: 網際網路全球資訊網半結構化資料領域架構清單資料搜尋資料蒐集資料萃取資料整合
相關次數: 點閱:14下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報

  • 本研究提出領域架構清單的背景知識結構,以個別應用領域的背景關鍵辭彙為基礎,系統會自動地完成資料來源的搜尋、半結構化資料分析、資料再結構等相關處理程序。本研究架構有效地改善了傳統半結構化資料處理的可行性程度,並簡化了目前半結構化資料處理相關研究的複雜程度。經過實驗分析與系統評估,發現本研究所使用的領域架構清單背景知識的方式可以有效地完成目前大部分網際網路半結構化資料的處理,與其他同質性與異質性的系統比較起來,本系統的效能也普遍較佳。


    第一章 緒論1 第一節、研究動機與背景2 1-1-1、網際網路的發展與近況2 1-1-2、資料呈現半結構化之原因2 1-1-3、目前半結構化資料處理相關研究與不足之處4 第二節、研究範圍5 1-2-1、資料來源的搜尋5 1-2-2、資料萃取與資料再結構5 1-2-3、資料查詢與資訊分析6 第三節、研究方法6 1-3-1、採用 Robot 探索資料來源6 1-3-2、資料萃取與資料再結構方法7 1-3-3、資料查詢與資訊分析方法7 第四節、研究成果7 第五節、論文結構8 第二章 相關研究9 第一節、資訊檢索模式與全球資訊網資料模式9 2-1-1 資訊檢索模式9 2-1-2、全球資訊網資料模式10 2-1-3、資料模式與 Web 查詢語言13 第二節、資料庫整合與半結構化資料處理19 2-2-1 資料庫整合19 2-2-2、半結構化資料處理21 第三節、相關網頁搜尋27 2-3-1 利用網頁結構發展演算法技術27 2-3-2 利用人工智慧或代理人技術31 第四節、綜合說明35 第三章 系統設計37 第一節、研究架構概述37 第二節、資料來源搜尋與網頁評估39 3-2-1、Robot (Spider)40 3-2-2、相關網頁或網站搜尋設計41 3-2-3、網頁評估方式43 3-2-4、權重計算、門檻值、與領域架構清單修補45 第三節、半結構化資料轉換成結構化資料庫50 3-3-1、超文字內容涵蓋模式51 3-3-2、領域架構清單的資料萃取53 3-3-3、領域架構清單輔助建立資料庫53 第四節、資料查詢、分析與管理53 3-4-1、採用資料儲存之方式與考量54 3-4-2、資料管理議題55 第四章 系統實作56 第一節、系統開發環境56 4-1-1、系統模組與各項開發軟體構件56 4-1-2、系統運作57 第二節、資料來源網站或網頁搜尋與偵測模組實作58 第三節、資料萃取、資料再結構模組實作60 第四節、資料查詢、分析模組實作63 第五章 系統使用實例與系統評估64 第一節、系統使用實例64 5-1-1、建立與定義領域架構清單65 5-1-2、合適網頁的搜尋69 5-1-3、網站定義、資料半結構化處理70 5-1-4、資料的應用73 第二節、網頁內容評估實驗設計79 第三節、實驗結果與發現80 5-3-1、門檻值與搜尋數量與搜尋品質之關係80 5-3-2、起始網站的影響88 5-3-3、搜尋層級的影響92 5-3-4、資料內容呈現方式比較98 第四節、與其他系統比較99 第六章 研究貢獻、結論與未來研究方向102 第一節、研究貢獻102 第二節、結論103 第三節、未來研究方向103 參考文獻105

    [AltaVista] Alta Vista Search Engine, http://www.altavista.com/.
    [AltaVista] Alta Vista Search Engine, http://www.altavista.com/.
    [CHB] 彰化銀行網站, http://www.chb.com.tw/index1.html.
    [CHB] 彰化銀行網站, http://www.chb.com.tw/index1.html.
    [DH 1999] Dean Jeffery, Henzinger Monika R., “Finding related pages in the World Wide Web,” Computer Network, Vol 31. 1999. pp. 1467-1479.
    [DH 1999] Dean Jeffery, Henzinger Monika R., “Finding related pages in the World Wide Web,” Computer Network, Vol 31. 1999. pp. 1467-1479.
    [FP 1998] Filman Robert E., Pant Sangam, “Searching The Internet,” IEEE Internet Computing, July/Auguest,1998, pp 21-23.
    [Fund] 基金特蒐員網站, http://www.hello.com.tw/~fund/company/c1.htm.
    [GA 1998] Gustavo O. Arocena, Alberto O. Mendelzon, “Viewing WISs as Database Applications,” Communication of ACM, Vol. 41, No. 7, July 1998, pp. 101-102.
    [GAIS] GAIS Search Engine, http://gais.cs.ccu.edu.tw/.
    [GHR 1998] Gupta Ashish, Harinarayan Venky, Rajaraman Anand, “Virtual Database Technology,” Data Engineering Proceedings., 14th International Conference, 1998 ,pp. 297 —301.
    [GHR 1998] Gupta Ashish, Harinarayan Venky, Rajaraman Anand, “Virtual Database Technology,” Data Engineering Proceedings., 14th International Conference, 1998 ,pp. 297 —301.
    [HMC+] Hammer J., H. Molina Garcia, Cho J., R. Aranha, and A. Crespo, “Extracting semistructured informationfrom the web,” ftp://db.stanford.edu/pub/papers/extract.ps.
    [HMC+] Hammer J., H. Molina Garcia, Cho J., R. Aranha, and A. Crespo, “Extracting semistructured informationfrom the web,” ftp://db.stanford.edu/pub/papers/extract.ps.
    [Kleinberg 1998] Kleinberg J., “Authoritative sources in hyperlinked environment,” Proc. of the 9th Annual ACM-SIAM Symposium on Discrete Alogrithms, January 1998, pp.668-677.
    [KMS+ 1998] Kogan Yakov, Michaeli David, Sagiv Yehoshua, Shmueli Oded, “Utilizing the multiple facets of WWW contects,” Data Knowledge Engineering, Vol. 28, 1998, pp. 255-275.
    [KMS+ 1998] Kogan Yakov, Michaeli David, Sagiv Yehoshua, Shmueli Oded, “Utilizing the multiple facets of WWW contects,” Data Knowledge Engineering, Vol. 28, 1998, pp. 255-275.
    [KS 1996] Konopniki, D. and O. Shmuli, “Early experiences with W3QS - A WWW
    Information Gathering System,” The 19th IEEE Convention of Electrical and Electronics Engineers, http://www.cs.technion.ac.il/~konop/ieee-1996.ps.gz
    Information Gathering System,” The 19th IEEE Convention of Electrical and Electronics Engineers, http://www.cs.technion.ac.il/~konop/ieee-1996.ps.gz
    [KWD 1997] Kushmerick, Weld, Doorenbos: “Wrapper induction for information extraction,”IJCAI-97, http://www.compapp.dcu.ie/~nick/research/-download/kushmerick-ijcai97.ps.Z
    [KWD 1997] Kushmerick, Weld, Doorenbos: “Wrapper induction for information extraction,”IJCAI-97, http://www.compapp.dcu.ie/~nick/research/-download/kushmerick-ijcai97.ps.Z
    [Lore] Lore Project, http://www-db.stanford.edu/lore/.
    [MMM 1996] Mendelzohn A., Mihaila G. A., and Milo T., “Querying the world wide web,” 1996, Draft.URL, ftp://ftp.db.toronto.edu/pub/papers/pdis96.ps.gz
    [Openfind] Openfind, http://www.openfind.com.tw/.
    [RN 1998] Rajaraman Anand, Norvig Peter, “Virtual Database Technology : Transforming the Internet into a Database,” IEEE Internet Computing, July/August, 1998, pp.55-58.
    [Teleport] Teleport Web Spider, http://www.teleport.com/.
    [TSIMMIS] TSIMMIS Project, http://www-db.stanford.edu/tsimmis/tsimmis.html.
    [W3C] World Wide Web Consortium, http://www.w3.org/.
    [WebSQL] WebSQL Project, http://www.cs.toronto.edu/~websql/toc.html.
    [WebOQL] WebOQL Project, http://www.cs.toronto.edu/~gus/weboql/index.html.
    [Wolfgang 1999] Wolfgang May, “Modeling and Querying Structure and Contents of the Web,” IEEE Internet Computing, 1999, pp. 721-725.
    [Yahoo] Yahoo, http://www.yahoo.com/.
    [李明德 1998] 李明德,『網際網路半結構化資料的擷取、管理與呈現系統』,國立中央大學資訊管理學研究所碩士論文,民國 87 年 6 月。
    [許盛貴 1999] 許盛貴,『網際網路資料搜尋之研究』,國立中央大學資訊管理學系碩士論文,民國 88 年 12 月。
    [楊振偉 1998] 楊振偉,『利用書籤功能達到網際網路資訊分享與過濾的技術探討』,國立中央大學資訊管理研究所碩士論文,民國 87 年 7 月。

    QR CODE
    :::