跳到主要內容

簡易檢索 / 詳目顯示

研究生: 劉書宏
Shu-Hung Liou
論文名稱: 運用權重式字尾樹之分散式天文序列資料索引系統
Distributed Astronomical Sequential Data Indexing System with Weighted Suffix Tree
指導教授: 蔡孟峰
口試委員:
學位類別: 碩士
Master
系所名稱: 資訊電機學院 - 資訊工程學系
Department of Computer Science & Information Engineering
論文出版年: 2014
畢業學年度: 102
語文別: 英文
論文頁數: 40
中文關鍵詞: 分散式系統權重式字尾樹
相關次數: 點閱:7下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 現在儲存裝置的容量愈來愈大,資料的成長速度相當快速,連帶計算所需記憶體
    也是非常驚人,所以如何針對這大量的資料作結構化的整理,且在不破壞資料結
    構下讓多台機器來處理,是此篇論文要解決的問題。
    由於科技演進,天文學家得以藉由數位資料將許多的觀測紀錄儲存起來。因為天
    文資料內的字串中,各元素之順序有其依賴性,所以我們以字尾樹為基礎來設計,
    並以權重方式為天文資料做特別的處理。然而字尾樹這個資料結構所需要的記憶
    體相當驚人,在以 TB 為單位來計算的天文資料來說,單一機器並無法負擔,所
    以我們想去解決天文資料過大所造成字尾樹結構龐大的問題。因此我們也以分散
    式的架構,將資料分散處理,而在分散式架構下,如何維持個機器之間維護資料
    的連續性與獨立不重疊特性也是此篇論文要解決的重點。
    以天文資料為來源,以此論文產生之系統,可以將相似變化的星體聚集在同一條
    分支,而不需由人工去歸類。此外因為星體資料隨時間以及地點不斷增加,分散
    式的架構可以讓資料在任何時間、任何地點被加入,研究人員可以在以此論文為
    基礎之系統來搜尋他所需要的資訊。而我們實現了同時進行詢問與建立字尾樹的
    機制,讓研究人員不會因為即時的資料加入而造成結果的錯誤。在未來我們也期
    望能以此架構來維護分析所有具順序依賴性的資料串流。


    Today the storage of devices becomes larger and larger. Therefore, computer needs
    more time to deal with the data which store in device. In this paper, we provide a
    method to solve the issue.
    In astronomical field, telescope will record a lot of data from universe. Because of the
    continuity of astronomical data, we use a special data structure to maintain the
    astronomical data. The special data structure is an advance suffix tree, we call it
    weighted suffix tree. However, researchers find that constructing a suffix tree spends
    huge memory space in computer system. In order to reduce the memory usage, we use
    files in disk as external memory. But the usage of external memory cause the increase
    of I/O overhead, we still have to resolve it. We design a kind of weighted suffix tree
    which can be applied on distributed system. The distributed weighted suffix tree is
    designed to help the analysis of astronomical data. In the future, we also hope this
    data structure can support any kind of data which is continuous and sequential.

    摘要 Abstract 致謝 一、緒論 1-1 研究背景 1-2 研究動機與目的 1-3 論文章節介紹 二、文獻探討 2-1 泛星計畫 2-2 變星 2-3 分散式資料儲存 2-4 資料探勘 2-5 資料前處理系統 2-6 權重式字尾樹 三、系統架構與流程 3-1 名詞定義 3-2 系統架構 3-3 字尾樹新增資料之流程 3-4 字尾樹查詢完整符合資料之流程 3-5 字尾樹查詢部分符合資料之流程 3-6 字尾樹負載平衡之流程 四、研究方法 4-1 權重式字尾樹 4-1-1 序列的比較 4-1-2 重新安排字尾樹 4-2 分散式系統 4-2-1 系統架構 4-2-2 網路系統與字尾樹的溝通 4-3 分散式字尾樹 4-3-1 新增資料 4-3-2 查詢序列完全符合之資料 4-3-3 查詢序列部分符合之資料 4-3-4 負載平衡 五、實驗結果與討論 5-1 建構時間 5-2 資料查詢 5-2-1 序列完全符合之資料查詢 5-2-2 序列部分符合之資料查詢 5-2-3 於單一機器上之資料查詢 5-3 負載平衡 六、結論 七、參考文獻

    [1] "Pan-STARRS," Institute for Astronomy, University of Hawai`i, 2005. [Online].
    Available: http://pan-starrs.ifa.hawaii.edu/public/home.html.
    [2] "General Catalog of Variable Stars," Institute of Astronomy of Russian Academy
    of Sciences and Sternberg State Astronomical Institute of the Moscow State
    University, [Online]. Available: http://www.sai.msu.su/gcvs/gcvs/iii/html/.
    [3] 陳文屏, “天文觀測的新挑戰--泛星計畫,”
    科儀新知
    , 第 冊第三十卷, 編
    號 3, 2008.
    [4] 黃郁哲, Hierarchical Design Distributed File System for Astronomical
    Observation Data, 國立中央大學, 2014.
    [5] M. Kamber and J. Pei, Data Mining: Concepts and Techniques, 2 ed., San
    Francisco: Elsevier Inc., 2006.
    [6] P. Weiner, "Linear Pattern Matching Algorithm," 14th Annual IEEE Symposium on
    Switching and Automata Theory, 1973.
    [7] E. M. McCreight, "A Space-Economical Suffix Tree Construction Algorithm,"
    Journal of the ACM, p. 262, 1976.
    [8] U. Esko , "On–line construction of suffix trees," Algorithmica, pp. 249-260, 1995.
    [9] 吳彥慶, Exploiting Frequent Episodes in Weighted Suffix Tree to Improve
    Intrusion Detection System, 國立中央大學, 2007.
    [10] 郭依羚, Hierarchical Role Classification based on Social Behavior Analysis, 國立
    中央大學, 2011.
    [11] 沈敬軒, Mining Similar Astronomical Sequence Pattern with Hierarchical
    Weighted Suffix Tree, 國立中央大學, 2011.
    [12] 張哲嘉, Distributed Suffix Tree Based Sequential Pattern Management System
    for Astronomical Analysis, 國立中央大學, 2013.
    [13] R. Clifford, "Distributed suffix trees," Journal of Discrete Algorithms, pp. 176-197,
    2005.
    [14] F. Gao and M. J. Zaki, "PSIST: A scalable approach to indexing protein structures
    using suffix trees," Journal of Parallel and Distributed Computing, pp. 54-63, 2008.
    [15] C. Chen and B. Schmidt, "Constructing large suffix trees on a computational
    grid," Journal of Parallel and Distributed Computing, pp. 1512-1523, 2006.
    [16] R. Giegerich and S. Kurtz, "From Ukkonen to McCreight and Weiner: A Unifying
    View of Linear-Time Suffix Tree Construction," Algorithmica, pp. 331-353, 1997.

    QR CODE
    :::