跳到主要內容

簡易檢索 / 詳目顯示

研究生: 葉智豪
Jhih-Hao Yeh
論文名稱: 挖掘家族特徵樹中之關聯規則
指導教授: 陳彥良
Y.L Chen
口試委員:
學位類別: 碩士
Master
系所名稱: 管理學院 - 資訊管理學系
Department of Information Management
畢業學年度: 92
語文別: 中文
論文頁數: 63
中文關鍵詞: 資料挖礦聯規則親子樹結構
外文關鍵詞: parent tree structure, association rule, data mining
相關次數: 點閱:13下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 資料探勘是為了萃取出隱含的、之前未知的、還有潛藏在資料庫中有用的資訊,許多方法已被建議用來取出資訊,最重要的一種便是找出關聯法則,雖然已經有大部分的研究都投入這項議題中,但就我們所知,之前的研究尚未從生物遺傳資料中找出關聯法則。在本論文中,我們用親子樹(Parent Tree)結構來表示家族的遺傳資料,其中的節點被視為家族樹中的成員,有關節點的特徵即為對應的人的特徵,邊(arcs)則為成員間父母的關聯性。在親子樹結構中,我們會指出祖先的特徵如何向下傳給子孫的遺傳規則,並且利用關聯規則的相關技術,來輔助探勘這些有趣的關聯規則。


    Data mining is to extract implicit, previously unknown and potentially useful information from databases. Many approaches have been proposed to extract information, and one of the most important ones is finding association rules. Although a large number of researches have been devoted to this subject, to the best of our knowledge, no previous researches find association rules from genealogical data. In this paper, we use a PT (parent tree) to represent the genealogical data of families, where a node can be viewed as a member in the family tree, the features associated with a node as the characteristics of the corresponding person and the arcs as the parental relationships between members. And we will indicate how the characteristics of ancestors are passed down to descendants, and an algorithm containing four stages is proposed to discover the inheritance rules.

    第一章 序論……………………………………………………………………………………1 第二章 問題定義與家族特徵規則……………………………………………………………5 第2.1節 親子樹資料結構………………………………………………5 第2.2節 家族特徵關聯規則……………………………………………9 第三章 資料的轉換……………………………………………………………………………12 第3.1節 資料轉換的演算法……………………………………………13 第3.2節 轉換資料紀錄的形式…………………………………………16 第四章 親子樹結構資料的探勘………………………………………………………………18 第4.1節 Apriori-like的探勘程序……………………………………18 第4.1.1節 PTApriori演算法……………………………………………20 第4.1.2節 PTApriori Candidate的計算………………………………22 第4.2節 FP-tree-like的探勘程序……………………………………26 第4.2.1節 傳統的FP-tree探勘程序……………………………………26 第4.2.1.1節 FP-tree的建立………………………26 第4.2.1.2節 FP-Growth 演算法……………………28 第4.2.2節 與傳統不同之處………………………………………………32 第4.2.2.1節 記錄中特徵的排列方式………………32 第4.2.2.2節 記錄資料的取捨………………………33 第4.2.2.3節 記錄的權重值…………………………34 第4.2.2.4節 FP-Growth的改進……………………34 第4.2.3節 PTFP-tree的建立……………………………………………35 第4.2.3.1節 建立PTFP-Tree的演算法……………37 第4.2.3.2節 PTFP-tree的完整性以及簡潔性……39 第4.2.4節 對PTFP-tree進行頻繁樣式探勘……………………………40 第4.2.4.1節 探勘程序的改進………………………40 第4.2.4.2節 探勘程序的演算法……………………43 第五章 效能測試………………………………………………………………………………54 第5.1節 模擬資料的產生…………………………………54 第5.1.1節 模擬資料的參數設定……………………………55 第5.1.2節 模擬資料產生的程序……………………………57 第5.2節 實驗環境…………………………………………57 第5.3節 效能測試…………………………………………58 第5.3.1節 測試一……………………………………………58 第5.3.2節 測試二……………………………………………59 第5.3.3節 測試三……………………………………………60 第5.3.4節 測試四……………………………………………61 第六章 結論與未來展望………………………………………………………………………62 參考文獻…………………………………………………………………………………………63

    [1] Ming-Syan Chen, Jiawei Han, and Philip S. Yu, “Data mining : An Overview froma Database Perspective”, IEEE Transactions on Knowledge and Data Engineering,Vol. 8, No.6, December 1996.
    [2] R. Agrawal, T. Imielinski and A. Swami, Mining association rules between sets of items in large databases, Proceedings of the ACM SIGMOD International Conference on Management of Data, 1993, pp. 207-216.
    [3] R. Agrawal and R. Srikant, Fast algorithms for mining association rules, Proceedings of the 20th VLDB Conference, Santiago, Chile, 1994, pp. 478-499.
    [4] Han, Jiawei - Pei, Jian - Yin, Yiwen - Mao, Runying “Mining Frequent Patterns without Candidate Generation: A Frequent-Pattern Tree Approach” . Data Mining and Knowledge Discovery, Volume: 8, Issue: 1,pages: 53 .2004/01/01.
    [5] Bose and R. K. Mahapatra, “Business data mining - a machine learning perspective”, Information and Management 39 (2001) 211-225
    [6] 盧靜婷, 陳彥良, “在DAG中挖掘家族特微規則”, 中央大學資訊管理系碩士論文, 民89.
    [7] 高鴻斌, 陳彥良, “於不循環有向圖結構的資料中進行樣式探勘–以樹狀結構樣式為例” , 中央大學資訊管理系碩士論文, 民90.

    QR CODE
    :::