考慮不同尺度資料格式關聯法則發展與應用 | |
---|---|
學年 | 100 |
學期 | 1 |
出版(發表)日期 | 2011-08-01 |
作品名稱 | 考慮不同尺度資料格式關聯法則發展與應用 |
作品名稱(其他語言) | Different Data Scale Considerations for Association Rules Development and Applications |
著者 | 廖述賢 |
單位 | 淡江大學經營決策學系 |
描述 | 計畫編號:NSC100-2410-H032-018-MY3
 研究期間:20110801~20120731
 研究經費:505,000 |
委託單位 | 行政院國家科學委員會 |
摘要 | 資料探勘就是從所給定的資料中發現知識,也就是將隱含的潛在有用資訊 從資料庫中粹取出來的過程。而關連規則的探勘,便是在龐大的資料中, 把一些資料項目的相關性找出來。以交易性資料庫為例,每天均有相當大 量的交易發生,經年累月累積下來的資訊根本無法由人直接進行分析來找 出商品的相關性,然而這些交易記錄事實上隱含了許多有用的資訊在裡 面,如果能運用適當的方法將它找出來,便可能發現商機,創造利潤,探 勘關連規則的演算法也就是在這種需求驅使下所產生出來的方法。Chen et al. (2008)在其文中提到,早期的資料採礦資料都是以資料是精確且乾淨為 前題的,但在真實的世界中,許多資料是不精確的,其包含了一些人為的 錯誤、儀表的錯誤或紀錄的錯誤。另外,資料在不同物件(object)的衡量 (measurement)上,因為具有不同的資料尺度(scale),而在方法與結果的呈 現,也有不同的面貌。故如何針對問題,使用正確的衡量尺度來描述問題, 以及運用正確的方法來處理資料,方是資料探勘結果具有良好解釋能力的 前提。Li et al. (2007)在其文中提到,資料探勘已經廣範的被應用在商業及 製造業跨產業的部門中。Chen et al. (2008)在其文中提到,關聯法則的資料 採礦方法已被廣範的應用在購物籃分析,並幫助管理者瞭解那些項目可以 同時購買,且有許多的發展都是從資料庫中發現關聯法則。本研究希望透 過演算法的創新,可以幫助業者於新產品開發時,可以透過探索其族群喜 好產品的特性,作為新產品開發的依據。然而,不同資料格式會影響資料 分群或分類的準確性,希冀透過創新演算法,可以得到較佳的分群或分類 結果。大部份關聯法則所改量的演算法來源,多以Apriori 演算法為主,加 上關聯法則的支持度(Support)及信賴度(Confidence)概念會因為目標變數 的不同,導致結果的不同。因此,以不同尺度為基礎的資料格式處理,利 用關聯法則可以用於產生規則或解決分群或分類的問題,協助本研究演算 法的規則產生及解決分類時有不明確資料,從衡量關聯法則之Support 與 Confidence 的角度,改善使用度極高的Apriori 演算法。同時,在不同尺度 考量之下,建構關聯法則的決策支援系統(Decision support systems),透過 使用者介面,演算法設計,以及資料庫建構,來提供使用者資料採礦、決 策支援、與商業智慧之用。 In the literature, there are many data mining models such as classification, estimation, predictive modeling, clustering/segmentation, affinity grouping or association rules, description and visualization, as well as sequential modeling. Similarly, there are also many application methods, including association rule, sequential pattern, grouping analysis, classification analysis and probability heuristic analysis. The association rule algorithm is employed mainly to determine the relationships between items or features that occur synchronously in the database. On the other hand, Apriori algorithm is basic approach for supporting association rule, and the main purpose of implementing the association rule algorithm is to obtain synchronous relationships by analyzing the random data and to use these relationships as reference during decision-making. Chen et al. (2008) considered that most researches figured out data sets are cleaned for data mining. However, this might be not true because mostly data sets are incomplete and caused problems of mistake and false by human or system recording. In addition, Li et al. (2007) proposed an approach, which transforms data attribute to Boolean attribute. This approach contains some problems on processing multi-scale data and not efficiently reaches a complete result on data transformation. In this regard, this study develops an association rule approach based on multi-scale data format in order to decline the uncertainty of analysis results. By doing so, the proposed algorithm could implement on the problem domain of data mining, decision support system, and business intelligence. |
關鍵字 | scale; Association rules; Data mining; Decision support system; Business intelligence |
語言 | zh_TW |
相關連結 |
機構典藏連結 ( http://tkuir.lib.tku.edu.tw:8080/dspace/handle/987654321/76337 ) |