دستهبندی دادههای دوردهای با ابرمستطیل موازی محورهای مختصات
محورهای موضوعی : هوش مصنوعی و رباتیکزهرا مصلحی 1 * , مازیار پالهنگ 2
1 - دانشجو
2 -
کلید واژه: یادگیری ماشین, دستهبندی, درخت تصمیم, هندسه محاسباتی, تفکیکپذیری, مستطیل.,
چکیده مقاله :
یکی از زمینههای فعالیت در یادگیری ماشین و شناسایی الگو یادگیری با ناظر میباشد. در یادگیری با ناظر برچسب دادههای آموزشی موجود است. در مسایل دوردهای، هدف محاسبه فرضیهای است که بتواند به بهترین شکل ممکن و با کمترین مقدار خطا دادههای با دو ردهی مثبت و منفی را از یکدیگر جدا کند. انواع روشهای یادگیری با ناظر پیشنهاد شده است. به عنوان مثال میتوان به درختهای تصمیم، یادگیر SVM و روشهای نزدیکترین همسایه اشاره کرد. در این مقاله بر عملکرد درختهای تصمیم متمرکز میشویم. عملکرد درخت تصمیم مشابه پیدا کردن ابرصفحههای تقسیمکننده در فضای d بعدی است، بطوریکه دادههای موجود را به درستی ردهبندی کند و تا حد ممکن ردهبندی صحیح دادههای آینده را نیز بدست آورد. دیدگاه هندسی عملکرد درخت تصمیم ما را به مفهوم تفکیکپذیری در هندسه محاسباتی نزدیک میکند. از بین کلیه الگوریتمهای تفکیکپذیری موجود، مساله محاسبه مستطیل با حداکثر اختلاف دو رنگ را مطرح میکنیم. این مساله ارتباط نزدیکی با مساله درخت تصمیم در یادگیری ماشین دارد. در ادامه الگوریتم محاسبه مستطیل با حداکثر اختلاف دو رنگ را در یک، دو، سه و d بعد پیاده سازی میکنیم. نتیجه پیادهسازی نشاندهنده آن است که این الگوریتم، الگوریتمی قابل رقابت با الگوریتم شناخته شده C4.5 است.
One of the machine learning tasks is supervised learning. In supervised learning we infer a function from labeled training data. The goal of supervised learning algorithms is learning a good hypothesis that minimizes the sum of the errors. A wide range of supervised algorithms is available such as decision tress, SVM, and KNN methods. In this paper we focus on decision tree algorithms. When we use the decision tree algorithms, the data is partitioned by axis- aligned hyper planes. The geometric concept of decision tree algorithms is relative to separability problems in computational geometry. One of the famous problems in separability concept is computing the maximum bichromatic discrepancy problem. There exists an -time algorithm to compute the maximum bichromatic discrepancy in d dimensions. This problem is closely relative to decision trees in machine learning. We implement this problem in 1, 2, 3 and d dimension. Also, we implement the C4.5 algorithm. The experiments showed that results of this algorithm and C4.5 algorithm are comparable.