KDD vs Data mining
KDD (kunskapsupptäckt i databaser) är ett datavetenskapligt fält som innehåller verktyg och teorier för att hjälpa människor att utvinna användbar och tidigare okänd information (dvs. kunskap) från stora samlingar av digitaliserad data. KDD består av flera steg, och Data Mining är ett av dem. Data Mining är tillämpning av en specifik algoritm för att extrahera mönster från data. Ändå används KDD och Data Mining omväxlande.
Vad är KDD?
Som nämnts ovan är KDD ett datavetenskapligt område som hanterar utvinning av tidigare okänd och intressant information från rådata. KDD är hela processen att försöka förstå data genom att utveckla lämpliga metoder eller tekniker. Denna process handlar om kartläggning av lågnivådata till andra former som är mer kompakta, abstrakta och användbara. Detta uppnås genom att skapa korta rapporter, modellera processen för att generera data och utveckla förutsägbara modeller som kan förutsäga framtida fall. På grund av den exponentiella tillväxten av data, särskilt inom områden som affärer, har KDD blivit en mycket viktig process för att konvertera denna stora mängd data till business intelligence, eftersom manuell utvinning av mönster har blivit omöjligt under de senaste decennierna. Till exempel,den används för närvarande för olika applikationer såsom analys av sociala nätverk, upptäckt av bedrägerier, vetenskap, investeringar, tillverkning, telekommunikation, datarengöring, sport, informationssökning och till stor del för marknadsföring. KDD används vanligtvis för att svara på frågor som vilka är de viktigaste produkterna som kan hjälpa till att få hög vinst nästa år i Wal-Mart ?. Denna process har flera steg. Det börjar med att utveckla en förståelse för applikationsdomänen och målet och sedan skapa en måldataset. Detta följs av rengöring, förbehandling, minskning och projicering av data. Nästa steg är att använda Data Mining (förklaras nedan) för att identifiera mönster. Slutligen konsolideras upptäckt kunskap genom visualisering och / eller tolkning.sport, informationshämtning och till stor del för marknadsföring. KDD används vanligtvis för att besvara frågor som vilka är de viktigaste produkterna som kan hjälpa till att få hög vinst nästa år i Wal-Mart ?. Denna process har flera steg. Det börjar med att utveckla en förståelse för applikationsdomänen och målet och sedan skapa en måldataset. Detta följs av rengöring, förbehandling, minskning och projicering av data. Nästa steg är att använda Data Mining (förklaras nedan) för att identifiera mönster. Slutligen konsolideras upptäckt kunskap genom visualisering och / eller tolkning.sport, informationshämtning och till stor del för marknadsföring. KDD används vanligtvis för att besvara frågor som vilka är de viktigaste produkterna som kan hjälpa till att få hög vinst nästa år i Wal-Mart ?. Denna process har flera steg. Det börjar med att utveckla en förståelse för applikationsdomänen och målet och sedan skapa en måldataset. Detta följs av rengöring, förbehandling, minskning och projicering av data. Nästa steg är att använda Data Mining (förklaras nedan) för att identifiera mönster. Slutligen konsolideras upptäckt kunskap genom visualisering och / eller tolkning. Det börjar med att utveckla en förståelse för applikationsdomänen och målet och sedan skapa en måldataset. Detta följs av rengöring, förbehandling, minskning och projicering av data. Nästa steg är att använda Data Mining (förklaras nedan) för att identifiera mönster. Slutligen konsolideras upptäckt kunskap genom visualisering och / eller tolkning. Det börjar med att utveckla en förståelse för applikationsdomänen och målet och sedan skapa en måldataset. Detta följs av rengöring, förbehandling, minskning och projicering av data. Nästa steg är att använda Data Mining (förklaras nedan) för att identifiera mönster. Slutligen konsolideras upptäckt kunskap genom visualisering och / eller tolkning.
Vad är Data Mining?
Som nämnts ovan är Data Mining bara ett steg i den övergripande KDD-processen. Det finns två viktiga Data Mining-mål som definieras av programmets mål, och de är nämligen verifiering eller upptäckt. Verifiering är att verifiera användarens hypotes om data, medan upptäckt automatiskt hittar intressanta mönster. Det finns fyra stora data mining-uppgifter: kluster, klassificering, regression och association (sammanfattning). Clustering är att identifiera liknande grupper från ostrukturerad data. Klassificering är inlärningsregler som kan tillämpas på nya data. Regression är att hitta funktioner med minimalt fel för modelldata. Och associering letar efter relationer mellan variabler. Därefter måste den specifika algoritmen för datautvinning väljas. Beroende på mål, olika algoritmer som linjär regression, logistisk regression,beslutsträd och Naïve Bayes kan väljas. Sedan söks mönster av intresse i en eller flera representationsformer. Slutligen utvärderas modeller antingen med förutsägbar noggrannhet eller förståbarhet.
Vad är skillnaden mellan KDD och Data mining?
Även om de två termerna KDD och Data Mining ofta används omväxlande hänvisar de till två relaterade men ändå lite olika begrepp. KDD är den övergripande processen för att utvinna kunskap från data medan Data Mining är ett steg inuti KDD-processen, som handlar om att identifiera mönster i data. Med andra ord är Data Mining bara tillämpningen av en specifik algoritm baserat på det övergripande målet för KDD-processen.