发布日期:2024-01-26 13:04 点击次数:104
全文相接:https://tecdat.cn/?p=33031 分析师:Donglei Niu沙巴在线
判别分析(Discriminant analysis)是一种统计分析样式,旨在通过将一组对象(举例不雅察数据)分类到已知类别的组中,来发现不同组之间的各异(点击文末“阅读原文”取得完满代码数据)。
联系视频
什么是判别分析
判别分析有两种主要体式:线性判别分析(LDA)和二次判别分析(QDA)。LDA假定每个类别的协方差矩阵调换,并寻找最优的判别认识来最大化类别之间的距离。QDA假定每个类别的协方差矩阵齐不同,并寻找最优的判别认识来最大化类别之间的距离,同期也讨论了每个类别的协方差矩阵。
线性判别分析(LDA)
当咱们有一个由n个样本和p 个特征构成的数据集时,LDA的盘算推算是找到一个线性变换,将数据从p维空间映射到k维空间(k
线性判别分析的数学旨趣
盘算推算函数
将上头的公式化简,得到:
咱们最终不错盘算推算函数为
二次判别分析(QDA)
QDA (Quadratic Discriminant Analysis)是一种有监督的机器学习算法,用于分类问题。它是 LDA (Linear Discriminant Analysis,线性判别分析)的一种扩张体式,与LDA近似,QDA 亦然一种基于贝叶斯有盘算推算表面的分类器。与LDA不同的是,QDA假定每个类别的协方差矩阵不调换,因此在分类时使用的有盘算推算领域是二次弧线。
皇冠客服飞机:@seo3687点击标题查阅往期骨子
45岁的李女士,在5年前发现了盆腔包块,患有子宫肌瘤,最大的已达7cm,多方求医均建议尽早手术。李女士对手术要求高,并且希望达到美观无痕的效果。经过详细的术前检查,结合患者的实际情况,妇产科主任叶丹丹详细评估了李女士的综合情况,并结合她的意愿,决定为她施行经脐单孔腹腔镜下子宫肌瘤剔除术。
01
02
皇冠现金在线开户03
04
R言语实例先容
数据包含量度葡萄牙“Vinho Verde”葡萄酒的信息(稽查文末了解数据免费取得面容)。该数据集有1599个不雅测值和12个变量,鉴识是固定酸度、蒸发性酸度、柠檬酸、残糖、氯化物、游离二氧化硫、总二氧化硫、密度、pH值、硫酸盐、乙醇和质地。固定酸度、蒸发性酸度、柠檬酸、残糖、氯化物、游离二氧化硫、总二氧化硫、密度、pH、硫酸盐和乙醇是自变量何况是一语气的。质地是因变量,凭证 0 到 10 的分数来量度。
探索性分析
总计有 855 款葡萄酒被归类为“好”品性,744 款葡萄酒被归类为“差”品性。固定酸度、蒸发性酸度、柠檬酸、氯化物、游离二氧化硫、总二氧化硫、密度、硫酸盐和乙醇度与葡萄酒质地赫然联系( t 考试的 P 值 < 0.05),这标明了庞杂的瞻望因子。咱们还构建了密度图来探索 11 个一语气变量在“差”和“好”葡萄酒质地上的分散。从图中不错看出,品性优良的葡萄酒在PH方面莫得各异,而不同类型的葡萄酒在其他变量上存在各异,这与t考试成果一致。
na.oit() %>muate(qal= ase_hen(ality>5 ~good\", quaity <=5 ~ \"poor\")) %>%muate(qua= s.fatrqual)) %>%dpeme1 <- rsparentTme(trans = .4)
plot = \"density\", pch = \"|\",auto.key = list(columns = 2))
图 1. 葡萄酒品性和瞻望特征之间的形色图。表 1. 优质和劣质葡萄酒的基本特征。
# 在表1中创建一个咱们念念要的变量b1 <- CeatTableOe(vars litars, straa = ’qual’ da winetab
模子
咱们立时采纳 70% 的不雅测值当作考验数据,其余的当作测试数据。系数 11 个瞻望变量齐被纳入分析。咱们使用线本性式、非线本性式、树样式和撑握向量机来瞻望葡萄酒质地的分类。对于线本性式,咱们考验(解决)逻辑转头模子和线性判别分析(LDA)。逻辑转头的假定包括互相零丁的不雅察成果以及自变量和对数几率的线性关系。LDA 和 QDA 假定具有正态分散的特征,即瞻望变量对于“好”和“差”的葡萄酒质地齐是正态分散的。对于非线性模子,咱们进行了广义加性模子(GAM)、多元自妥当转头样条(MARS)、KNN模子和二次判别分析(QDA)。对于树模子,咱们进行了分类树和立时丛林模子。还扩充了具有线性和径向内核的 SVM。咱们计较了模子采纳的 ROC 和准确度,并探询了变量的庞杂性。10 折交叉考证 (CV) 用于系数模子。
联系视频
inTrai <- cateatPariti(y winequal, p = 0.7, lit =FASE)traiData <- wine[inexTr,teDt
线性模子 多元逻辑转头知道,在 11 个瞻望因子中,蒸发性酸度、柠檬酸、游离二氧化硫、总二氧化硫、硫酸盐和乙醇与葡萄酒质地赫然联系(P 值 < 0.05),讲明了总方差的 25.1%。酒质。将该模子哄骗于测试数据时,准确度为 0.75(95%CI:0.71-0.79),ROC 为 0.818,标明数据拟合较好。在进行解决性逻辑转头时,咱们发现最大化ROC时,最好调优参数为alpha=1和lambda=0.00086,准确度为0.75(95%CI:0.71-0.79),ROC也为0.818。由于 lambda 接近于零且 ROC 与逻辑转头模子调换,因此解决相对较小,
但是,由于逻辑转头条目自变量之间存在很少或莫得多重共线性,因此模子可能会受到 11 个瞻望变量之间的共线性(淌若有的话)的搅扰。至于LDA,将模子哄骗于测试数据时,ROC为0.819,准确率为0.762(95%CI:0.72-0.80)。瞻望葡萄酒品性的最庞杂变量是乙醇度、蒸发性酸度和硫酸盐。与逻辑转头模子比拟,LDA 在自豪普通假定的情况下,在样本量较小或类别分离雅致的情况下更有匡助。
### 逻辑转头cl - tranControlmehod =cv\" number 10,summayFunio = TRUE)set.seed(1)moel.gl<- train(x = tainDaa %>% dpyr::selct(-ual),y = trainDaa$qualmetod \"glm\",metic = OC\",tContrl = crl# 查验瞻望成分的庞杂性summary(odel.m)
# 建造浑浊矩阵tetred.prb <- rdct(mod.gl, newdat = tstDattye = \"robtest.ped <- rep(\"good\", length(pred.prconfusionMatrix(data = as.factor(test.pred),
# 绘图测试ROC图oc.l <- roc(testa$al, es.pr.rob$god)
点击标题查阅往期骨子
01
02
03
坚持04
## 测试破绽和考验破绽er.st. <- mean(tett$qul!= tt.pred)tranped.obgl <-pric(moel.lmnewda= taiDaa,type = \"robmoe.ln <-tai(xtraDa %>% dlyr:seec-qal),y = traDmethd = \"met\",tueGid = lGrid,mtc = \"RO\",trontrol ctl)plotodel.gl, xTras =uction() lg(x)
#采纳最好参数mol.mn$bestune
# 浑浊矩阵
tes.red2 <- rp\"good\" ngth(test.ed.prob2$good))tst.red2[tespre.prob2$good < 0.5] <- \"poorconuionMatridata = as.fcto(test.prd2),
非线性模子 在 GAM 模子中,独一蒸发性酸度的目田度便是 1,欧博平台标明线性关联,而对系数其他 10 个变量哄骗平滑样条。
成果标明,乙醇、柠檬酸、残糖、硫酸盐、固定酸度、蒸发性酸度、氯化物和总二氧化硫是赫然的瞻望因子(P值<0.05)。
总的来说,这些变量讲明了葡萄酒质地总变化的 39.1%。使用测试数据的浑浊矩阵知道,GAM 的准确度为 0.76(95%CI:0.72-0.80),ROC 为 0.829。
MARS 模子标明,在最大化 ROC 时,咱们在 11 个瞻望变量中包含了 5 个项,其中 nprune 便是 5,度数为 2。这些瞻望变量和搭钮函数总计讲明了总方差的 32.2%。凭证 MARS 输出,三个最庞杂的瞻望因子是总二氧化硫、乙醇和硫酸盐。
将 MARS 模子哄骗于测试数据时,准确度为 0.75(95%CI:0.72,0.80),ROC 为 0.823。咱们还扩充了 KNN 模子进行分类。当 k 便是 22 时,ROC 最大化。KNNmodel 的准确度为 0.63(95%CI:0.59-0.68),ROC 为 0.672。
QDA模子知道ROC为0.784,准确率为0.71(95%CI:0.66-0.75)。瞻望葡萄酒质地的最庞杂变量是乙醇、蒸发性酸度和硫酸盐。59-0.68),ROC 为 0.672。QDA模子知道ROC为0.784,准确率为0.71(95%CI:0.66-0.75)。
瞻望葡萄酒质地的最庞杂变量是乙醇、蒸发性酸度和硫酸盐。59-0.68),ROC 为 0.672。QDA模子知道ROC为0.784,准确率为0.71(95%CI:0.66-0.75)。瞻望葡萄酒质地的最庞杂变量是乙醇、蒸发性酸度和硫酸盐。
GAM 和 MARS 的优点是这两个模子齐短长参数模子,何况大略处理高度复杂的非线性关系。具体来说,MARS 模子不错在模子中包含潜在的交互作用。然则,由于模子的复杂性、耗时的计较和高度的过拟合倾向是这两种模子的局限性。对于 KNN 模子,当 k 很大时,瞻望可能不准确。
### GAMse.see(1)md.gam<- ran(x =trainDta %%dplr::slect(-qal),y = traiat$ual,thod = \"am\",metri = \"RO\",trCotrol = ctrl)moel.gm$finlMdel
summary(mel.gam)
# 建造浑浊矩阵test.pr.pob3 - prdict(mod.ga nwdata =tstData,tye = \"prb\")testped3 - rep\"good\" legt(test.predpob3$goo))testprd3[test.predprob3good < 0.5] <- \"pooreferetv = \"good\")
model.mars$finalModel
vpmodl.rs$inlodel)
iba捕鱼# 绘图测试ROC图ocmas <- roctestataqua, tes.pred.rob4god)## Stting level: conrol = god, case= poor## Settig diectio: cntrols> caseplot(ro.mars legac.axes = TRE, prin.auc= RUE)plot(soothroc.mars), co = 4, ad =TRUE)
errr.tria.mas <-man(tainat$qul ! trai.red.ars)### KNNGrid < epa.gri(k seq(from = 1, to = 40, by = 1))seted(1fknnrainqual ~.,dta = trnData,mthd =\"knn\"metrrid = kid)ggplot(fitkn
# 建造浑浊矩阵ts.re.po7 < prdi(ft.kn, ewdt = estDaatype = \"prb\"
### QDAseteed1)%>% pyr:c-ual),y= trataqethod \"d\"mric = \"OC\",tContol =ctl)# 建造浑浊矩阵tet.pprob <-pedct(mol.da,nedaa = teDta,te = \"pb\")testred6<- rep(o\", leng(est.ped.pob6$goo))
树样式
基于分类树,最大化AUC时最终的树大小为41。测试装假率为 0.24,ROC 为 0.809。此分类树的准确度为 0.76(95%CI:0.72-0.80)。咱们还进行了立时丛林样式来照管变量的庞杂性。因此,乙醇是最庞杂的变量,其次是硫酸盐、蒸发性酸度、总二氧化硫、密度、氯化物、固定酸度、柠檬酸、游离二氧化硫和残糖。pH 是最不庞杂的变量。对于立时丛林模子,测试装假率为 0.163,准确率为 0.84(95%CI:0.80-0.87),ROC 为 0.900。树样式的一个潜在功令是它们对数据的变化很明锐,即数据的渺小变化可能引起分类树的较大变化。
# 分类ctr <- tintol(meod =\"cv\", number = 10,smmryFuton= twoClassSmaet.se(1rart_grid = a.fra(cp = exp(eq(10,-, len =0)))clsste = traqua~., rainDta,metho =\"rprttueGrid = patid,trCtrl cr)ggt(class.tee,highight =TRE)
## 计较测试破绽rpartpred = icla.te edta =testata, ye = \"aw)te.ero.sree = mean(testa$a !=rartpre)rprred_trin reic(ss.tre,newdta = raiata, tye \"raw\")
如何上分皇冠体育的客服团队24小时在线,随时解答您的疑问。# 建造浑浊矩阵teste.pob8 <-rdic(cste, edata =tstData,pe = \"po\"tet.pd8 - rpgod\" legthtetred.rb8d))
# 绘图测试ROC图ro.r <-oc(testaual, tstedrob$od)pot(rc.ctreegy.axes TU pit.a = TRE)plo(ooth(c.tre, col= 4, ad = TRE
乐动体育官方入口# 立时丛林和变量庞杂性ctlclasPos = RUEoClssSummry)rf.grid - xpa.gr(mt = 1:10,spltrule \"gini\"min.nd.sie =seq(from = 1,to 12, by = 2))se.sed(1)rf.fit <- inqualmthd= \"ranger\",meric = \"ROC\",= ctrlgglt(rf.it,hiliht TRE)
scle.ermutatin.iportace TRU)barplt(sort(rangr::imoranc(random
撑握向量机
咱们使用带有线性核的 SVM,并退换了资本函数。咱们发现具有最大化 ROChad 资本的模子 = 0.59078。该模子的 ROC 为 0.816,准确度为 0.75(测试破绽为 0.25)(95%CI:0.71-0.79)。质地瞻望最庞杂的变量是乙醇;蒸发性酸度和总二氧化硫亦然比较庞杂的变量。淌若果真领域短长线性的,则具有径向核的 SVM 性能更好。
st.seed(svl.fi <- tain(qual~ . ,data = trainDatamehod= \"mLar2\",tueGri = data.frae(cos = ep(seq(-25,ln = 0))
## 带径向核的SVMsvmr.grid epand.gid(C = epseq(1,4,le=10)),iga = expsq(8,len=10)))svmr.it<- tan(qual ~ .,da = taiDataRialSigma\",preProcess= c(\"cer\" \"scale\"),tunnrol = c)
模子比较
模子建造后,咱们凭证系数模子的考验和测试性能进行模子比较。下表知道了系数模子的交叉考证分类装假率和 ROC。成果中,立时丛林模子的 AUC 值最大,而 KNN 最小。因此,咱们采纳立时丛林模子当作咱们数据的最好瞻望分类模子。基于立时丛林模子,乙醇、硫酸盐、蒸发性酸度、总二氧化硫和密度是匡助咱们瞻望葡萄酒质地分类的前 5 个庞杂瞻望因子。由于乙醇、硫酸盐和蒸发性酸度等成分可能决定葡萄酒的风范和口感,是以这么的发现妥当咱们的预期。在稽查每个模子的总结时,咱们瓦解到KNN模子的AUC值最低,测试分类装假率最大,为0.367。其他九个模子的 AUC 值接近,约为 82%。
rsam = rsmes(list(
summary(resamp)
comrin = sumaryes)$satitics$ROr_quare smary(rsamp)saisis$sqrekntr::ableomris[,1:6])
bpot(remp meic = \"ROC\")
太平洋在线网址f<- datafram(dl_Name, TainError,Test_Eror, Tes_RC)knir::abe(df)
论断
模子构建历程标明,在考验数据聚拢,乙醇、硫酸盐、蒸发性酸度、总二氧化硫和密度是葡萄酒质地分类的前 5 个庞杂瞻望因子。咱们采纳了立时丛林模子,因为它的 AUC 值最大,分类装假率最低。该模子在测试数据聚拢也发扬雅致。因此,这种立时丛林模子是葡萄酒品性分类的有用样式。
对于作家
在此对Donglei Niu对本文所作的孝敬暗示真挚感谢,他在上海大学完成了运筹学与最优抑止的硕士学位,专注机器学习算法、数学建模规模。擅长Python、R言语、Matlab。
数据取得
皇冠体育平台怎么样本文均分析的数据会员群,扫描底下二维码即可加群!
取得全文完满代码数据良友。
本文选自《R言语LDA线性判别、QDA二次判别分析分类葡萄酒品性数据》。
点击标题查阅往期骨子