长沙尚学堂|十年树人|成就高薪
致力推动IT教育,我们正在行动    咨询热线:0731-83072091

知名it培训尚学堂专家来给大家谈谈实际领域中的那些事

时间:2016-07-15 16:25:31   来源:长沙尚学堂   阅读:
今天有请我们知名it培训尚学堂专家来给大家谈谈实际领域中的那些事。


1、提取特征
 
大家好,我是知名it培训尚学堂老师,今天给大家谈谈实际领域中的会发生的那些事
首先我们要对数据进行处理, 从数据中提取特征 。这是数据挖掘非常关键的一步,特征的好坏直接影响最终模型的效果。在数据挖掘过程中,算法其实并不是最主要的因素,影响效果最直接的因素就是特征。
  
良好的特征需要有非常好的区分度,只有这些特征,才能很好的去解决问题。举个例子,我们要辨别一个西瓜是好是坏,可能颜色是一个特征,条纹,重量,瓜蒂也是特征。但是,大家都知道西瓜一般都是绿色的,所以用绿色去作为判别西瓜好坏是没有区分度的。而条纹,重量,瓜蒂是判别一个西瓜是好是坏非常重要的因素,因此他们是好特征。
  
我们在解决不同问题时,所用的特征是不一样的。可能在解决某个问题有用的特征在解决另外一个问题时就不具备区分度。因此,我们必须紧密的联系业务,去选择合适的特征。
  
在提取特征时,因为我们是大数据挖掘,所以要使用大数据技术去从原始数据中提取特征。这需要大数据科学家有着非常丰富的大数据处理技能。
 
 
2、建立模型
  
当特征提取完毕后,我们就需要去应用算法建立模型了。在实际的建模过程中,由于数据量过于庞大,算法训练过程往往十分缓慢,如何 加速算法计算速度 ,是一个非常突出的问题。
  
此外,由于传统的数据挖掘算法都是针对小数据集的,当数据规模到了一台服务器无法处理的程度,传统的数据挖掘算法就不再使用。此时,我们需要有新的数据挖掘技术来支持大数据上的数据挖掘。
  
当模型建立完成之后,我们需要对模型进行评估,来确定模型效果。此时最重要的是建立模型的评价指标。这个评价指标必须是要结合业务来建立的。当模型效果不佳时,我们要回到特征提取,建模过程来不断的迭代,甚至可能要重新分析业务和数据。
 
  
3、后期工作
  
当一个效果非常好的模型建立完毕了,我们的数据挖掘就结束了吗?传统的数据挖掘软件往往只做到模型建立这一步,但是在模型建立完成之后还有很多工作要做。我们如何将模型在生产系统中使用起来,如何去管理、运行、维护、扩展模型。
    
深度学习
 
在传统方法之外,我们还可以通过深度学习的方法来进行故障的诊断和预测,深度学习方法示意图如下:
  
这个过程中首先我们要对故障进行标注。对于故障诊断,我们要标注的是何种类型的故障,对于故障预测,我们要标注的是有没有发生故障。标注的工作是专业性极强的工作,一般需要用户的专家来进行标注。
  
对于传统方法而言,最复杂的部分是特征选取。只有那些有强区分度的特征才能有效的支持最终的模型。所以,需要由业务专家来指导如何从原始数据中提取特征。这就需要将业务专家的经验程序化,将人的知识变为机器能够处理的方法。这是非常困难的。
  
当特征提取完了之后,我们会采用分类算法来训练模型,最终得到故障诊断和故障预测的结果。
  
比起传统的方法,故障标注这一步是省不掉的,因为我们用的还是一个有监督的方法,这个方法必须要有一批标注好的样本。
  
和传统方法不一样的是,我们直接将样本送入深度学习算法,常用的如卷积神经网络去进行训练,来得到最终的故障诊断和预测的结果。
  
相比传统方法,深度学习方法省却了特征提取的过程。我们通过深度学习算法直接从原始数据中学习,省却了专家指导的过程。深度学习方法甚至能够学习到专家所不知道,或者在专家潜意识内但无法表达出来的特征。通过深度学习算法出来的模型,其效果往往好于传统方法的模型。
  
但是,深度学习算法对 数据量的要求 非常大。只有有大量训练样本才能使用深度学习。这在现实的工作中可能是一个问题。
 
作为知名it培训尚学堂,在尚学堂的教学中老师都会为大家讲讲现实生活中如何面对各种事情,所以学it,来尚学堂准没错,尚学堂为你人生的大门打开一扇窗!
分享:0
开班计划
热门文章
视频下载
猜你喜欢