白芸汐 (@cloudwide)[长文手敲] 简论机器学习——机器学习之前,先学会看数据(其二) 中发帖

数据表里没有一桩小事
上一篇我们反复申说,机器学习项目真正启动之前,最好先把数据这件头等大事端详清楚。 
听上去像极了一句正确得令人打不起精神的唠叨。 
好比出门前有人叮嘱你观测天象,下厨前提醒你刷锅净灶,写代码前告诫你先读懂需求文档。 
道理桩桩件件都对,执行起来却常常被当作耳旁风,左耳进右耳出。 
很多人接过数据以后,第一反应仍然是立刻让流程跑起来,片刻都不想耽搁。 
导入 pandas,读取一份 csv 文件,瞄一眼前五行,确认没有当场报错,接着便是一气呵成的连续操作——切分训练集与测试集,挂载一个模型,最后目不转睛地盯住分数。 
整个过程行云流水,手法娴熟,一副老师傅的派头。 
唯一的问题是,数据可能从最初那一秒便开始不动声色地蒙骗你。 
字段名称看上去无可挑剔,背后的含义或许南辕北辙。 
数字排列得整整齐齐,单位却可能张冠李戴地混在一处。 
类别列瞧上去干净利落,内里却可能藏匿着...
 
 
Back to Top