白芸汐 (@cloudwide) 在 [长文手敲] 简论机器学习——机器学习之前,先学会看数据(其二) 中发帖
数据表里没有一桩小事
上一篇我们反复申说,机器学习项目真正启动之前,最好先把数据这件头等大事端详清楚。
听上去像极了一句正确得令人打不起精神的唠叨。
好比出门前有人叮嘱你观测天象,下厨前提醒你刷锅净灶,写代码前告诫你先读懂需求文档。
道理桩桩件件都对,执行起来却常常被当作耳旁风,左耳进右耳出。
很多人接过数据以后,第一反应仍然是立刻让流程跑起来,片刻都不想耽搁。
导入 pandas,读取一份 csv 文件,瞄一眼前五行,确认没有当场报错,接着便是一气呵成的连续操作——切分训练集与测试集,挂载一个模型,最后目不转睛地盯住分数。
整个过程行云流水,手法娴熟,一副老师傅的派头。
唯一的问题是,数据可能从最初那一秒便开始不动声色地蒙骗你。
字段名称看上去无可挑剔,背后的含义或许南辕北辙。
数字排列得整整齐齐,单位却可能张冠李戴地混在一处。
类别列瞧上去干净利落,内里却可能藏匿着...