白芸汐 (@cloudwide) 在 [长文手敲] 简论机器学习——机器学习之前，先学会看数据（其二）中发帖数据表里没有一桩小事

白芸汐 (@cloudwide) 在 [长文手敲] 简论机器学习——机器学习之前，先学会看数据（其二）中发帖

数据表里没有一桩小事
上一篇我们反复申说，机器学习项目真正启动之前，最好先把数据这件头等大事端详清楚。 
听上去像极了一句正确得令人打不起精神的唠叨。 
好比出门前有人叮嘱你观测天象，下厨前提醒你刷锅净灶，写代码前告诫你先读懂需求文档。 
道理桩桩件件都对，执行起来却常常被当作耳旁风，左耳进右耳出。 
很多人接过数据以后，第一反应仍然是立刻让流程跑起来，片刻都不想耽搁。 
导入 pandas，读取一份 csv 文件，瞄一眼前五行，确认没有当场报错，接着便是一气呵成的连续操作——切分训练集与测试集，挂载一个模型，最后目不转睛地盯住分数。 
整个过程行云流水，手法娴熟，一副老师傅的派头。 
唯一的问题是，数据可能从最初那一秒便开始不动声色地蒙骗你。 
字段名称看上去无可挑剔，背后的含义或许南辕北辙。 
数字排列得整整齐齐，单位却可能张冠李戴地混在一处。 
类别列瞧上去干净利落，内里却可能藏匿着...