白芸汐 (@cloudwide) 在 [长文手敲] 简论机器学习——机器学习之前，先学会看数据（其一）中发帖不要上来就挑模型

白芸汐 (@cloudwide) 在 [长文手敲] 简论机器学习——机器学习之前，先学会看数据（其一）中发帖

不要上来就挑模型
很多刚接触机器学习的人，上手的第一件事往往是选模型。 
线性回归、随机森林、XGBoost，接着听说 LightGBM 表现更好，于是打开教程，复制代码，导入数据，训练，看一眼准确率，感觉整个流程跑通了。 
看见屏幕上的数字，忍不住觉得已经跨过了门槛。（忍不住轻哼起来） 
等到换一批真实数据再试，模型却经常一塌糊涂。 
这样的过程在机器学习圈子里反复出现。 
像刚拿到驾照的人，还顾不上熟悉路况，就已经在研究怎么调校悬架和轮胎。油门踩得果断，弯道却冲了出去。别人问为什么撞墙，回答常常是动力不够。 
问题多半不在动力上。 
问题主要在于，你连路况都没有仔细看过。 
机器学习最容易让人误解的地方就在这里。局外人关注模型，入门者盯着算法，而有经验的人往往先回头看数据。 
模型当然重要，算法也重要，可一切的源头是数据。 
IBM 在讨论 AI 数据质量时也指出，质量不高、有偏斜或不...