白芸汐 (@cloudwide) 在 [长文手敲] 简论机器学习——机器学习之前,先学会看数据(其一) 中发帖
不要上来就挑模型
很多刚接触机器学习的人,上手的第一件事往往是选模型。
线性回归、随机森林、XGBoost,接着听说 LightGBM 表现更好,于是打开教程,复制代码,导入数据,训练,看一眼准确率,感觉整个流程跑通了。
看见屏幕上的数字,忍不住觉得已经跨过了门槛。(忍不住轻哼起来)
等到换一批真实数据再试,模型却经常一塌糊涂。
这样的过程在机器学习圈子里反复出现。
像刚拿到驾照的人,还顾不上熟悉路况,就已经在研究怎么调校悬架和轮胎。油门踩得果断,弯道却冲了出去。别人问为什么撞墙,回答常常是动力不够。
问题多半不在动力上。
问题主要在于,你连路况都没有仔细看过。
机器学习最容易让人误解的地方就在这里。局外人关注模型,入门者盯着算法,而有经验的人往往先回头看数据。
模型当然重要,算法也重要,可一切的源头是数据。
IBM 在讨论 AI 数据质量时也指出,质量不高、有偏斜或不...