特征工程是数据科学和机器学习中的重要术语。 数据科学家把 80% 的时间用于处理特征工程任务,余下20% 的时间用于训练机器学习 (ML) (*3)。 详细来说,过程中,选择、转换、提取、组合和操作原始数据,是产生分析或预测建模所需变量的关键过程 (*2)。
透过建立准确的预测模型,我们可以应用它来预测独特的业务环境,例如消费者在电子商务中的重复购买行为等 (*4),使你的公司能够更清晰地掌握市场状况,做出更精准的决策,赚取更多的利润。以下简单介绍 5 个基本步骤,可以帮助决策者轻松了解数据科学家将提供哪些帮助(*1 和 *2),这些步骤是:数据净化、数据转换、特征提炼、特征取舍、特征迭代。
创建特征
原始资料可以储存为不同的格式,例如图像、文本文件、影片、照片。 在数据标记的最初阶段,我们需要识别客户数据的类型。
数据净化
为了应对当前复杂的商业环境,一些企业必须长期储存各种数据集。 删除不相关的数据(离群值)或修改数据是不错的开始,进一步使数据更具可读性和对建模更有价值。
数据转换
从Datacube客户的经验来看,他们通常会因为数据长期储存在不同的系统中,且格式不一致而感到困扰(*1),而之前没有聘请数据专家的作任何整合工作。 因此,下一步我们必须将数据集标准化或转换为统一格式,例如从分类变量到数值变量,以便我们可以充分利用这些有价值的数据来帮助业务。
特征取舍和提炼
因素或变数群是巨大的、原始的、抽象的,甚至是令人困惑的。 在此过程中,数据科学家可以应用统计和分析技术来帮助您将多个目标变量,分组为一个子特征群,最终能识别模型中的多个优异的特征群。
特征迭代
可以提炼特征群,并将其分组为多个子集。 透过在运行 ML 算法时,应用这些子集和演算方法,模型的表现便可以透过分数来衡量,然后按高下排名,稍后用可视化图象,以供管理层获取洞察力的巿场分析 (*1)。 因此,我们可以进一步添加、删除或保留的特征群,这确实有助于提高模型预测。
在了解了特征工程的流程后,有些人可能会认为它纯粹是技术性的,应该将其交给数据科学家,但事实并非如此。 身为老板、决策者、管理阶层,您实际上可以被授权参与数据管理的某些部分,让我们在第 2 部分讨论更多内容。
进一步阅读 (*):
- https://aws.amazon.com/what-is/feature-engineering/
- https://corporatefinanceinstitute.com/resources/data-science/feature-engineering/
- https://www.youtube.com/watch?v=DkLQtGqQedo
- https://www.researchgate.net/publication/366279094_A_Feature_Engineering_and_Ensemble_Learning_Based_Approach_for_Repeated_Buyers_Prediction
关于我们的机器学习能力 :
https://www.datacube.hk/aibook/
#Big_data #data_management #feature_engineering #artificial_intelligence #predictive_model #AIBook #machinelearning #decision_maker