数据归一化中"均值归一化"的问题
小弟这几天在看机器学习入门的书,今晚看到归一化的时候产生一个问题,阐述如下:
书上说机器学习多使用的归一化方法是均值方差归一化,这种归一化可以很好的解决数据中出现极端值的问题,在对training_data和test_data处理方面,test_data使用的mean和std都是train的mean和std,这些我都理解,但是我发现一个问题,如果在均值归一化处理test_data的时候,使用的max和min也是training的,那么很有可能出现test_data大于1或者小于0的情况啊。举例如下:
training_data中max = 50,min = 10,新来了一个test_data = 60,那么均值归一化的结果就是 = ( 60 - 10) / (50 - 10 ) = 1.25 > 1。
书上说是meanScaler是机器学习常用的方法,偶尔也会使用均值归一化,但是使用均值归一化的时候出现上面的问题怎么办呢?
求教大佬们