预处理1-分类数据
前言
使用的相关数据链接如下:
数据预处理
无量纲化
|
|
|
|
使用的相关数据链接如下:
无量纲化
|
|
|
|
数据集来自kaggle
链接:https://www.kaggle.com/c/titanic/data
里面的test和train的csv数据集为所需数据集。
|
|
|
|
|
|
(178, 13)
|
|
array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2,
2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
2, 2])
|
|
|
|
|
|
|
|
array([[5.1, 3.5, 1.4, 0.2],
[4.9, 3. , 1.4, 0.2]])
|
|
array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])
|
|
|
|
array([0, 0, 2, 1, 0, 0, 2, 0, 0, 2, 0, 2, 1, 1, 2, 1, 2, 2, 2, 1, 2, 1,
1, 0, 0, 2, 1, 1, 2, 1, 2, 1, 0, 2, 2, 0, 1, 1, 1, 0, 2, 0, 1, 0,
1, 2, 2, 1, 0, 1, 2, 1, 2, 0, 2, 1, 2, 1, 1, 0, 0, 2, 2, 0, 1, 2,
1, 0, 0, 0, 2, 0, 0, 1, 2, 2, 2, 1, 2, 1, 0, 1, 1, 0, 1, 2, 0, 2,
1, 2, 0, 1, 0, 0, 0, 1, 1, 0, 0, 2, 2, 2, 0, 2, 0])
|
|
KNeighborsClassifier()
|
|
array([2, 2, 2, 1, 0, 2, 0, 2, 2, 0, 0, 0, 1, 0, 0, 2, 1, 0, 1, 1, 0, 2,
2, 1, 1, 1, 0, 1, 0, 2, 2, 2, 2, 0, 1, 0, 1, 2, 2, 0, 1, 0, 1, 1,
1])
|
|
array([2, 2, 2, 1, 0, 1, 0, 2, 2, 0, 0, 0, 2, 0, 0, 2, 1, 0, 1, 1, 0, 2,
2, 1, 1, 1, 0, 1, 0, 2, 1, 2, 2, 0, 1, 0, 1, 2, 2, 0, 1, 0, 1, 1,
1])
|
|
|
|
|
|
LinearRegression()
|
|
array([30.00384338, 25.02556238, 30.56759672, 28.60703649])
|
|
array([24. , 21.6, 34.7, 33.4])
import matplotlib.pyplot as plt
|
|
|
|
array([[4.17022005e-01, 7.20324493e-01, 1.14374817e-04],
[3.02332573e-01, 1.46755891e-01, 9.23385948e-02]])
|
|
<matplotlib.collections.PathCollection at 0x7f87d52f56a0>
|
|
<matplotlib.collections.PathCollection at 0x7f87d5113e50>
|
|
DecisionTreeRegressor(max_depth=5)
|
|
|
|
|
|
Ubuntu 20.0
系统
miniconda3
和jupyter
代码:
查找解释器位置
|
|
示例结果:
|
|
安装示例模板
|
|
源文档详见:博客相关资源-新冠疫情数据分析文件
分析文档:完成度:代码质量 3:5:2
其中分析文档是指你数据分析的过程中,对各问题分析的思路、对结果的解释、说明(要求言简意赅,不要为写而写)
帮舍友整的,不知道具体实际意义。
|
|
|
|
cellnumber | x-coordinate | y-coordinate | z-coordinate | density | z-velocity | relative-z-velocity | x-coordinate.1 | y-coordinate | z-face-area | boundary-cell-dist | boundary-normal-dist | |
---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 1 | -12.597898 | -2.404495 | -6.320497 | 1.226 | -22.205814 | -22.205814 | -12.597899 | -2.404528 | -0.006824 | 1 | 0.010276 |
1 | 2 | -12.597898 | -2.321485 | -6.320487 | 1.226 | -23.532957 | -23.532957 | -12.597899 | -2.321584 | -0.006824 | 1 | 0.020553 |
2 | 3 | -12.515688 | -2.404495 | -6.320500 | 1.226 | -23.167622 | -23.167622 | -12.515688 | -2.404528 | -0.006824 | 1 | 0.020636 |
3 | 4 | -12.515688 | -2.321485 | -6.320500 | 1.226 | -24.882029 | -24.882029 | -12.515688 | -2.321584 | -0.006824 | 1 | 0.051111 |
4 | 5 | -12.433477 | -2.404495 | -6.320500 | 1.226 | -23.488083 | -23.488083 | -12.433478 | -2.404528 | -0.006824 | 1 | 0.020719 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
-2.446000 | -1.630667 | -0.815333 | 0.000000 | 0.815333 | 1.630667 | |
---|---|---|---|---|---|---|
-1.630667 | -0.815333 | 0.000000 | 0.815333 | 1.630667 | 2.446000 | |
(-12.639, -12.118333329999999) | 12.427282 | 14.059160 | 13.851342 | 13.873906 | 14.030126 | 11.644887 |
(-12.118333329999999, -11.597666669999999) | 12.864383 | 14.017008 | 14.102577 | 14.100578 | 13.966731 | 12.004108 |
(-11.597666669999999, -11.077) | 8.104733 | 6.506130 | 6.549794 | 6.539991 | 6.467076 | 7.422578 |
相关资料:数据集链接点此下载
感谢组员书写书面报告,代码部分由我书写,我写的很烂,将就看吧。
个人体会:
只能确定2个自变量1个因变量的拟合函数形式,更高维的无法寻找公式进行拟合。
感谢组员的共同协作,做组长的有些东西帮不上实在抱歉。
|
|
|
|
|
|
|
|
为了写第一个模型整合各种数据。。。有点乱,将就看吧。