数学建模大赛--学前准备
上个星期,朋友拉我打数模,想着刚好锻炼一下自己,也为以后毕设论文做准备,那就抽空参加一下吧-----(看来开发和AI和算法要断档更新了)
1.要学会查文献
如果ABC三个题不知道选啥,优先选择资料多的
- 书籍,知网,百度,谷歌...
一些搜索技巧方法

2.一些查阅论文的学术平台
知网

其他
1.谷歌学术网
https://scholar.google.com/
2.谷歌学术镜像
http://scholar.hedasudi.com/
3.Open Access Library
https://oalib.com
不过,对于国内的数模竞赛,那就没必要查阅外国的资料了,知网一般就行了
3.找数据的平台
1.优先知网,谷歌
2.国家统计局
https://data.stats.gov.cn/
注:其他国家部门网站大多数都有数据分页,如果需要可以另外查找
3.awesome-public-datasets
这是一个GitHub的一个项目,包含了经济,地理,教育....等数据
https://github.com/awesomedata/awesome-public-datasets
4.EPSDATA平台
这个平台有丰富的数据资源和处理分析后的结果,不过缺点是收费(可以申请7days的试用)
https://www.epsnet.com.cn/
5.其他
国家信息中心,kaggle,和鲸社区
4.数据预处理
缺失值
1.比赛提供数据,有些单元格是null or 空
2.缺失太多:凭主观判断多少选择是否不用这一数据
方法:
- 1.最简单处理:均值,众数插补
有些数据缺失可用众数补全(例如身高,性别等),定量数据,定性数据等
适用赛题:对个体精度要求不大的数据(人口普及,经济数据统计) - 2.Newton插值法
根据固定公式,构造近似函数。补全缺失值,普遍适用性强
缺点:不适合对导数有要求的题目,边缘区域会存在不稳定的震荡
适用性:热力学温度,地形测量,定位等只追求函数值精确而不关心变化的数据 - 3.样条插值法
用分段的光滑曲线去插值
适用赛题:零件加工,水库水流量,图像“基线漂移”,机器人轨迹等精度要求高、没有突变的数据
异常值
- 样本中明显和其他数值差异很大的数据,例如一群人的身高数据中有个3米2的
处理方法: - 1.正态分布3σ原则:
·数值分布在(u-3σ,u+3σ)中的概率为99.73%,其中u为平均值,σ为标准差
·求解步骤:1.计算均值μ和标准差σ;2.判断每个数据值是否在(u-3σ,u+3σ)内,不在则为异常值
适用题目:总体符合正态分布,例如人口数据、测量误差、生产加工质量、考试成绩等
不适用题目:总体符合其他分布,例如公交站人数排队论符合泊松分布 - 2.画箱型图

建模
模型概念
1.有理论基础
2.有推导过程
3.有最终结论
4.以文字描述,数学公式,图像表格展现出来
建模过程
其实就是论文
论文最重要的部分是摘要,其次是模型建立和求解
- 摘要:最重要
·读者看完摘要,就知道论文研究的问题、用了什么方法、求得了什么结果,以及每一部分的大致步骤 - 问题重述
将题目简述一遍即可,并不重要。注意不要复制粘贴,避免查重 - 模型假设和符号说明
1.好的假设能让你事半功信
2.例如某一年太阳投影问题,影子长度与地球公转也有关系,但地球公转对影长的影响远远小于自转,可在
模型假设里说明“忽略公转对影长的影响”
3.符号说明将论文中定义的重要符号列出表格说明即可
模型的求解
例如最短路径模型,查阅资料可知单源最短路径的常用算法是Dikstra算法,那么模型的
求解过程可以把资料上的用自己的话复述一遍:
采用Dijkstra算法求解:(以下内容可以百度或从常见资料里找到)
从起始点开始,将起点放进集合N中,查找所有与其相连的节点及到达下一节点的花费
并且记录下来;
接下来选择花费最短的一条路径,到这条最短路径指向的节点去,把这个点也放进集
合N中,然后查找所有与这个节点相连的其他不在集合N中的点,并且也计算到达下-
点所需要的花费并记录下来。保存花费最小的一条记录;
继续选择花费最短的路径重复执行第2步,一直到所有的点都已有了最短路径,完毕。
需要注意的是,必须根据赛题解释清楚
“起始点”在本问题中究竟是什么、算法里的“节点”在本题中的
实际意义是什么、最短路径意味着什么
模型的优缺点与改进方法
这一部分不是必须的,可以简单分析下前文模型的优缺点,若没有改进方法也可不写
结合查到的文献,分析正文中模型常用在什么哪种问题,又与本文所求解的问题有何区别
参考文献

附录
附录里要写出正文中求解时用到的代码
一定不要把网上搜到的代码直接复制粘贴!!!
把查到的代码里变量名换一换就不会被查重











