R1yhtp的blog

文章标签

首页

归档

标签

关于

友人帐

载入天数...

载入时分秒...

阅

2025-03-02

6 min read

数学算法

数学建模大赛--学前准备

上个星期，朋友拉我打数模，想着刚好锻炼一下自己，也为以后毕设论文做准备，那就抽空参加一下吧-----（看来开发和AI和算法要断档更新了）

1.要学会查文献

如果ABC三个题不知道选啥，优先选择资料多的

书籍，知网，百度，谷歌...

一些搜索技巧方法

2.一些查阅论文的学术平台

知网

其他

1.谷歌学术网

https://scholar.google.com/

2.谷歌学术镜像

http://scholar.hedasudi.com/

3.Open Access Library

https://oalib.com

不过，对于国内的数模竞赛，那就没必要查阅外国的资料了，知网一般就行了

3.找数据的平台

1.优先知网，谷歌
2.国家统计局

https://data.stats.gov.cn/

注：其他国家部门网站大多数都有数据分页，如果需要可以另外查找
3.awesome-public-datasets
这是一个GitHub的一个项目，包含了经济，地理，教育....等数据

https://github.com/awesomedata/awesome-public-datasets

4.EPSDATA平台
这个平台有丰富的数据资源和处理分析后的结果，不过缺点是收费（可以申请7days的试用)

https://www.epsnet.com.cn/

5.其他
国家信息中心，kaggle，和鲸社区

4.数据预处理

缺失值

1.比赛提供数据，有些单元格是null or 空
2.缺失太多：凭主观判断多少选择是否不用这一数据
方法：

1.最简单处理：均值，众数插补
有些数据缺失可用众数补全（例如身高，性别等），定量数据，定性数据等
适用赛题：对个体精度要求不大的数据（人口普及，经济数据统计）
2.Newton插值法
根据固定公式，构造近似函数。补全缺失值，普遍适用性强
缺点：不适合对导数有要求的题目，边缘区域会存在不稳定的震荡
适用性：热力学温度，地形测量，定位等只追求函数值精确而不关心变化的数据
3.样条插值法
用分段的光滑曲线去插值
适用赛题：零件加工，水库水流量，图像“基线漂移”，机器人轨迹等精度要求高、没有突变的数据

异常值

样本中明显和其他数值差异很大的数据，例如一群人的身高数据中有个3米2的
处理方法：
1.正态分布3σ原则:
·数值分布在(u-3σ，u+3σ)中的概率为99.73%，其中u为平均值，σ为标准差
·求解步骤:1.计算均值μ和标准差σ;2.判断每个数据值是否在(u-3σ,u+3σ)内，不在则为异常值
适用题目:总体符合正态分布，例如人口数据、测量误差、生产加工质量、考试成绩等
不适用题目:总体符合其他分布，例如公交站人数排队论符合泊松分布
2.画箱型图

建模

模型概念

1.有理论基础
2.有推导过程
3.有最终结论
4.以文字描述，数学公式，图像表格展现出来

建模过程

其实就是论文
论文最重要的部分是摘要，其次是模型建立和求解

摘要:最重要
·读者看完摘要，就知道论文研究的问题、用了什么方法、求得了什么结果，以及每一部分的大致步骤
问题重述
将题目简述一遍即可，并不重要。注意不要复制粘贴，避免查重
模型假设和符号说明
1.好的假设能让你事半功信
2.例如某一年太阳投影问题，影子长度与地球公转也有关系，但地球公转对影长的影响远远小于自转，可在
模型假设里说明“忽略公转对影长的影响”
3.符号说明将论文中定义的重要符号列出表格说明即可

模型的求解

例如最短路径模型，查阅资料可知单源最短路径的常用算法是Dikstra算法，那么模型的
求解过程可以把资料上的用自己的话复述一遍:

采用Dijkstra算法求解:(以下内容可以百度或从常见资料里找到)
从起始点开始，将起点放进集合N中，查找所有与其相连的节点及到达下一节点的花费
并且记录下来;

接下来选择花费最短的一条路径，到这条最短路径指向的节点去，把这个点也放进集
合N中，然后查找所有与这个节点相连的其他不在集合N中的点，并且也计算到达下-
点所需要的花费并记录下来。保存花费最小的一条记录;
继续选择花费最短的路径重复执行第2步，一直到所有的点都已有了最短路径，完毕。
需要注意的是，必须根据赛题解释清楚
“起始点”在本问题中究竟是什么、算法里的“节点”在本题中的
实际意义是什么、最短路径意味着什么