《数据科学R语言实践:面向计算推理与问题求解的案例研究法》一一2.1 引言...

news/2024/7/5 2:27:01

本节书摘来自华章计算机《数据科学R语言实践:面向计算推理与问题求解的案例研究法》一书中的第2章,第2.1节,作者:[美] 德博拉·诺兰(Deborah Nolan)  邓肯·坦普·朗(Duncan Temple Lang)  更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.1 引言

在这个“数据免费且无处不在”的时代,我们在搜寻数据上拥有巨大的潜力,这些数据可以使我们洞悉专业领域的问题或个人感兴趣的主题。例如,我们可能对理解人的体能如何随年龄的增长而变化产生兴趣。对于这个问题,其中一个数据源来自公路赛。每年有成百上千人参加公路赛,比赛的组织者收集参赛选手的比赛用时信息并通常在网上发布个人相关的数据。这些可以免费访问的数据能够帮助我们深入了解有关个人体能和年龄之间关系的问题。
每年有许多公路赛,其中一个经典的赛事是樱花开放的4月初在华盛顿地区举行的樱花10英里公路赛。樱花公路赛始于1973年,当时是即将参加波士顿马拉松的跑步精英们的一场训练赛。随着知名度的提高,到了2012年有将近17 000人参与该项赛事,参赛者的年龄跨度从9岁一直到89岁。这项赛事变得十分流行,以致参赛选手需要通过抽奖方式进行选拔,或者他们需保证向官方竞赛慈善机构捐款500美金以获得参赛资格。每年比赛结束之后,组织者都会在http://www.cherryblossom.org/上公布结果(见图2-1),这些数据为研究年龄与比赛成绩之间的关系提供了巨大的资源。
樱花10英里公路赛公开的结果可以从网站上抓取并读入R中[3]以备分析。当前公布的结果包括所有从1999年到2012年的赛事成绩。 稍微具有挑战性的任务是从网站上抓取结果并将其格式化为能在R中分析的形式,这是因为被记录的信息以及信息的格式每年都在变化。一些简单的格式上的差异体现在表头格式和脚注的使用上,有些表中还会包含一些错误,例如,一些值出现在错误的列中,表头缺失,等等。总的来说,数据的获取是相当简单的,但是由于我们要发现一些小错误,那么该过程就变成了一个迭代处理。这里我们用统计的方法实现这个迭代过程,例如,我们检查已经读入R中的数据的汇总统计和分布图,发现异常点,比如2003年所有参赛选手的年龄都小于9岁等,并使用原始表格中的数据对样本观测值进行交叉校验,在某种程度上用尽可能通用的方法来修正代码以解决问题,重新生成数据并重复以上过程。这是有关“凌乱”数据的处理过程。它是2.2节和2.3节中重点关注的问题。此外,2.7节为那些对整个数据获取过程感兴趣的读者介绍了如何从网站上抓取比赛结果的主题。
image

图2-1 樱花公路赛网站截图。该网页包含每年比赛结果的链接。他们提供的最早数据是1999年的数据。男子组和女子组的结果被分别列出
在将数据成功读入R中并清洗之后,我们在2.4节中研究跑步时间与年龄的关系。鉴于比赛的普及,像数据可视化这样简单的任务也将面临挑战,我们要考虑怎样以一种信息丰富的方式展现数以万计的观察结果。
对于任何一年的比赛结果,我们都有一个成绩-年龄的关系横截面视图。也就是说,我们观察的是不同年龄组的人群和他们的跑步时间,而不是在他变老的过程中观察单个个体的比赛成绩。然而,我们拥有14个年度的赛事成绩,而且许多参赛选手参加了多场比赛,如果我们可以将单个选手几年内的跑步时间联系起来,就可以检测他的成绩随着年龄增长的变化情况。这些数据包括跑步者的姓名、年龄和居住地,因此我们将考虑怎样使用这些信息构建个人跑步时间的纵向视图。这是2.5节的主题。
如果我们研究那些参加过多个年度比赛的选手,就会得到一个成绩的纵向视图。然而,对于一个参赛选手,我们最多有其14年的成绩,因此我们不能在参赛年龄18~89岁整个跨度范围内观察某个个体的成绩变化情况。那么,我们可以拼凑这些纵向数据得到一个比赛成绩对于年龄的函数估计吗?我们将在2.6节研究这个问题的解决方法。
计算方面的主题
使用正则表达式从预格式化的文本表中提取和清洗混乱的数据,并创建唯一标识符以匹配属于同一个体的记录。
采用统计技术来识别坏数据,并确认这些问题已被修正。
可视化具有大量观测值的数据(约150 000条记录)。
获得采用R公式语言进行绘图和建模的经验。
拟合采用最小二乘法的分段线性模型和采用局部平均的非参数化曲线。
比较数据结构,例如,用于支持和处理纵向数据的数据框和数据框列表。这里包含诸如tapply()、mapply()、sapply()和lapply()等“应用”函数的应用。
开发策略,以便使用recover()在报错后通过浏览活动函数的调用来调试代码。
为获得文本内容抓取简单的网页。


http://lihuaxi.xjx100.cn/news/240404.html

相关文章

vs2017 open从v_宣布#Open2017,这是面向开发人员的除夕直播流

vs2017 open从vHere are a few reasons to stay home this New Year’s Eve:这是除夕之夜留在家里的一些理由: It’s the worst day of the year for fatal drunk driving deaths 这是致命的酒后驾车致死的一年中最糟糕的一天 It’s crowded 拥挤 It’s freaking c…

向下滚动页面导航悬浮

为什么80%的码农都做不了架构师?>>> 做两个导航,第二个隐藏 下拉到一定位置,显示第二个,position:fixed $(function(){$(window).scroll(function () {var top $(document).scrollTop();var m$(".nav")…

我国网络安全人才培养缺口巨大

近日在武汉举行的国家网络安全宣传周的相关论坛上,我国网络安全人才培养缺口巨大成为与会专家热议的话题。来自中央和地方相关部门、高校研究者、互联网企业代表均认为,我国网络安全人才输出仍距国家、企业需求有较大差距。 去年6月&#xff…

输入vue ui没反应

在cmd中输入 vue ui没有反应 输入 vue -h查看,发现是版本太低,根本没有ui 这是因为vue的版本太低导致的, 输入cnpm i -g vue/cli 升级脚手架即可 升级完成后,输入vue -h 最后输入vue ui即可

创业初体验

何为创业?为什么一开始就抛出这个问题。因为在“创业”这个词满天飞的今天,在政府对大众创业的倡导下,加之社会的鼓噪,创业仿佛成了一件人人可为之事,几乎每个咖啡馆都可以见到一拨拨的人在谈着自己的项目和梦想&#…

韩国文档的编码方式_像韩国学生学习英语一样学习编码

韩国文档的编码方式by Stephen Mayeux斯蒂芬马约(Stephen Mayeux) 像韩国学生学习英语一样学习编码 (Learn to code like a Korean student learns English) If this is the first you’ve heard of me, then there’s only one thing you need to know: I am an ESL Teacher …

postman安装和安装后双击没反应

(1)安装地址 https://www.getpostman.com/ (2)安装后双击没反应解决: 找到以下两个路径直接删除文件,安装路径不同有可能不同 C:\Users\Administrator\AppData\Roaming\Postman C:\Users\Administrator\App…

BM提供支持云的量子计算平台,以加速创新

IBM研究院日前首次宣布公众可试用IBM量子处理器。从5月4日开始,IBM通过云服务,使所有有兴趣亲自实践的人们可以接触到量子处理器,帮助科学家和科研社区加速科技创新,并在该领域激发出更多的前沿应用。 这仅仅是量子计算时代的开始…