8个适合参赛的有趣的机器学习项目(有教程和数据源)-区块链网站|NFTS

来源：全球人工智能

摘要：你是否还在因为找不到机器学习入门的手部训练方案而感到无奈？在本指南中，我们将为您带来八个适合初学者的有趣的机器学习项目，这些项目简单易学，相信会增加您学习机器学习的信心。

说到机器学习，我相信除了吴恩达之外，很多学者都是通过斯坦福大学的公开课《Machine Learning》开始学习这个领域的，但是学习之后并不知道自己的掌握程度，缺乏一些实际的项目操作。对于机器学习相关的竞赛挑战，有些项目的门槛有点高，参赛后很难实现，从而导致他们对机器学习的热情逐渐下降。大部分都经历过这个过程，总想找一些手的训练项目，比如手写识别，但是这些项目太成熟了，不成熟。参考别人的网络模型运行实验后，结果准确率几乎100%，学习调整参数的机会很少，所以都想找一些适合初学者的项目练手。那么在本指南中，我们将为大家带来八个适合初学者的有趣的机器学习项目。

把时间花在项目上是最好的投资方式，这样你会享受学习，保持动力，进步更快。任何理论都不能代替实践。虽然课本和课程可以帮助你掌握一些基本原理，但当你试图应用它们时，你会发现很难操作。所以该项目有助于提高应用机器学习的技能，另外在找工作的时候也会给自己增加一些筹码。

下面将详细介绍这八个项目，任何一个项目都可以在一个周末内完成，如果你愿意可以扩展。

1.机器学习的斗士

这个项目被称为“机器学习的角斗士”，但它并不新鲜。这是围绕机器学习建立实用直觉的最快方式。目标是将现成的模型应用于不同的数据集。这个项目有三个主要原因：

首先，你会根据你的直觉为问题找到相应的模型。模型对数据丢失是否稳健，模型适合什么样的特征？这些都可以通过翻翻课本找到，但是多练习可以学得更好。其次，这个项目会教你快速设计初始模型的技巧。在实际应用中，如果不简单地尝试，很难知道哪些模型的性能最好。最后，这个练习可以帮助你掌握建模过程。例如：

输入数据

数据清理

将数据集分成训练/测试或交叉验证集。

预处理

变化

特色工程

由于使用了现成的模型，这就给了你更多的机会来集中学习这些关键步骤。回归、分类和聚类算法可以通过以下教程来练习。

学习课程

Python:官方课程Python:sklearn——sklearn数据包

http://scikit-learn.org/stable/tutorial/

Scikit Learn预测葡萄酒质量——用于训练机器学习模型的分步教程

http://elitedatascience . com/python-machine-learning-tutorial-scikit-learn

R: caret ——网络研讨会

数据源

UCI机器学习图书馆拥有超过33，354，350个可搜索的数据集，几乎涵盖了每个主题。

http://archive.ics.uci.edu/ml/

Kaggle数据集—— ka ggle社区中的100多个数据集。

https://www.kaggle.com/datasets

Data.gov——美国政府发布的开放数据集。

https://www.data.gov/

2.玩“钱球”

在moneyball的书中，奥克兰通过擅长分析球员的球探构建了一个有竞争力的阵容，但只需要支付纽约扬基队三分之一的薪水。

首先，如果你没读过这本书，你应该读一读。好在体育里面有很多数据可以玩，这些数据(球队、比赛、比分、球员信息)都是可以免费获取的。有很多有趣的适合初学者的机器学习项目。例如：

体彩投注——根据每次比赛前给定的数据预测比分；

人才搜索——利用高校统计数据预测哪些球员会有最好的职业生涯；

综合管理——根据球员各自优势打造集群，打造综合型团队。

体育也是实践数据可视化和探索性分析的好领域。您可以使用这些技巧来帮助您决定哪些类型的数据应该包含在您的分析中。

数据源

体育统计数据——体育和历史数据包含许多职业体育比赛等。从互联网上获取这些信息非常容易。

http://www.databasesports.com/

体育参考——另一个体育统计数据库。一个更混乱的界面，但单个表格可以导出为CSV文件。

http://www.sports-reference.com/

可以获取国际棒球和IPL板球比赛的Cricsheet.org——数据，以及IPL和T20国际比赛的CSV文件。

http://cricsheet.org/downloads/

预测股票价格

股票市场对任何数据科学家都很感兴趣。首先，你有很多类型的数据，比如价格，全球宏观经济指标，波动指数等等。其次，数据非常详细。你可以在短时间内轻松获得每家公司的数据，这让你可以创造性地思考交易策略。最后，金融市场一般具有反馈周期短的特点。因此，可以快速验证新数据。

一些初学者友好的机器学习项目如下：

量化价值投资——根据公司季报预测半年内的价格走势。

预测——为deltas之间的隐含波动率和实际波动率建立了时间序列模型甚至递归神经网络。

统计套利——根据价格变化等因素寻找相似的股票，寻找价格背离的时机。

声明：在实践中通过机器学习建立交易模型很简单，但要让它们盈利却非常困难。入市需谨慎，投资有风险。

学习课程

Python:sklearn投资——一系列将机器学习应用于投资的视频。

https://www.youtube.com/watch?v=urtz 2 jkc gbclist=plqvvaa 0 qudd 0 flggphkcej-9jp-qdz 3 index=1

R: r量化交易——量化金融详细课堂笔记。

http://www.rfortraders.com/

数据源

Quandl——数据市场，免费提供财经数据。

https://www.quandl.com/open-data

Quantopian——对金融社区进行量化，并为开发交易算法提供免费平台。

https://www.quantopian.com/data

美国基本档案——5000美国公司五年以上的基本数据。

http://usfundamentals.com/download

4.教神经网络阅读笔迹

神经网络和深度学习是现代人工智能的成功案例，推动了图像识别、自动文本生成甚至自动驾驶汽车的巨大进步。MNIST手写体数字分类的挑战是一个经典的突破点。这个数据集对初学者很友好，而且足够小，适合大多数计算机来完成这个挑战。首先，建议阅读以下教程的第一章。它将教你如何建立一个神经网络，并完成高精度的MNIST挑战。

学习课程

神经网络与深度学习(在线书籍)——第1章如何用Python从零开始编写神经网络，完成MNIST数分类。

http://neuralnetworksanddeeplearning.com/

数据源

MNIST——包含70，000个标记的手写数字图像。

http://yann.lecun.com/exdb/mnist/

5.调查安然事件

安然事件导致历史上最大的公司破产。2000年，安然是美国最大的能源公司，但它在被曝出欺诈后一年内就破产了。幸运的是，我们已经有了安然的电子邮件数据库，其中包含150名前安然雇员(主要是高级经理)的50万封电子邮件。这也是唯一的大型公共真实邮件数据库，这使得它更有价值。事实上，数据科学家已经使用这个数据集进行了多年的教育和研究。

初学者可以尝试的机器学习项目的例子包括：

异常检测——试图根据按小时收发邮件的分布来检测导致公共丑闻的异常行为。

社交网络分析——在员工中建立网络图模型，寻找关键人物。

自然语言处理——结合电子邮件元数据分析文本消息，并根据其目的对电子邮件进行分类。

数据源

安然电子邮件数据集——这是CMU提交的安然电子邮件。

http://www.cs.cmu.edu/~enron/

安然数据描述(PDF)——对安然邮件数据的探索性分析可以帮助你打好基础。

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10 . 1 . 1 . 296 . 9477 rep=rep 1 type=pdf

6.从头开始写机器学习算法。

从头开始编写机器学习算法的原因主要有两个：第一，没有更好的方法来建立对其机制的真正理解。你将不得不考虑每一步来真正掌握这些机制。其次，你将学习如何将数学教学工作翻译成公共代码。刚开始的时候，建议你选择不太复杂的算法；适应了简单算法的构造后，再去尝试扩展，以获得更多的功能；最后，如果你的算法不比那些现有的数据包快，也不要气馁，因为这些数据包是多年发展的成果！

学习课程

Python:从零开始的逻辑回归

https://beckernick.github.io/logistic-regression-from-scratch/

Python:从头开始的k-最近邻方法

https://blog . Cambridge coding . com/2016/01/16/machine-learning-under-the-hood-writing-your-own-k-neighborhood-algorithm/

r:从零开始的逻辑回归

https://www . analyticsvidhya . com/blog/2015/10/basics-logistic-regression/

7.挖掘社交情感

由于大量的用户生成内容，社交媒体几乎成了“大数据”的代名词。挖掘这些丰富的数据，可以揭示舆情的走向、前沿和舆情。脸书、推特、微信等一系列社交平台铺天盖地而来。此外，每一代人在社交媒体上花费的时间都比他们的前辈多，这意味着社交媒体数据与营销、品牌和业务更相关。虽然有许多流行的社交媒体平台，但Twitter是实践机器学习经典的起点。使用Twitter数据，你会得到一个有趣的数据(Twitter内容)和元数据(位置、标签、用户、转发等)的混合体。)，所以有很多方法可以分析。

学习课程

Python:挖掘Twitter数据——如何分析Twitter数据中的情感

https://marcobonzanini . com/2015/03/02/mining-Twitter-data-with-python-part-1/

r:机器学习的情感分析——短暂而甜蜜的情感分析课程

使用机器学习的情感分析

数据源

Twitter API—— Twitter API是流媒体数据的经典来源。

https://dev.twitter.com/streaming/overview

股票Twits API——Stock股票Twits是一个社交投资平台，类似于交易者和投资者之间的一个Twitter。这个数据集可以通过向时间序列数据集添加时间戳和股票代码符号来扩展。

https://stocktwits.com/developers/docs

8.改善医疗保健

另一个由于机器学习而发生快速变化的行业是全球健康和保健。在大多数国家，成为一名医生需要多年的教育，这是一个要求很高的领域，时间长，风险大，门槛高。因此，近年来，在机器学习的帮助下，医生的工作量减少了，医疗系统的整体效率提高了。

使用案例包括：

预防保健——预测疾病在个人和社区层面的爆发。

诊断服务——图像数据的自动分类，如扫描、x光等。

保险——根据披露的风险因素调整保费。

随着医院患者病例现代化的发展，当我们收集到更多的健康数据时，数据科学家将有很大的可能性改善现有的医疗系统。

学习课程

r:为疾病预测建立一个有意义的机器学习模型

https://shiring . github . io/machine _ learning/2017/03/31/webinar _ code

医疗保健中的机器学习——微软研究院精彩演讲

数据源

大型健康数据集——大型健康数据集的集合

https://www.ehdp.com/vitalnet/datasets.htm

美国政府提供的Data.gov/health——医疗保健相关数据集。

https://www.data.gov/health/

健康、营养和人口统计——世界银行提供的全球健康、营养和人口统计数据。

https://data . world bank . org/data-catalog/health-nutrition-and-population-statistics

原文：https://elitedata science . com/machine-learning-projects-for-初学者？SPM=5176.100239 . blog cont 221708.46 . sq2 psh

点击下方“阅读原文”，了解环境猫室内空气监测仪。

8个适合参赛的有趣的机器学习项目(有教程和数据源)

作者: 区块链

发表回复取消回复

给这篇文章的作者打赏

作者: 区块链

相关推荐

发表回复 取消回复

发表回复取消回复