For investors
股价:
5.36 美元 %For investors
股价:
5.36 美元 %认真做教育 专心促就业
同样地在这篇文章中,我们将基于python实现逻辑回归分析模型解决二元分类任务。我们主要集中于逻辑回归分析的实现,其背景概念在《深入剖析逻辑回归分析模型》这篇文章进行了阐明。
泡一杯咖啡或者茶,在我们继续深入前先认真了解下面背景知识:
深入剖析逻辑回归分析
深入剖析多项式逻辑回归分析算法
Softmax和S型函数的重要区别
现在看一下这篇文章中的主要脉路。
内容表
什么是二元分类
逻辑回归分析简介
基于python建立逻辑回归分析模型
二元分类问题
数据集描述
生成用于建模和测试的数据
要素选择
分割训练数据并测试数据集
理解训练数据
基于Python采用机器学习实现逻辑回归分析
逻辑回归分析模型准确度计算
什么是二元分类
二元分类是采用监督分类算法实现二元目标分类,二元目标是指仅有2个或2类目标。为了对二元分类有个清晰的认识,我们首先考虑一下以下几种二元分类问题:
识别图像中的动物是否是猫
目标:是否为猫
预测选民会投票给比尔?克林顿或者鲍勃?多尔
目标:比尔?克林顿或者鲍勃?多尔
预测明天是否会下雨
目标:明天是雨天还是晴天
希望通过上述的分类问题,读者们对二元分类问题已经有了清楚的认识。
逻辑回归简介
二元分类是采用监督分类算法实现二元目标分类,二元目标是指仅有2个或2类目标。逻辑回归算法是用于二元分类问题的简单的分类算法,同时它也可以用于解决多类分类问题。简而言之,逻辑回归模型主要通过Softmax和S型函数选取要素并计算概率。S型函数主要用于二元分类问题,而Softmax函数主要用于多类分类问题。
然后,通过计算概率可以找到目标类。总之,我们将高概率类当作目标类。
通过上面的描述,读者们应该已经了解逻辑回归分析算法。如果你是初次接触逻辑回归算法,请先阅读《深入剖析逻辑回归分析模型》这篇文章。
基于Python建立逻辑回归分析模型
采用Python建立逻辑回归模型,我们将会使用Python包Scikit-learn。我们会遵循下面的工作流来实现逻辑回归模型:
加载数据集
分析数据
分割训练数据并测试数据集
使用训练数据集模拟逻辑回归模型
基于训练数据计算训练模型准确度
基于测试数据计算模型准确度
我们将会按照上述的流程来建立回归分析模型,从而解决二元分类问题,先看看我们需要解决的问题。
我们将要建立逻辑回归模型,来预测选民将会选谁。考虑到具体细节:
选民会投票给比尔·克林顿么?
选民会投票给鲍勃·多尔?
数据集描述
这里使用的数据集是1996年美国总统选举数据,稍后我们会浏览数据集中的所有要素。在这之前,我先对这次选举做一个简短的总结。
1996年美国总统大选简介
美国第53届总统选举在1996年12月5日举行
候选人:
1.比尔·克林顿
2.鲍勃·多尔
3.罗斯·佩罗
比尔?克林顿以49.2%的得票率赢得此次选举
想要对此次选举有更多了解么?你可以阅读维基百科中《美国总统选举》这篇文章。
Pandas是用于数据分析的python包。在逻辑回归分类器的建模处理过程中,我们首先要将数据集(CSV格式)导入至pandas数据框架中,然后就可以轻松对数据集进行处理。
Numpy主要用于矩阵计
Plotly用于数据集的可视化我们需要sign_in导入你的plotly凭据,当创建一个账户后就可以在你的plotly账户中找到你的凭据Sklearn用于机器学习算法建模
1.train_test_split函数可以分割训练数据并测试数据集
2.LogisticRegression函数用于逻辑回归分类器建模
3.metrics函数用于计算分类器准确度