爬虫初体验-网站文章
日期:2019-05-09
天气:没出门我也不知道……
啊啊啊啊啊(请自行带入Do、Re、Mi)~今天是有点艹dan又有点满足的一天。艹dan是因为,就因为同学让我帮忙就捣鼓了一天 python 爬虫,茶不思饭不想;满足就是一天过去了还是有很多收获,也掌握了一些 python 爬虫的基本技能。
目标任务
需求是爬取康安途网站医药新闻板块的所有文章,希望得到的包括每一篇文章的标题及其内容(纯文本)。
大概浏览了一下页面的内容,新闻版块一共有 2317 页,每一页包含 20 篇文章,也就是实说最后会有 40k+ 条信息,我的小本本还是有点承受不住的……
本来我都准被写到一个个文件里了,后来嘞,需
sklearn.model_selection
整理sklearn.model_selection中一些常用的类及其基本用法。
拆分数据(sklearn.model_selection.train_test_split)
用于将数据集拆分为两部分,一部分用于模型训练,一部分用于模型评估。
train_test_split(*arrays, test_size=0.25, train_size=None, random_state=None, shuffle=True, stratify=None)
*arrays 相同长度的一系列n个数据集,接受格式有[lists, numpy arrays, scipy-sparse matrices
小象学院《python人工智能》课程总结
最近在小象学院买了个课《Python人工智能》,课程涉及了一些基本的机器学习算法,也包含了几个机器学习的实战项目,虽然都比较基础,但是从中还是可以学到很多东西,今天天阴,正好就一起好好整理一下吧。
嗯……先整体归纳一下,在这门课程当中学到的东西,以及自己的一些感悟,再就每个不同的项目进行简单的分析。
先瞎叨叨几句
开始的开始,我们都是孩子……噗噗噗,stop,说正事!
1.机器学习的整个过程大致可以分为:数据收集、数据处理、构建模型、训练模型、预测结果。共五个部分。在这次课程的大作业中每一个项目都包含了除数据收集的其余四个过程。在真正完成一个项目时,由于对预测结果的追求,肯定不是说五个
sklearn入门-非监督学习
对不带标签的数据进行学习。
k均值算法(k-Means)(sklearn.cluster.KMeans)
最基本的聚类算法。
KMeans(n_clusters=8, init=’k-means++’, n_init=10, max_iter=300, tol=0.0001, precompute_distances=’auto’, verbose=0, random_state=None, copy_x=True, n_jobs=None, algorithm=’auto’)
n_clusters=8 聚类数。
init='k-means++' 初始化聚类中心方法。/ ‘auto’ /
sklearn入门-监督学习
这篇文档只对sklearn关于几种基本的监督学习算法进行简单的阐述汇总,不涉及参数详细含义。
在本文代码块中,定义模型的括号内为一般需要调整的参数(给出的为原始值)。
k近邻算法(kNN)(sklearn.neighbors.KNeighborsClassifier)
KNeighborsClassifier(n_neighbors=5, weights=’uniform’, algorithm=’auto’, leaf_size=30, p=2, metric=’minkowski’, metric_params=None, n_jobs=None, **kwargs)
n_neighbo
sklearn入门-数据预处理
sklearn.preprocessing
数据填充(sklearn.preprocessing.Imputer)
收集到的数据总会遇到一些残缺值,如果不想丢弃这个样本,就只能想办法最数据进行填充了,一般的填充方法有:向上填充、向下填充、均值填充、中位数填充等等。填充数据可以使用sklearn中的类,也可以使用pandas里面的方法~
Imputer(missing_values=’NaN’, strategy=’mean’, axis=0, verbose=0, copy=True)
missing_values='NaN' 用于匹配缺失值
strategy='mean' 填充策略,[‘