按时间归档:2017年03月
-
使用sklearn做特征工程
目录 1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二…
-
Pandas速查卡-Python数据科学
Josh Devlin 2017年2月21日 Pandas可以说是数据科学最重要的Python包。 它不仅提供了很多方法和函数,使得处理数据更容易;而且它已经优化了运行…
-
【招聘直通车】广州:数据分析师 10-20万/年
广州:数据分析师 10-20万/年 广州启尔智信息科技有限公司招聘人数:1人(10-20万/年) 岗位职责:1、从用户构成、转化率、客单价、复购率、回购周期等数据,对用户进行多维度…
-
写给大家看的机器学习书(第一篇)
作者:徐晗曦 来源:https://zhuanlan.zhihu.com/p/25328686 1. 前言 这个世界不缺少专家,我只是期待他们中有一位能把事情说清楚。 机器学习很火…
-
一图看懂AI阵营:学习AI 站错队可导致自取灭亡
AI的方法有许多,除了我们较为熟悉的“五大流派”,本文作者对AI的各流派进行细分,梳理了起码17种方法,并用一张图直观地展现。作者说,各种AI方法并不平等,站错队可能导致自取灭亡。…
-
【重磅】33款可用来抓数据的开源爬虫软件工具
要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫…
-
针对用户活跃度分析中如何应用回归方法?
回归分析是研究一个变量(因变量)和另一个变量(自变量)关系的统计方法,用最小二乘方法拟合因变量和自变量的回归模型,把一种不确定的关系的若干变量转化为有确定关系的方程模型近似分析,并…
-
哪些机器学习算法在小数据集下也表现极佳?
作者:Xavier Amatriain ,前ML研究员,目前在Quora负责工程技术 为了理解这个问题的答案你需要知道两个基本常识: 1)从贝叶斯的角度…
-
数据仓库Hive 基础知识(Hadoop)
Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现…
-
HBase在阿里的应用实践
作者:天梧,阿里巴巴中间件技术部高级技术专家。 本文转载自:https://yq.aliyun.com/articles/70467 前言 时间回到2011年,Hadoop作为新生…