代码人生的小狗窝

一行行枯燥的代码,却描绘出人生的点点滴滴

推荐文章

数据挖掘(2)——Knn算法的java实现

    数据挖掘(二)——Knn算法的java实现1、K-近邻算法(Knn) 其原理为在一个样本空间中,有一些已知分类的样本,当出现一个未知分类的样本,则根据距离这个未知样本最近的k个样本来决定。 举例:爱情电影和动作电影,它们中都存在吻戏和动作,出现一个未知分类的电影,将根据以吻戏数量和动作数量建立的坐标系中距离未知分类所在点的最近的k个点来决定。 2、算法实现步骤 (1)计算所有点距离未知点的欧式距离 (2)对所有点进行排序 (3)找到距离未知点最近的k个点 (4)计算这k个点所在分类出现的频率 (5)选择频率最大的分类即为未知点的分类 3、java实现 Point类 public class Point { private long id; private double x; private double y; private String type;

    阅读全文>>

作者:coody分类:【_数据仓库浏览(1467

2018-10-15

数据挖掘稿件翻译-Mining Emerging Patterns by Streaming Feature Selection

    数据挖掘文章翻译--Mining Emerging Patterns by Streaming Feature Selection学习数据挖掘,可以用到的工具-机器学习,SPSS(IBM),MATLAB,HADOOP,建议业余时间都看文章,扩充视野,下面是本人翻译的一篇文章,供大家学习。另外,本人感兴趣的领域是机器学习,大数据,目标跟踪方面,有兴趣的可以互相学习一下,本人Q Q邮箱 657831414.,word格式翻译和理解可以发邮件 “ 原文题目是Mining Emerging Patterns by Streaming Feature Selection 通过流特征的选择挖掘显露模式 俞奎,丁薇,Dan A. Simovici,吴信东 俞奎,吴信东,合肥工业大学计算机系 丁薇,美国麻省大学波士顿校区计算机系 Dan A. Simovici,美国佛蒙特大学(伯灵顿) 摘

    阅读全文>>

作者:coody分类:【_数据仓库浏览(698

2018-10-15

数据仓库建设-数据仓库设计与使用

    数据仓库建设--数据仓库设计与使用 一、数据仓库设计的商务分析框架     “拥有数据仓库,商务分析者能够得到什么?”首先,拥有数据仓库可以通过提供相关信息,据此估计性能并作出重要调整,以帮助战胜其他竞争对手,可以提供竞争优势。第二,数据仓库可以提高企业生产力,因为它能够快速、有效的搜集准确描述组织机构的信息。第三,数据仓库有利于客户联系管理,因为它跨越所有商务、所有部门和所有市场,提供了顾客和商品的一致视图。最后,通过一致和可靠的方式长期跟踪趋势、模式和异常,数据仓库可以降低成本。     为设计有效的数据仓库,需要理解和分析商务需求,并构造一个商务分析框架。构建一个大型复杂的信息系统就像构造一个大型复杂的建筑,业主、设计师和建筑商都有不同的视图。这些视图结合在一起,形成一个复杂的框架,代表自顶向下、商务驱动的或业主的视图,也代表自底向上、建筑商驱动的或信息系统实现者的视图。

    阅读全文>>

作者:coody分类:【_数据仓库浏览(1183

2018-10-15

大数据/数据挖掘/推荐系统/机器学习有关资源

    大数据/数据挖掘/推荐系统/机器学习相关资源 书籍 各种书~各种ppt~更新中~ http://pan.baidu.com/s/1EaLnZ 机器学习经典书籍小结 http://www.cnblogs.com/snake-hand/archive/2013/06/10/3131145.html 机器学习&深度学习经典资料汇总 http://www.thebigdata.cn/JiShuBoKe/13299.html 视频 浙大数据挖掘系列 http://v.youku.com/v_show/id_XNTgzNDYzMjg=.html?f=2740765 用Python做科学计算 http://www.tudou.com/listplay/fLDkg5e1pYM.html R语言视频 http://pan.baidu.com/s/1koSpZ Hadoo

    阅读全文>>

作者:coody分类:【_数据仓库浏览(2010

2018-10-17

数据仓库建设碎想

    数据仓库建设碎念 数据仓库要解决的关键问题是:如何将客观世界的复杂业务逻辑用一张张表组织起来,而这种组织方式能更加高效地应对业务变更以及更加灵活、稳定的支撑业务需求。 关于数据开发   数据仓库严格来说是一种体系结构,在工作过程中,有的同学认为数据开发相对系统开发技术含量低,个人认为造成这种想法的主要原因是:只单纯的通过ETL方式解决单个的需求,没有站在一个全局的角度来解决问题,建设数据。   我们在处理需求过程中,要加深业务理解,不能停留在处理单个需求层面上,注重总结积累,进行指标体系建设等。   系统开发和仓库建设的目的都是为了解决问题,本质上是一样的,两者都面临着各种各样难以解决的问题,能建设好数据仓库是相当不容易的,建设数据仓库过程中也是非常需要采用工程方法来提升效率的,所以仓库建设和系统开发并不矛盾,我们应该积极寻找结合点,而不能陷入疲于应付需求的泥潭。   仓库

    阅读全文>>

作者:coody分类:【_数据仓库浏览(839

2018-10-16

机器学习与数据挖掘网上资源收罗——良心推荐

    机器学习与数据挖掘网上资源搜罗——良心推荐前面我曾经发帖推荐过网上的一些做“图像处理和计算机视觉的”有料博客资源,原帖地址图像处理与机器视觉网络资源收罗——倾心大放送 http://blog.csdn.net/baimafujinji/article/details/32332079做机器学习和数据挖掘方面的研究和开发,常会在线搜索一些资源,日积月累便挖出了一堆比较牛的博主,特别说明:做这个方向的人很多,牛人也很多,但是这些资源大部分主要突出实用主义,相关博主也并不一定是这个领域中的泰山北斗(至少大部分都不是学校里的教授),但是他们的空间里真的有料,可以学到很多。不断更新中,但大浪淘沙,我只保留最值得推荐的。1、首先,是豆瓣上的数据铺子主页http://site.douban.com/182577/因为我个人多是用R来做数据挖掘和分析,所以主页菌的内容

    阅读全文>>

作者:coody分类:【_数据仓库浏览(1249

2018-10-16

原创:数据仓库建设3-数仓设计方法

    原创:数据仓库建设三--数仓设计方法 2.数据仓库架构 2.1.数据设计方法     数据仓库建立之前,就必须考虑其实现方法,通常有自顶向下、自底向上和两者结合进行的这样三种实现方案。 2.1.1.自顶向下实现     自顶向下的实现需要在项目开始时完成更多计划和设计工作,这就需要涉及参与数据仓库实现的每个工作组、部门或业务线中的人员。要使用的数据源、安全性、数据结构、数据质量、数据标准和整个数据模型的有关决策一般需要在真正的实现开始之前就完成。 2.1.2.自底向上实现     自底向上的实现包含数据仓库的规划和设计,无需等待安置好更大业务范围的数据仓库设计。这并不意味着不会开发更大业务范围的数据仓库设计;随着初始数据仓库实现的扩展,将逐渐增加对它的构建。现在,该方法得到了比自顶向下方法更广泛的接受,因为数据仓库的直接结果可以实现,并可以用作扩展更大业务范围实现的证明。 2.1

    阅读全文>>

作者:coody分类:【_数据仓库浏览(1163

2018-10-16

原创:数据仓库建设5-维度建模

    原创:数据仓库建设五--维度建模 4.维度建模 4.1.维度建模技术       维度建模是DW/BI系统的核心,他是ETL系统的目标、数据库的结构、支持用户查询和制作报表的模型。建模要实现3个主要设计目标,分别是:能尽可能简洁的向用户展示需要的信息;能尽快返回查询结果给用户;能提供相关信息,以便精确的跟踪潜在的业务过程。       维度建模能使任何事情尽可能简单,但绝不是简化。在数据仓库和商业智能中,维度模型是给用户显示信息的首选结构,其比典型的原系统规范化模型更便于用户理解。维度建模中表更少,信息分组为对用户有意义的、一致的业务类别。这些类别称为维度,有助于用户浏览模型,因为可以忽略与特定分析无关的全部类别。但是尽可能简洁并不意味着模型一定简单。模型必须反映业务,而业务通常都比较复杂,如果简化的过多,一般来说只表示了聚合数据,模型就会丢失对理解业务非常重要的信息。无论如何进

    阅读全文>>

作者:coody分类:【_数据仓库浏览(2260

2018-10-16

数据仓库建模与ETL的实践技艺

    数据仓库建模与ETL的实践技巧 一、数据仓库的架构   数据仓库(Data Warehouse DW)是为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的关系型DataBase,它的数据基于OLTP源系统。数据仓库中的数据是细节的、集成的、面向主题的,以OLAP 系统的分析需求为目的。   数据仓库的架构模型包括了星型架构与雪花型架构两种模式。星型架构的中间为事实表,四周为维度表,类似星星;而相比较而言,雪花型架构的中间为事实表,两边的维度表可以再有其关联子表,从而表达了清晰的维度层次关系。   从OLAP 系统的分析需求和ETL的处理效率两方面来考虑:星型结构聚合快,分析效率高;而雪花型结构明确,便于与OLTP 系统交互。因此,在实际项目中,将综合运用星型架构与雪花型架构来设计数据仓库。   那么,下面就来看一看,构建企业级数据仓库的流程。 二、构建企业级数据

    阅读全文>>

作者:coody分类:【_数据仓库浏览(1504

2018-10-14

数据仓库建设6-维度处理

    数据仓库建设六--维度处理 1.代理关键字 代理关键字一般是指维度表中使用顺序(序列)分配的整数值作为主键,也称为“代理建” 代理关键字用于维度表和事实表的连接。在kimball的维度建模领域里,强烈推荐使用代理关键字的。在维度表和事实表的每一个连接中都应该使用代理关键字,而不应该使用自然关键字或者智能关键字(Smart Keys)    备注:数据仓库中的主键不应该是智能的,也就是说要避免通过主键的值就可以了解一些业务信息。当然,退化维作为事实表的符合主键之一时例外。     使用代理关键字的有点: 能够使数据仓库环境对操作型环境的变化进行缓冲。也就是说,当数据仓库需要对来自多个操作型系统的数据进行整合时,这些系统中的数据有可能缺乏一致的关键字编码,即有可能出现重复,这时代理关键字可以解决这个问题。 可以带来性能上的优势。和自然关键字相比,代理关键字很小,是整形的,可以减

    阅读全文>>

作者:coody分类:【_数据仓库浏览(1734

2018-10-14

速度保藏 | 100+篇大数据、数据分析、数据挖掘电子书免费下载

    速度收藏 | 100+篇大数据、数据分析、数据挖掘电子书免费下载! 全部都是电子书,根据书名点击进去即可进入下载页面,不用谢我,请叫我“雷锋” SQL电子书 SQL必知必会  R语言电子书 《R语言实战》《R语言与统计建模》《统计学与R读书笔记》《R实践运用》《R导论》中文版《R语言与统计分析》《R语言经典入门》《R语言 ggplot2:数据分析与图形艺术》《Learning R》复杂数据统计方法_基于R的应用》《R语言编程艺术》《时间序列分析及应用:R语言》《R语言初学者指南》R软件数据分析(初级部分)(高级部分)《R语言数据操作》《数据挖掘与R语言》《统计建模与R软件》《R语言与网站分析》《R in Acation》《R Graph Cookbook》《A Beginner‘s Guide to R》《Data Analysis and Graphics Using R》《

    阅读全文>>

作者:coody分类:【_数据仓库浏览(1970

2018-10-15

数据仓库跟数据集市简介

    数据仓库和数据集市简介 全文连接http://click.aliyun.com/m/22751/初次接触数据仓库的朋友,肯定也听过另一个类似的概念:数据集市。很多朋友都心有疑惑,到底这两个有什么关系呢,今天这篇文章来谈一谈。首先来看一张网上的数据仓库架构图,这是一个从属型数据集市,位于数据仓库的上层。e901353f0ebb80066e2e17f1b15243432e6a0d1b一、数据仓库和数据集市的概念数据仓库(Data Warehouse) 是一个面向主题的(Subject Oriented) 、集成的( Integrate ) 、相对稳定的(Non -Volatile ) 、反映历史变化( TimeVariant) 的数据集合用于支持管理决策。       首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企

    阅读全文>>

作者:coody分类:【_数据仓库浏览(1732

2018-10-16

superset-数据挖掘显现平台

    superset-数据挖掘展现平台 Superset是Airbnb开源的数据挖掘平台   Github地址:https://github.com/airbnb/superset 官网地址:http://airbnb.io/projects/superset/ Superset之前叫做Caravel,还叫做过Panaramix。到今天为止,Superset在Github上已经有8200多个星了。   以下内容翻译了Github上Superset简介的主要功能:     快速创建可交互的、直观形象的数据集合 有丰富的可视化方法来分析数据,且具有灵活的扩展能力 具有可扩展的、高粒度的安全模型,可以用复杂规则来控制访问权限。目前支持主要的认证提供商:DB、OpenID、LDAP、OAuth、和Flask AppBuiler的REMOTE_USER 使用简单的语法,就可以控制数据在U

    阅读全文>>

作者:coody分类:【_数据仓库浏览(1012

2018-10-16
上一页 1/20页 下一页