置顶随笔

正文内容加载中...
posted @ 2011-05-02 10:13 LeftNotEasy 阅读(2815) 评论(0) 编辑

2016年8月21日

摘要: 前言 其实想写写关于开源的文章已经好久了,从在2010年开始接触Hadoop到现在已经有六个年头了,从最早的Hadoop用户和Contributor,再成为Committer,最后成为PMC (Product Management Committee,项目管理委员会) 委员,挫折、 欣喜都在交替在我阅读全文
posted @ 2016-08-21 15:01 LeftNotEasy 阅读(4268) 评论(19) 编辑

2016年8月14日

摘要: 前言: 很多年前,刚刚从大学毕业的时候,很多公司来校招。其中最烂俗的一个面试问题是:“你希望你之后三到五年的发展是什么?”。我当时的标准回答是(原话):“成为在某一方面能够独当一面的技术专家“。后来经历了几家不同的公司,换了不同的方向,才知道这个真是一个很难的问题。因为兵无常势,什么东西都是在不断的阅读全文
posted @ 2016-08-14 18:21 LeftNotEasy 阅读(9097) 评论(30) 编辑

2016年7月5日

摘要: 前言: 好吧我承认已经有四年多没有更新博客了。。。。 在这四年中发生了很多事情,换了工作,换了工作的方向。在工作的第一年的时候接触机器学习,从那之后的一年非常狂热的学习机器学习的相关技术,也写了一些自己的理解和感悟。今天大概看了一下这个博客的总体阅读人数已经有70多万了,印象中之前还只有十多二十万。阅读全文
posted @ 2016-07-05 07:50 LeftNotEasy 阅读(4708) 评论(12) 编辑

2012年2月18日

摘要: 前言: 有一段时间没有写博客了(发现这是我博客最常见的开头,不过这次间隔真的好长),前段时间事情比较多,所以耽搁得也很多。 现在准备计划写一个新的专题,叫做《hadoop杂记》,里面的文章有深有浅,文章不是按入门-中级-高级的顺序组织的,如果想看看从入门到深入的书,比较推荐《the definitive guide of hadoop》。 今天主要想写写关于map-reduce v2(或者叫map-reduce next generation,或者叫YARN)与之前的map-reduce有什么不同。最近在学习Yarn的过程中,也参考了很多人的博客,里面的介绍都各有所长。不过一个很重要的问...阅读全文
posted @ 2012-02-18 23:05 LeftNotEasy 阅读(23633) 评论(5) 编辑

2011年8月27日

摘要: 今天听同事分享了一篇很有意思的讲座,叫做"Why Map-Reduce Is Not The Solution To Your Big-Data Problem"(为什么Map-Reduce不是你的“大数据”问题的解决方案)。同事很牛,也分享了很多非常有价值的观点,不过他预言Map-Reduce将会在5年之内消失(而且还呼吁有做存储方面的牛人来预言一下,Hdfs将在5年之内消失),这个话题如果成立的话,让我这个目前在Hadoop工程师,感到无比的压力。这里不为了争个你死我活,只是谈谈自己的一些想法。另外由于这位同事的分享是内部进行的,这里就不透露分享中具体的内容了,只谈谈自己的观点。阅读全文
posted @ 2011-08-27 10:53 LeftNotEasy 阅读(24850) 评论(17) 编辑

2011年5月29日

摘要: 项目首页: http://code.google.com/p/python-data-mining-platform/ (可能需翻墙) 目前比如tutorial, install, release等内容,已经更新到项目首页的wiki中 项目介绍: 这是一个能够根据源数据(比如说用csv格式表示的矩阵,或者中文文档)使用多种多样的算法去得到结果的一个平台。 算法能够通过xml配置文件去一个一个的运行,比如在开始的时候,我们可以先运行一下主成分分析算法去做特种选择,然后我们再运行随机森林算法来做分类。 目前算法主要是针对那些单机能够完成的任务,该架构良好的扩展性能够让你在很短的时间内完成自己想要的阅读全文
posted @ 2011-05-29 20:24 LeftNotEasy 阅读(7734) 评论(12) 编辑

2011年5月15日

摘要: 目前算法主要是针对那些单机能够完成的任务,该架构良好的扩展性能够让你在很短的时间内完成自己想要的算法,并且用于工程之中(相信我,肯定比Weka更快更好)。该项目的另一个特色是能够很好的支持中文文本的分类、聚类等操作。 *当前版新增 加入了K-Means算法,能够对文本进行聚类 加入了基于补集的朴素贝叶斯算法,大大提升了分类的准确率,目前该算法在搜狗实验室文本分类数据中,对20000篇、8分类左右的数据的预测准确率在90%左右阅读全文
posted @ 2011-05-15 22:21 LeftNotEasy 阅读(11116) 评论(5) 编辑

2011年5月2日

摘要: 版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com。也可以加我的微博: @leftnoteasy 前言: 又有很长的一段时间没有更新博客阅读全文
posted @ 2011-05-02 20:56 LeftNotEasy 阅读(108777) 评论(37) 编辑

2011年3月7日

摘要: 在最近几年的paper上,如iccv这种重量级的会议,iccv 09年的里面有不少的文章都是与Boosting与随机森林相关的。模型组合+决策树相关的算法有两种比较基本的形式 - 随机森林与GBDT((Gradient Boost Decision Tree),其他的比较新的模型组合+决策树的算法都是来自这两种算法的延伸。本文主要侧重于GBDT,对于随机森林只是大概提提,因为它相对比较简单。 在看本文之前,建议先看看机器学习与数学(3)与其中引用的论文,本文中的GBDT主要基于此,而随机森林相对比较独立。阅读全文
posted @ 2011-03-07 23:53 LeftNotEasy 阅读(96074) 评论(19) 编辑

2011年2月27日

摘要: 项目目前主要关注中文文本的数据挖掘算法。由于每种数据挖掘算法的局限性都很大,就拿分类算法一样,决策树、朴素贝叶斯这两种算法都有着自己的特性,只能在某一种类型的类型的数据上应用比较良好,比如朴素贝叶斯,就对于那些短文本的分类比较适合,而决策树对于短文本、稀疏情况下就效果欠佳了,特别是在数据比较稀疏的情况。在这种情况下,当有一个数据挖掘任务的时候,怎样去找到一个合适的算法就非常重要了。如果从头开发算法,是一个成本很高的事情,特别是对文本来说就更麻烦,需要在前面做一些如分词、去停用词等等操作。如果有一个平台,可以支持快速的开发,让用户能够快速的看到,针对自己的数据,什么样的算法比较合适,就是本项目的一个初衷。阅读全文
posted @ 2011-02-27 14:33 LeftNotEasy 阅读(15167) 评论(5) 编辑

2011年1月19日

摘要: 版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com。也可以加我的微博: @leftnoteasy 前言: 上一次写了关于PCA与LDA的阅读全文
posted @ 2011-01-19 22:27 LeftNotEasy 阅读(149959) 评论(61) 编辑

2011年1月8日

摘要: 版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com 前言: 第二篇的文章中谈到,和部门老大一宁出去outing的时候,他给了我相当多的机器学习的建议,里面涉及到很多的算法的意义、学习方法等等。一宁上次给我提到,如果学习分类算法,最好从线性的入手,线性分类器最简单的就是LDA,它可以看做是简化版的SVM,如果想理解SVM这种分类器,那理解LDA就是很有必要的了。 谈到LDA,就不得不谈谈PCA,PCA是一个和LDA非常相关的算法,从阅读全文
posted @ 2011-01-08 14:56 LeftNotEasy 阅读(92315) 评论(30) 编辑

2011年1月2日

摘要: 版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com 前言: 本来上一章的结尾提到,准备写写线性分类的问题,文章都已经写得差不多了,但是突然听说最近Team准备做一套分布式的分类器,可能会使用Random Forest来做,下了几篇论文看了看,简单的random forest还比较容易弄懂,复杂一点的还会与boosting等算法结合(参见iccv09),对于boosting也不甚了解,所以临时抱佛脚的看了看。说起boosting,强哥阅读全文
posted @ 2011-01-02 21:48 LeftNotEasy 阅读(61866) 评论(13) 编辑

2010年12月19日

摘要: 版权声明: 本文由LeftNotEasy所有,发布于http://leftnoteasy.cnblogs.com。如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任。如果有问题,请联系作者 wheeleast@gmail.com 前言: 距离上次发文章,也快有半个月的时间了,这半个月的时间里又在学习机器学习的道路上摸索着前进,积累了一点心得,以后会慢慢的写写这些心得。写文章是促进自己对知识认识的一个好方法,看书的时候往往不是非常细,所以有些公式、知识点什么的就一带而过,里面的一些具体意义就不容易理解了。而写文章,特别是写科普性的文章,需要对里面的具体意义弄明白,甚至还阅读全文
posted @ 2010-12-19 11:18 LeftNotEasy 阅读(42500) 评论(23) 编辑

2010年12月5日

摘要: 版权声明: 本文由LeftNotEasy所有,发布于http://leftnoteasy.cnblogs.com。如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任。 前言: 上次写过一篇关于贝叶斯概率论的数学,最近时间比较紧,coding的任务比较重,不过还是抽空看了一些机器学习的书和视频,其中很推荐两个:一个是stanford的machine learning公开课,在verycd可下载,可惜没有翻译。不过还是可以看。另外一个是prml-pattern recognition and machine learning, Bishop的一部反响不错的书,而且是200阅读全文
posted @ 2010-12-05 23:51 LeftNotEasy 阅读(84141) 评论(34) 编辑

2010年11月27日

摘要: 版权说明:       本文由 LeftNotEasy 原创,联系方式wheeleast@gmail.com       本文可以被任意的转载,请保留完整的文章(含版权说明)。如果商用,请联系原作者。       发布于http://leftno...阅读全文
posted @ 2010-11-27 13:19 LeftNotEasy 阅读(8468) 评论(2) 编辑

2010年10月30日

摘要: 我们的异常处理类的features如何写一个异常处理类是一个不太容易的事情,最近刚好接触了一些不错的代码,看到了一些技巧,这里和大家分享一下。一个相对完善的异常处理类(以及附加的一些东西)应该能够处理下面的一些功能:1) 能够方便的定义异常类的继承树2) 能够方便的throw、catch,也就是在代码中捕获、处理代码的部分应该更短3) 能够获取异常出现的源文件的名字、方法的名字、行号4) 能够获取...阅读全文
posted @ 2010-10-30 23:45 LeftNotEasy 阅读(9629) 评论(3) 编辑

2010年9月27日

摘要: 本文由LeftNotEasy原创,可以转载,但请保留出处和此行,如果有商业用途,请联系作者 wheeleast@gmail.com 一. 简单的说贝叶斯定理: 贝叶斯定理用数学的方法来解释生活中大家都知道的常识 形式最简单的定理往往是最好的定理,比如说中心极限定理,这样的定理往往会成为某一个领域的理论基础。机器学习的各种算法中使用的方法,最常见的就是贝叶斯定理。 贝叶斯定理的发现过程我没有找...阅读全文
posted @ 2010-09-27 22:48 LeftNotEasy 阅读(36773) 评论(23) 编辑

2010年9月12日

摘要: 关于程序设计,掐指算来也写了快有十年的程序了,之前很长的一段时间都是以算法类的竞赛为主,对于程序结构的设计,总是胡乱写写,能跑通就算ok了。来公司后, 接触了一些大一点的项目的设计,设计的重要性就凸现出来了。 为了更好的设计(不能说到完美,但是至少不要把自己和用户弄晕),我写点自己的一些感悟(有自己思考的,也有和公司的前辈讨论得到的),不能说本系列是一篇指导性的文章,权当是抛砖引玉,希望能够大家不...阅读全文
posted @ 2010-09-12 22:24 LeftNotEasy 阅读(3328) 评论(4) 编辑

2010年8月29日

摘要: 数学之美番外篇:平凡而又神奇的贝叶斯方法 Tags: 数学, 机器学习与人工智能, 计算机科学 save it69 savedtags: 贝叶斯mathbayesianalgorithm数学science教程bayesprogramming刘未鹏 概率论只不过是把常识用数学公式表达了出来。 ——拉普拉斯 记得读本科的时候,最喜欢到城里的计算机书店...阅读全文
posted @ 2010-08-29 22:21 LeftNotEasy 阅读(3735) 评论(7) 编辑

导航