妇联网应用

就在今年国庆节的时候,我对情同手足的陈爽“肺腑都无隔”地说:我终于确立鸟人生目标,就是,就是把互联网应用研究和实践。作为。偶。毕。生。滴。事。业。。。他当时就义无反顾地打击我,说我不专业,那些××互联网实验室、××互联网研究所,你以为都是干什么的。我答,当年王明比老毛专业多了,专业顶你个肺。

话虽这么说,但像老毛那样的天才有几人。就拿互联网这一行来说,有的人是光说不练,虽然写的文章头头是道,但是也没见他干过什么,例如Keso。有的人光干不说,不声不响就把一个企业做成了众矢之的,如马化腾。还有人,既会说又会干,一边做CEO一边做嘴巴明星,如马云。也难怪马云把老毛当作偶像,因为老毛也是既会说又会干的,某师范学校混出来的,不是海龟;没念过西点,专业性太差。但是靠着顽强勇敢、埋头苦干,人家硬是笨鸟先飞、事倍功半了。

其实,真正成功的原因倒不是埋头苦干,而是战略眼光。眼光太重要了。为什么在别人都做娱乐的时候,有人把电子商务作为“互联网应用”滴最大方向。打个比喻也许就明白了,当年鲁迅先生说:“外国用火药制造子弹御敌,中国却用它做爆竹敬神;外国用罗盘针航海,中国却用它看风水;外国用鸦片医病,中国却拿来当饭吃。”现在互联网是不是也这样?我喜欢扯“互联网应用”就是这个道道。如果有了互联网,就是像天涯首页推荐的那个,看看美胸大腿,掐架灌水,或者把一个鸡毛蒜皮的破事炒得让人头疼,这不是糟蹋互联网吗?

所以我越来越觉得,技术的差距还不是最让人忧虑的,关键是应用的差距。古人说:生年不满百,常怀千岁忧。百年之后,那些孙子们会不会嘲笑我们?就像我们嘲笑先人只是拿火药做烟花。

我们国家不缺少会做汉堡包的人,都做得比麦当劳的汉堡包好吃,但是没有人能发明麦当劳的运营系统,这个很遗憾。

949 comments 11月 17th, 2007

中国数据是垃圾——中国数据褒贬度计算

我说中国数据是垃圾,有什么依据呢?前面通过亲身实践虽然已经证明一二,但陈琛我这个个案尚不足以证明整个中国数据就是垃圾,所以我开始寻找新的、更科学的方法来判断它究竟是不是垃圾。目前在国外,Peter Turney在2003年提出的利用搜索引擎计算词语褒贬度的PMI 算法比较流行,而且经过测试,对于汉语词语也有着不错的计算效果。

褒贬度计算已有的研究主要集中在三个层级,即词语、句子和语篇的褒贬度。词语和句子的研究主要是为计算语篇的褒贬态度服务的。词语的褒贬度是基础,句子是褒贬度的具体阐发者,语篇则是评论者——话题——褒贬态度的综合体。例如,人们在谈论一部电影的好坏时,语篇中往往会出现不同评论者对于电影的若干方面(即子话题)的评价,如人物、剧情、画面等。因此,在篇章中,态度与评论者、话题和子话题密不可分。

拿中国数据来说,要测试关于中国数据这个话题的褒贬度,首先要获取这个话题的若干重要的子话题,然后利用计算词语褒贬度的方法,把话题和子话题分别进行褒贬度的计算,最后得到中国数据的褒贬度。

为了得到话题的子话题,我用聚类引擎来获取话题的前N 个聚类标签,把这些标签近似地看作子话题。因为互联网的数据是不断更新的,所以利用聚类引擎,就可以知道一个话题的最热门的子话题,大致地看出网络媒体对这些子话题的评价。进一步地,利用不同语种的搜索引擎和地区搜索功能,还可以观察到不同语种和不同地区对于同一个话题的褒贬态度差异。利用搜索引擎进行词语的褒贬度计算的好处是,系统可以自动地计算用户输入的任意查询串,能够较好地解决未登录词问题。

现在,我就拿Peter D. Turney的PMI算法来计算一下。PMI是Pointwise Mutual Information的缩写,意为两个词语之间的点互信息。

其中,p(word)=hits(word)/N,N 是搜索引擎索引的页面总数。P(word1 & word2)是word1 和word2 的同现概率,p(word1)和p(word2)是word1 和word2 分别出现的概率。hits(w)表示对于查询串w 搜索引擎返回的网页数,N 是搜索引擎数据库中的文档总数。对于hits(w)的零值,采取了简单的加一法。利用PMI 值可以衡量两个词语之间的相关程度。一个词语的褒贬度(SO_PMI)就定义为该词语与一组褒义词互信息之和与一组贬义词的互信息之和的差。

pword 表示褒义词集合Pwords 中的一个褒义词,nword 表示贬义词集合Nwords 中的一个贬义词。公式(3)是一个log 形式的比值。

AND 运算是普通的搜索引擎提供的布尔检索式,表示是两个查询串在单篇文档中同现。根据SO_PMI 的值就可以判定词语的褒贬度,正值为褒义,负值为贬义,绝对值是褒贬程度。

计算方法有了,下面就是获取中国数据的子话题,这个可以到现成的聚类搜索引擎去寻找。所谓聚类搜索引擎,是一种采用了聚类算法的元搜索引擎,它根据Google、Yahoo 等各大搜索引擎返回的结果进行聚类,给出与查询串最相关聚类标签,使用户可以快速了解搜索结果的整体分布情况。国外代表性的英文聚类引擎有Vivísimo www.vivisimo.com)、Carrot2(www.carrot2.org)等,中文聚类引擎则以BBMao(www.bbmao.com)为代表。聚类引擎所给出的类别标签,往往是与查询词高度相关的专名和事件、查询词的组成要素、不同义项等。

例如在聚类引擎BBMao 中查询“戴尔笔记本”,可以得到“电池”、“起火”、“报价”、“处理器”等聚类标签。查询“熊猫”时,可以得到“熊猫烧香”、“南京熊猫”、“熊猫手机”、“野生”等聚类标签。相对于领域知识本体的方法而言,使用聚类的好处有两点:
(1) 适应话题的多样性。不同的话题,其相关属性、子话题是不固定的。如,汽车产品往往是外观、马力、油耗、刹车等方面,而数码相机产品则是外观、镜头、像素、LCD 等方面,所以基于知识本体的方法需要花费较大人力来建立不同领域的知识和资源。使用聚类引擎则可以迅速得到话题的若干重要方面,或是与话题高度相关的一些方面。
(2) 适应话题的动态性。知识本体方法不易于表现话题新增要素的动态变化,同时,对新话题的分类也较为困难。如,电子产品往往会出现一些新的品牌、型号和功能,这些都需要人工地对知识本体进行修改和补充,较为繁杂。使用聚类引擎则可以及时反映互联网上有关某一话题的最受关注的方面,避免这种问题的出现。

例如在BBMao中查询“中国数据”,可以得到“数据恢复”、“主机”、“海关数据”、 “科学”、“经济”、“数据管理技术”、“统计数据”、“市场”、“数据库营销”、“报价”、“服务器”、“数据网”。

其中“海关数据”、“科学”、“经济” 、“统计数据”、“市场”这几个子话题都是与“中国数据”公司无关的,而且因为“中国数据”这个词有歧义,所以这个词本身也不能拿来进行褒贬度计算,同时必须对相关性较低的子话题进行筛选。现将直接与“中国数据”相关的子话题,用PMI算法计算出如下结果:

+数据恢复 线程数20,分值 234.239465 227.129778 165.098016 161.179023 PMI= -3.190694
+主机 线程数20,分值 234.239465 227.129778 169.073592 157.309411 PMI= 4.654494
+报价 线程数20,分值 234.239465 227.129778 165.647161 158.924947 PMI= -0.387473
+服务器 线程数20,分值 234.239465 227.129778 186.841816 180.461879 PMI= -0.729750
+数据网 线程数20,分值 234.239465 227.129778 154.737247 151.076378 PMI= -3.448818
+数据管理技术 线程数20,分值 234.239465 227.129778 150.060323 143.248434 PMI= -0.297799

为了更清楚一点,只显示最后的结果:

+数据恢复 -3.190694
+主机 4.654494
+报价 -0.387473
+服务器 -0.729750
+数据网 -3.448818
+数据管理技术 -0.297799

如果这个数据看起来还很抽象的话,对照一下脑白金就明白了:
脑白金 -0.455390
+品牌 0.039239
+收礼 1.675817
+分泌 0.839708
+白金营销 6.618273
+营销策略 6.887032
+黄金搭档 -0.371230
+白金产品 -3.499800
+白金策划 6.190640
+传播 0.575927
+改善睡眠 6.294158

连脑白金这么一个垃圾品牌都有这么多正值,而中国数据却只有一个正值,其余全是负值,就足以说明中国数据的垃圾程度了。

2567 comments 11月 15th, 2007

中国数据是垃圾!

中国数据是垃圾!

如果我连中国数据都搞不臭,我就不会再做网站了。

相关链接:

开门见山——炮轰中国数据http://blog.tianya.cn/blogger/post_show.asp?idWriter=0&Key=0&BlogID=263588&PostID=11647261

中国数据——网民心目中的“极品”http://blog.tianya.cn/blogger/post_show.asp?idWriter=0&Key=0&BlogID=263588&PostID=11695211

Add comment 11月 14th, 2007

把金乌鸦做成什么样的网站?

虽然用的是wp程序,但我并没有准备把金乌鸦做成一个私人的博客。国内外用wp程序的网站有很多,甚至直接以博客为外观的网站也有很多。每个月赢利数百万美元的TechCrunch,你可以说它是博客,但它的实力比一般网站都要大。wp已经为我们解决了网站的技术问题,接下来靠的就是创意。 (more…)

3 comments 11月 10th, 2007

粉丝时代

我经常琢磨这个事——我究竟身处于一个什么样滴时代?

如果把这个时代想象成一片汪洋大海,那么你看到的表面现象只是浮出水面的几个小岛,而水下世界的丰富多彩是水面上几个小岛根本不能比的。

如果你还仅仅把目光留在那少数的明星身上,说明你还没有真的了解自己的时代。娱乐早已经从星时代过渡到粉时代,粉丝的力量无穷大,他们可以喊出“就要你最红”就肯定能立竿见影的选出自己的偶像让其大红大紫。

同样,“就要你最臭”,马上也能让你声名扫地。现在的粉丝已经不像过去那么简单地喜欢,而是拿出最强烈的PK精神去帮助自己的偶像成功,使之成为最闪耀的明星;同时把自己的“呕像”击垮。以“金乌鸦”为例,金乌鸦奖评选的口号是:恶心Ta就留下Ta!这已经不是美国金酸梅奖那么简单,因为它评选的不是简单的哪一部电影不好,而是哪个明星最恶心!这是关系到人品问题滴!

有粉丝的地方一定会有江湖,有江湖的地方一定会有恩怨,有恩怨的地方就一定会有形形色色的戏剧性故事在上演。例如上一届金乌鸦奖在海选过程中,发生了一系列曲折滴剧情。一方面,在提名名单公布后,每个获得提名的候选人都有一批“热情的粉丝”(讨厌他们的粉丝),不断用标语、海报施加压力,强烈要求让他们心目中的“呕像”获得最后的金奖。另一方面,一些真正的粉丝则想尽办法,阻挠自己的偶像获奖。据说在决赛阶段,所有的票数都清零,之前票数遥遥领先的李宇春,因为“玉米”不愿看到她获得这个“荣誉”,纷纷开始行动,到处找关系不让网友投票。由于海选时,每个拥有天涯ID的网友可以投3男3女。“玉米”们为了不让李宇春的票数增多,就购买了500个天涯ID(刚注册的ID,必须在一个月之后才拥有发言权和投票权),投票给宋祖德和孟广美,“转嫁”危机。这下,“菊花教”(不喜欢郭敬明的网友的自称)可不干了:这样一来,宋祖德和孟广美的票数高了,郭敬明的票数就低了。为此,“菊花教”和“玉米”进行了一次“严肃”的谈判,希望“玉米”不要扰乱游戏规则。谈判的最后结果是:打成平手,因为李宇春和郭敬明均获得了金奖。

到目前为止,在四届金乌鸦评比中,郭敬明已经三次蝉联金乌鸦“恶帝”(最恶心男艺人)称号,最新“恶女”(最恶心女艺人)是李旭丹。

金乌鸦(jinwuya.com)的成立,正是顺应粉丝时代的需要,大势所趋,众望所归啊!

7 comments 11月 7th, 2007


Categories

Links

Feeds