最近准备把统计学从头到尾学一遍。囧rz……….
书接上一回,t检验要求样本满足正态分布。这是它应用上的一个限制,并不是所有数据都是正态分布的。wilcox检验的好处在于它是distribution-free的,完全不需要管数据的分布情况。
单样本的wilcoxon检验,就是把样本的值减去理论均值
,对于差值,不管正负,进行排序打分(rank)。然后计算差值是正的或者负的那一部分rank的和。相当于说,假设数据的分布是围绕
对称的,从1到n(差值的rank)里挑一半的数(差值是正的或负的那一半)出来,每一个数选中的概率是1/2(数据对称分布的话)。
通常取正的那一半差值的rank之和,作为统计量,这个统计量是符合正态分布的。
> sample.data <- c(rnorm(20, mean=5), c(1:10))
> wilcox.test(sample.data, mu=5)
Wilcoxon signed rank test with continuity correction
data: sample.data
V = 265, p-value = 0.3094
alternative hypothesis: true location is not equal to 5
输出里面的V就是统计量(正的那一半差值的rank之和),是否reject H0看相应的p-value。
两样本的wilcoxon检验同样基于把数据用rank替换(不区分样本),然后计算其中一个样本的秩和,这样子就把问题简化成从1到n1+n2中无放回取出n1个值的样本

统计量W是第一个样本的秩和。接近于正态分布,基于此计算相应的p值。
————
成对的wilcoxon检验,对差值进行rank,然后和单样本wilcoxon检验是一样的。
> attach(intake)
> intake
pre post
1 5260 3910
2 5470 4220
3 5640 3885
4 6180 5160
5 6390 5645
6 6515 4680
7 6805 5265
8 7515 5975
9 7515 6790
10 8230 6900
11 8770 7335
> wilcox.test(pre,post, paired=T)
Wilcoxon signed rank test with continuity correction
data: pre and post
V = 66, p-value = 0.00384
alternative hypothesis: true location shift is not equal to 0
Warning message:
In wilcox.test.default(pre, post, paired = T) :
cannot compute exact p-value with ties
November 5th, 2009 in
Mathematics | tags:
statistics |
587 views |
No Comments
想加入ResearchBlogging中文频道,结果说我的blog不符合规格,我只能泡制一篇,看看行不行。结果真的行。
《孟子·公孙丑》有云:”五百年必有王者兴,其间必有名世者”,中国历史如此,科研史其实也如此,阶段性地打上了王者和名世者的烙印。近半个世纪以来,基本上是分子生物学的天下,Watson和Crick的DNA双螺旋结构是一个里程碑,围绕着Crick所提出的central dogma,占据着半个世纪的生物学研究主流。有好有坏吧,我们看到了分子生物学快速发展的同时,其它的生物学分支却发展缓慢,甚至停滞不前。生物学上著名的代谢通路,比如最有名的糖酵解,都是半个世纪以前的发现,而现在技术进步了,反而难以再见到如此完整的东西。
分子生物学把phenotype归因于genotype,并努力去找寻这些决定表型的基因的分子机制。事实上很难work out,大家都明白了这一点,用这样的分子手段无法描绘出一个复杂的整体1。事实上,这样的研究思路,还会长期存在,并且依然占据着主流。虽然大家都知道这不是以后的发展趋势,但是突破很困难,生命是复杂系统。相对比而言,那些复杂的物理系统,都称不上是complex,只能是complicated而已。我一直觉得Watson和Crick最多是生物界里的Newton,生物界需要一个Albert Einstein。五百年必有王者兴。
从人类基因组开始后,各种组学兴起,生物学里新的术语层出不穷,不过有影响的,也没几个,一个新的术语总是能给人带来新的希望和刺激。当然事实上有可能是don’t cry for me argentina里所唱的:
They are illusions
They are not the solutions they promised to be
当年的生物信息学,对生物学的冲击还是蛮大的,事实是生物信息学拯救了人类基因组计划,很多做实验的,可能会觉得贡献是在数据的存储和检索上,这一方面确实促进了细胞生物学和分子生物学的发展。实际上,生物信息学对基因组的最大贡献是拼接和注释,没有这两者的话,测序数据就是crap。

这张图2虽然有bias,但还是能看出一些趋势的。学科在发展,这些术语的概念也会有一些变动。
系统生物学,从01年正式提出来后,发展趋势很快,大家都知道还原论不行,解决不了很多问题,基因和表型并不能很好的对应起来,基因要发挥作用,是有上下文的,这个上下文包括进化,发挥什么样的作用有一个where and when的问题,每个人的免疫系统都是不一样的,而这很大程度上是取决于小时候处于什么样的环境,接触了些什么样的东西,我就没见过海边长大的人吃海鲜会过敏的-,-
系统生物学看上去比较promise,大家也寄予了很大的期待,毕竟高能量的实验手段多了,数据是纷至沓来,希望能够有些突破,现在有足够的data,足够的knowledge,那么是时候研究整体的特性,甚至于建模,不过我觉得精确建模是不可能的,生物系统比物理系统复杂,应该有不一样的哲学基础,不一样的视角来看待问题。系统生物学的发展,必然会对生物学的研究带来冲击,我对这点深信不疑。基因型如何产生表型?进化如何塑造表型?至少系统生物学提供了研究的可能性。

Lazebnik, Y. (2002). Can a biologist fix a radio?—Or, what I learned while studying apoptosis Cancer Cell, 2 (3), 179-182 DOI: 10.1016/S1535-6108(02)00133-2
Bork, P. (2005). Is there biological research beyond Systems Biology? A comparative analysis of terms Molecular Systems Biology, 1 (1) DOI: 10.1038/msb4100016
KIRSCHNER, M. (2005). The Meaning of Systems Biology Cell, 121 (4), 503-504 DOI: 10.1016/j.cell.2005.05.005
November 4th, 2009 in
Biology | tags:
sysbio |
393 views |
3 Comments
It is most commonly applied when the test statistic would follow a normal distribution if the value of a scaling term in the test statistic were known. When the scaling term is unknown and is replaced by an estimate based on the data, the test statistic (under certain conditions) follows a Student’s t distribution.
—Wikipedia
t检验的基本假设是数据来自于正态分布,一个最基本的应用就是估计正体的均值
和标准差
,分别用样本的均值
和标准误s来估计。这里一个最关键的概念就是样本之间的标准误,以估计均值为例,均值标准误(standard error of the mean, SEM)定义为
通常
是未知的,用样本的标准误s代替。
这个公式的含义就是,重复进行抽样,每次抽样计算一个均值,那么均值符合正态分布,其标准误是SEM,数据的分布较为狭窄(SEM <
),样本量越大,SEM的值会越小,对于整体均值
的估计会更好。
做一下试验,从
=0,
=1的正态分布里,反复抽样1000次,样本大小为100,样本均值之间的标准误是0.1007293,而SEM的值是0.1,如果未知
的话,用样本(这里用了第一个样本)的标准误代替估算出来的SEM,数值上也是很符合的。
> a= lapply(rep(100,1000), rnorm)
> a.mean=unlist(lapply(a, mean))
> sd(a.mean)
[1] 0.1007293
> 1/sqrt(100)
[1] 0.1
> sd(a[[1]])/sqrt(100)
[1] 0.1040281
单样本t检验的公式是:
,分母就是SEM,对样本均值间的标准差的估计。记得以前上课的时候,老师就没讲这个,一直不明白
是什么意思。
这个公式很好理解,就是
和标准误差SEM的比值,比如经常讲95%的数据落在
之间,那么如果
是总体均值的一个准确估计(在某种置信区间里),那么
,就有95%的可能性会落在
之间,比值算出来落在[-2,2]之间。如果比值在这个区间之外,那么在t分布上相应的p值会小于0.05,H0会被reject,
不是总体均值的合理估计。
计算样本的均值与总体均值估计值的差值,再看这个差值落在多少个标准差里面,这就是单样本的t检验。所计算的t值,满足t分布,由此给出相应的p值。
> t.test(a[[1]], mu=1)
One Sample t-test
data: a[[1]]
t = -9.8629, df = 99, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 1
95 percent confidence interval:
-0.2324358 0.1803928
sample estimates:
mean of x
-0.02602150
以第一个样本为例,检验均值是否为1,给出来的p-value < 2.2e-16,远小于0.5,拒绝H0。
> t.test(a[[1]], mu=0)
One Sample t-test
data: a[[1]]
t = -0.2501, df = 99, p-value = 0.803
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
-0.2324358 0.1803928
sample estimates:
mean of x
-0.02602150
检验均值是否为0,给出来的p-value = 0.803,大于0.5,不拒绝H0
单样本t.test有三个参数:
alternative: a character string specifying the alternative hypothesis,
must be one of '"two.sided"' (default), '"greater"' or
'"less"'. You can specify just the initial letter.
mu: a number indicating the true value of the mean (or difference
in means if you are performing a two sample test).
conf.level: confidence level of the interval.
November 1st, 2009 in
Mathematics | tags:
statistics |
562 views |
1 Comment
这次装funtoo,没有拷微软的字体,全是安装开源的文泉驿字体,用了几天,觉得文泉驿正黑看着实在是爽。
好多linux的distribution都是用文泉驿字體,具体可以参考官方站点: http://wenq.org/ 文泉驿——开彼源兮,斯流永继
screenshot一下。

October 28th, 2009 in
Computer Science | tags:
linux |
419 views |
No Comments
用pidgin挂QQ,今天早上一过来,提示:
您的号码可能存在异常情况,已受到限制登录保护,需激活后才能正常登录。激活网址:http://jihuo.qq.com
烦人,于是决定装个eva。
eva在gentoo-china里有ebuild,还是用portage来安装比较好,便于管理,于是先装这个overlay,可参照官方文档:http://www.gentoo.org/proj/en/overlays/userguide.xml
gentoo-china-overlay目前已经被layman收录
1
2
3
4
5
6
7
| emerge layman-1.2.3 #安装layman
echo "source /usr/local/portage/layman/make.conf" >> /etc/make.conf ##让Portage找到overlay dir
layman -L ##列出所有layman管理的overlay , layman -S 会更新所有已安装的overlay
layman -f -a gentoo-china ##安装gentoo-china-overlay |
gentoo-china有一些国内本土化的软件,比如有好多stardict的词典,我看了一眼,都是金山词霸的-,- , QQ自然是少不了的,疼讯官方的版本也有,不过好像还不如eva。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
| localhost ~ # emerge -pv net-im/linuxqq
These are the packages that would be merged, in order:
Calculating dependencies ... done!
[ebuild N ] net-im/linuxqq-1.0.2_beta1-r1 4,912 kB [1]
Total: 1 package (1 new), Size of downloads: 4,912 kB
Portage tree and overlays:
[0] /usr/portage
[1] /usr/local/portage/layman/gentoo-china
* IMPORTANT: 1 news items need reading for repository 'funtoo'.
* Use eselect news to read news items.
ygc@localhost ~ $ emerge -pv net-im/eva
These are the packages that would be merged, in order:
Calculating dependencies ... done!
[ebuild N ] net-misc/mDNSResponder-107.6-r5 USE="-debug -doc -java" 1,408 kB [0]
[ebuild N ] media-libs/libmng-1.0.10 USE="-lcms" 1,068 kB [0]
[ebuild N ] x11-libs/qt-3.3.8b-r2 USE="cups -debug -doc -examples (-firebird) -immqt -immqt-bc -ipv6 -mysql -nas -nis -odbc -opengl -postgres -sqlite -xinerama" 16,909 kB [0]
[ebuild N ] net-dns/libidn-1.15 USE="emacs nls -doc -java -mono" 2,574 kB [0]
[ebuild N ] kde-base/kdelibs-3.5.10-r6 USE="acl alsa branding cups tiff -arts -avahi -bindist -debug -doc -fam -jpeg2k -kdehiddenvisibility -kerberos -legacyssl -lua -openexr -spell -utempter" 15,270 kB [0]
[ebuild N ] net-im/eva-0.4.1 USE="-arts -debug -xinerama" 2,363 kB [1]
Total: 6 packages (6 new), Size of downloads: 39,589 kB
Portage tree and overlays:
[0] /usr/portage
[1] /usr/local/portage/layman/gentoo-china
* IMPORTANT: 1 news items need reading for repository 'funtoo'.
* Use eselect news to read news items. |

October 28th, 2009 in
Computer Science | tags:
linux,
software |
738 views |
2 Comments