[音乐]
[音乐]
[音乐]
[音乐]
[音乐] 好, 同学们今天我们开始分子水平演化的第二讲,
蛋白质的演化速率,涉及到分子演化里面, 它的研究其实都是基于一些数学的模型,
数学的公式,而这些数学的模型和公式的背后是要有一系列的假设的。
这个大家要记住,以后我还要反复强调这一点。
在做蛋白质水平的这个演化速率的时候有一个假设,大家要记住,
就是不同位点上的氨基酸的替代速率 是相同的,
即使不相同, 它的这个平均替代的速率也非常小。
这是两个假设,你做这个这方面的研究,这个假设你要记住。
待会儿我要说有多小,这个其实就是我们这节棵的这个内容。
好,比如说我们现在有两个序列, 两个蛋白质的这个氨基酸的序列,首先这两个序列必须是同源的,
记得上一节课给你们说什么是同源吧?直系同源、并系同源, 这个同源也就是说,这两个序列来自一个共同的祖先,
它如果不是来自一个共同的祖先的话,是没法比的, 这个大家要记住。同源序列,这个是强调了的;
还有一个你们要做的时候,必须把它按照顺序排好了,你看我这个已经帮你排得很好了,对的- 都很齐了,
这也是很重要的,现在这个都有计算机的程序帮你去做,
你给它两个序列,它帮你去排,当然你最后还是要人工去校对一下, 但是是有程序帮你做的;
还有呢就是每一个氨基酸就是一个位点, 比如说这个第一个,这就是第一个位点,第二个位点,
当然它有的时候也会有一些地方你排的时候,它会出现一个空位,
就像我这个箭头指的这个地方,你不能把这个F就 排过来了,因为一排过来的话,你后面整个都对不上了,对吧?
所以你这个地方唯一的选择就是把这个空一下,下面的也都能够把它 对起来,这个要最大的限度把它们都能够对上,
这个空位其实是不算的,所以你就去数一数,这个里头
有多少个位点,你就这样数下去,然后把这个空位呢给它
剔掉,不算,所以这个算下来,你们数一数就能算的出来,它一共有
31个位点,就是在这个两个序列里面, 你所能够去比较的话,是有31个位点。
好,下面我们就涉及到你们怎么去算这个速率。
刚才讲了,你所比较的两个序列 必须是同源的,也就是说它们来自一个共同的祖先,
是这样的,这个共同的祖先就是PA, 在你比较两个序列的时候,
如果他们相同,你比如说这是第一个位点,这是第一个位点,都是白的,
如果他们相同的话,你就推测他们都是 代表了一个祖先的序列,没有变。
当然你也可以看到有一些变化了的位点, 这个就表明,这个是古老的,这个可能是一个
后天发生的一个变化,所以这是有一个变化了的。
但是很多情况底下,你都不知道哪个是更古老的,哪个是后来发生变化的,
这个时候你就涉及到另外一个物种来做参照,这个也是我们后面要讲到的内容,
现在你就知道,你看第二个位点是发生了改变的,就行了。
有两个同源的序列在这儿,
你要知道的呢,就说你所比较的 这个序列里面有多少个氨基酸,我刚才讲了,上一个序列就是31个,
你要把空位剔除了的,对吧,然后你就要去数,
这两个序列里面有多少个位点是不一样的?这叫daa, 这个aa的话就是amino
acid缩写, d就是difference对吧?
还有一个p, 这个p是指两个序列里面氨基酸相差的程度, 它其实是一个percentage,
还有一个很重要的,你要算速率的话要有一个T, T是time,
时间, 这个时间是指 你所研究的两个同源序列,他们分开的时间,
比如一百万年前他们就分开了,那这个T就是一百万, 是他们分开的时间。
下面我具体来讲这个,我们还拿它作为例子,我们一个一个的看。
我们先看,其实这个序列不是 飘着的,他肯定是在生物体里面,是在物种里面,对不对?
所以,我们就比如就这个PA就是一个比较古老的物种,
它不断的演化,然后就分化成两个 比较新一点的物种。
这个能理解,对吧,这个序列就都在物种体内。
好了,我问一下, 这个氨基酸的数是多少?
n等于是多少?数一下, 这个很容易是吧, 第一个序列是8,
第二个序列还是8, 他们排得也挺好的,所以整个这个n
就等于8, 有多少个氨基酸序列是有差异的?
我讲位点,几个位点是有差异? 3 ,非常好,
这就等于3, difference是3个,然后这个P很好,你就拿3除以8,
这就得到它的它们的差异是37.5%, 0.375这就是它们的差异,这是p值,
T现在我不知道呢,因为这是两个,
就相对来说,就告诉你们是个物种,我也没说是人,是黑猩猩,是什么东西,
所以这个T,我们就放在这儿,是吧,但是你们要知道的是,
这个T是指它开始分化的这个时间开始, 比如说一百万年前一直到现在,
你所研究的这个物种存在的这个时间,如果是现存的物种, 那就到今天,那就一百万年,如果这个物种已经
灭绝了的话,当然灭绝你就拿不到它的分子了,也没办法做分子速率的检测了,
但是如果它是在琥珀里面包着,你能够 把它的DNA拿出来的话,那是另外一回事了,看过Jurassic
Park 是吧, 它就是从琥珀里面抽了一点蚊子的血,那个蚊子是吃了
恐龙的血的,它肚里的血就是恐龙的血,所以那么用那个方法把恐龙的基因给拿出来,
当然那个时候,你就要算那个琥珀是多少万年前的,你得那么的来算。
所以这个时间就是说从这个物种开始,如果现存的话,一直到现在,
这段时间这就是T。好,这几个因素都有了,其实就是
时间,速度和距离的关系, 这个你们很早就学过,就这么简单。
然后我再强调一下,那个
距离其实不是你数到的那些有差异的氨基酸的位点,
这个距离是什么?这个距离是每个位点上 它的平均变化的这个数量,
也就是每个位点上它这个平均替换了几个氨基酸, 是这么来算的。
氨基酸有多少种选择? 20种,也就说这个位点上起码它有19种可能,
对不对?所以你要根据它的差异的数, 把它的平均替代的数给算出来,怎么算呢?
画一杠是平均替代数。假设,又来假设了,
假设每一个位点上它发生的替代数
是0?是1?是2?,它都有一个概率,
是0是多少概率,是1是多少概率,是2是多少概率,然后你假设
这个替代的这种概率,分布的规律是符合
泊松这个规律,Poisson,这是统计学上你们学过的,
有什么正态什么东西,有一种分布叫Poisson分布,泊松分布,
就这个概率的分布符合泊松分布,这样的话呢,你就可以 有一个公式,这些公式不要求你们记,你就知道一下这个
平均替代数是怎么来的,所以它是符合 这样一个规律的,这是0替代,这是
1 替代,然后还有 2,3 替代,你可以这么写下去,它是有一个公式的。
所以你就假设在0替代的时候,
那么这个数,这是一个自然对数,然后你就 拿
1 去减掉你那个变化的程度,就变化的percentage,
剩下来的是不是就是没变的?对吧?所以这就是 0替代,所以这个公式很简单了。你把这个公式解一下,就得
把这Kaa就算出来了,用这个公式你就把平均替代数, substitutional
number,这个记住,我一 再强调是平均替代数,你就可以把它算出来,很简单的,对不对?
这就是距离。那么速度是什么?他的
平均替代率就是substitude rate,rate 就是速率了,对吧?
那么这个速率就等于除一下, 距离除以时间就等于速度,
这个T为什么要乘以2?刚才一个 物种分化成什么?两个物种,它有两条序列,
记住了,这个公式是要求你们记住的, 很简单,就是速度,距离和时间的关系,
对吧大Kaa就是一个距离, T就是它分化的时间,不过要乘以2,那么一除就等于它的速率,
很简单的一个公式。这就是在蛋白质水平它的演化速率的公式,
刚才给你们讲的就是简单的这种推导。