这个作业是用R语言分析染色体数据

Stat 135 (LEC 001) Computing Assignment 1

问题:
染色质的随机游动模型。人类的染色体是一个非常大的分子,大约
2 – 3厘米长,含有1亿个碱基对。在细胞核中
染色体所包含的,相比之下只有大约千分之一厘米的直径。的
染色体由一系列线圈组成,称为染色质,与特殊的蛋白质结合在一起
(组蛋白),形成一串微珠。它是DNA和蛋白质的混合物。
在细胞周期的G0/G1期,即有丝分裂和DNA复制开始之间,细胞内的细胞内细胞内的有丝分裂和DNA复制开始
有丝分裂的染色体弥散到间期核中。在这个阶段,有一些重要的
发生了与染色体功能有关的过程。例如,DNA可以被
转录和复制,修复是由DNA链断裂。到的时候
下一次有丝分裂,染色体被复制。这些和其他过程的复杂性
提出了许多关于染色体的大规模空间组织和如何这样的问题
组织与细胞功能有关。从根本上说,这些过程是如何展开的令人困惑
在这样一个空间受限的环境中。在大约10 – 3mbp的范围内,DNA形成a
染色质纤维直径约30nm;在大约10 – 1mbp的尺度上可能形成染色质
循环。对于这个尺度以外的空间组织,我们所知甚少。各种各样的模型
从高度随机到高度有序,包括不规则折叠的纤维,
巨大的环状结构,径向环状结构,使染色质易于接近的系统组织
转录和复制机制,随机配置的基础上随机游走
模型聚合物。
为了在更大的尺度上了解更多的空间组织,我们进行了一系列的实验。
人类4号染色体上特定位置的一对小DNA序列(大小约40 kbp)
在大量细胞中有荧光标记。这些元素之间的距离
然后用荧光显微镜对其进行测定。(测量的距离实际上是两个位置在平面上的投影之间的二维距离。)经验
这些距离的分布提供了关于大规模组织本质的信息。
长期以来,在化学中有一个传统的建模聚合物的构型
随机游动理论。作为这种模型的结果,二维距离应该
遵循这个分布:
f (r |θ)= 2 r
θ
2
经验值

r
2
θ
2


在这个练习中,您将使这个分布适合一些实验结果并进行检查
契合度。整个数据集由36个实验组成,其中间隔
花状标记位点对在10 ~ 192mbp之间。在每个这样的实验条件下,大约确定了100-200个二维距离的测量值。
这个练习将只关注来自三个实验的数据(短的、中等的和
长时间的分离)。这些实验的测量结果包含在文件’ short.csv ‘中,
的媒介。csv”和“long.csv”。
1. 建立一个样本X1的最大似然估计,…Xn来自这个分布。
(将推导内容包含在报告中)
2. 建立了样本X1的线性回归矩估计器的方法,并对其进行了分析。Xn来自这个分布。
(将推导内容包含在报告中)
3.MLE的近似方差和矩量法的方差是什么
估计量?(将推导内容包含在报告中)
2
4. For each of the 3 experiments, plot the log-likelihood functions and find the MLE’s and their
approximate variances. (Include the plots of and numerical results into the report)
5. Find the method of moments estimates and the variances. (Include the numerical results
into the report)
6. For each experiment, make a histogram (with unit area) of the measurements and plot the
fitted densities on top. Do the fits look reasonable? Is there any appreciable difference
between the maximum likelihood fits and the method of moments fits? (Include the plots
and comments into the report)
7. Show that if X follows this distribution with parameter 1, then Y = θX follows this distribution with parameter θ. Thus it is sufficient to figure out how to generate random variables that
are of the distribution aforementioned with a specific parameter θ0. (Include derivation
into the report)
8. Suppose that X, Y are independent standard Gaussian random variables. Show that √
X2 + Y 2
is following aforementioned distribution. And now write a function what can sample from
this distribution with arbitrary θ value. (Hint: Use change of variable: (X, Y ) → (r, α) in
which r =

X2 + Y 2, α = arctan Y
X
) (Include derivation into the report, and fill in
the function ‘distribution sampler’ which takes input of θ parameter value and
the sample size and outputs the sample)