本次北美统计代写主要是使用R语言进行相应的数据统计分析

Stats413 Homework 11

Due Date: Apr 28, 6pm.
Answer all questions. Show all work.

问题1

考虑来自生产小部件的工厂的数据集。该因素有20个不同的制造机器,每台机器有4个不同班次的不同工人。在轮班过程中,随机选择10个小部件并测量其ecacy(以百分比衡量; 100%为完全ecacy,0%为无效)。

主要目标是评估性能是随着时间的推移而降低还是提高;给定班次的绩效(工人会累吗?),工人职业生涯中的绩效(工人会进步还是感到无聊和懒惰?)以及机器生命周期内的绩效(使用机器时是其输出)质量下降了?)

在Canvas上,查看数据集hw10q1data.csv。 (您可以使用read.csv(“ hw11q1data.csv”,header = TRUE在R中打开它,也可以仅在Excel中打开它。)这是数据中仅有两台计算机的示例。

您的任务是根据三种时间量度来拟合预测环境的模型。记下ecacy的观察值的表达式。包括适当的索引(并标识每个索引代表什么)。不要忘记错误结构。

问题2

您要求您的一个朋友在324本书上运行以下模型:
E(书中的页面| X)= -0 + -1(出版世纪)+ -2中文+ -3其他

其中“书中的页数”是页数,“出版的世纪”可以采用{16,17,18,19,20,21},“ chinese”和“ other”是该语言的虚拟变量书(参考=英语)。

您的朋友(未参加此课程)仅向您提供以下内容:

Q121.7R Q14.2≠6.6
1 c12.0d ˆ c 4.6 3.6≠3.1d — = a≠16.8b,V ar(-| X)= a 7.9≠3.6b

2.1 5.7 R 39.4 9.2

您强的“朋友”现在拒绝提供其他任何结果。从此输出中,回答以下问题:

a)出版的世纪和书籍的长度之间是否有关系?

b)中文书籍的平均阅读长度比英文书籍平均吗?

c)中文书籍的平均长度是否比“其他”书籍的长度长?

d)为中文和英文书籍之间的平均长度差异提供估计的95%置信区间。

1个

问题3

令K = {1,2,3}为三级分类变量,并考虑拟合模型E(Y | K)= -0 + -1K2 + -2K3,

如果K = i,则Ki = 1。假设每个组具有相同的样本大小nk,并且3nk = n。 a)证明se(-ˆ1 | K)= se(-ˆ2 | K)。
b)证明se(-ˆ0 | K)= se(-ˆ0 + -ˆ1 | K)= se(-ˆ0 + -ˆ2 | K)。

(您只需执行这些推导操​​作即可显示出相等性,而无需得出最终值。提示:您需要开始对矩阵求逆,但是您可能不需要完成求逆。有3×3矩阵逆的封闭形式解决方案。)

2个

Stats413家庭作业11 R组件

截止日期:4月28日下午6点。
回答所有问题。显示所有工作。

问题4

从“ alr4”包中加载数据prodscore。可变价值衡量发生销售时农田的评估价值,这是一项劳动密集型度量,需要税务检查员访问该物业。变量P测量土壤生产力,可通过土壤样品轻松测量。

目的是确定P是否是价值的良好预测指标。数据包含两年中四个县的销售量。分析数据,并提供简短的书面“报告”(1-3句话就可以了),这对于决策者确定是否可以使用土壤生产力代替评估价值很有用。

注意事项:

在某些县而不是其他县,土壤生产力可能仅是评估值的良好替代品(“手段”,尤其是趋势可能有用)。

年度差异将是有问题的,应进行检查。

如果您认为P是Value的良好替代品,那么您的“报告”应包含一些陈述

如何将P近似转换为Value。
提交您的RMarkdown的输出。您的输出不应超过3页。

问题5

从“ alr4”包中加载数据佛罗里达。 2000年美国总统大选在佛罗里达州尤其紧锣密鼓。该数据集包含来自佛罗里达州所有县的数据,这些数据代表两个主要候选人戈尔和布什以及边缘候选人布坎南的投票数。

用来质疑这些结果的论点之一是,选票令人困惑,并导致原本打算投票选举戈尔的选民却意外地为布坎南投票。此数据是否提供任何证据?

佛罗里达州的选票因县而异,因此如果这个假设成立,我们将看到一些县出现,戈尔和布坎南的票数之间存在奇怪的关系。

1)通过查看离群值来检验此假设。您是否观察到任何县都可以提供这一假设的证据?如果是这样,请确定县。

2)检查变量,选择适当的转换并重新检查

Question 1

Consider a data set from a factory that produces widgets. The factor has 20 dierent fabricating machines, and each machine has 4 dierent workers on dierent shifts. Over the course of a shift, 10 widgets are randomly selected and measured for ecacy (measured in terms of percentage; 100% is full ecacy and 0% is inoperative.)

The main goal is to assess whether performance degrades or improves over time; performance of a given shift (do workers gets more tired?), performance over a workers career (do workers improve or do they get bored and lazy?), and performance over the lifetime of a machine (as the machine is used is it’s output quality decreased?)

On Canvas, take a look at the data set, hw10q1data.csv. (You can open it in R using read.csv(“hw11q1data.csv”, header = TRUE), or just in Excel.) This is a sample of the just two machines from the data.

You are tasked with fitting a model predicting ecacy based upon the three measures of time. Write down the expression for the observed value of ecacy. Include proper indices (and identify what each index represents). Do not forget the error structure.

Question 2

You ask a friend of yours to run the following model on 324 books:
E(pages in book|X) = 0 + 1(century of publication) + 2chinese + 3other

where “pages in book” is the number of pages, “century of publication” can take on {16, 17, 18, 19, 20, 21}, and “chinese” and “other” are dummy variables for the language of the book (reference = english).

Your friend, not having taken this class, provides you only with the following:

Q121.7R Q14.2 6.6
ˆ c12.0d ˆ ˆ c 4.6 3.6 3.1d = a16.8b , V ar(|X) = a 7.9 3.6b

2.1 5.7 R 39.4 9.2

Your stubborn “friend” now refuses to provide any other results. From this output, answer the following:

  1. a)  Is there a relationship between century of publication and length of books?
  2. b)  Are chinese books dierent length on average than english books?
  3. c)  Are chinese books dierent length on average that “other” books?
  4. d)  Provide an estimated 95% confidence interval for the average dierence in length between chinese and english books.