注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

Bioinformatics home

 
 
 

日志

 
 

canonical correlation analysis by SAS  

2011-11-30 12:22:07|  分类: 生物信息编程 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
典型相关分析sas语言
 [例] 某医学院对MEFV(最大呼气流速─容量)曲线进行研究,测定了103例50~79岁正常男性的MEFV曲线资料,这里挑选其中的6项指标,把它们分为2组:一组为2个(p=2)反映用力肺活量指标─X1(用力肺活量(L))和X2(第1秒用力肺活量(L));另一组为4个(q=4)反映呼气流速的指标─Y1(最大呼气中期流速(L/S))、Y2(用力呼气后期流速(L/S))、Y3(呼出50%肺容量时最大流速(L/S))、Y4(呼出75%肺容量时最大流速(L/S))。试作MEFV曲线中这两组指标的典型相关分析。
  6项指标构成的相关矩阵见[D6P15.PRG],其中行与列的指标顺序依次为X1、X2、Y1至Y4,如X1与Y4的简单相关系数为0.3019。
   [SAS程序]──[D6P15.PRG]
   DATA FGH(TYPE=CORR);
    INPUT _NAME_$ 1-2 (X1 X2 Y1-Y4) (8.);
   _TYPE_='CORR';
    CARDS;
   X1 1.0   0.8491 0.5106 0.2497 0.5285 0.3019
   X2 0.8491 1.0   0.8062 0.5438 0.7887 0.6064
   Y1 0.5106 0.8062 1.0   0.7833 0.9284 0.8364
   Y2 0.2497 0.5438 0.7833 1.0   0.6457 0.9051
   Y3 0.5285 0.7887 0.9284 0.6457 1.0   0.7079
   Y4 0.3019 0.6064 0.8364 0.9051 0.7079 1.0
   ;
   PROC CANCORR EDF=102;
    VAR X1 X2;  WITH Y1-Y4;  RUN;

  [程序修改指导] 在数据集名FGH后用TYPE=CORR注明数据的类型为相关矩阵,而不是原始数据。INPUT语句中用“_NAME_$”读取左侧的变量名,“1-2”表示变量名的字符落在第1、2列上,“(X1 X2 Y1-Y4)”表示各列数据所对应的变量名,“(8.)”表示读取数据的宽度均为8列(注∶相关系数占6位,其后的空格占2位),_TYPE_='CORR'表示数据类型为相关矩阵。
  选择项EDF=N-1,为典型相关分析提供一个计算误差自由度的参考值, 因为该过程中没有合适的选择项可以将原始数据的样本含量N准确地送入。 如果忽略这一选择项,将以缺省值N=10000作为样本含量参与有关计算和统计检验,不够妥当。
  如果输入的是原始数据, 则程序可改写成下面的形式∶
  DATA FGH;
   INPUT X1 X2 Y1-Y4;  CARDS;
   3.3460 2.4104 2.3893 0.4263 2.9515 0.9338
   …… (注: 省略号处还有N-1行数据)
   ;
  PROC CANCORR;
   VAR X1 X2; WITH Y1-Y4; RUN;

  [输出结果及其解释] Canonical Correlation Analysis
               Adjusted   Approx   Squared
         Canonical  Canonical  Standard  Canonical
        Correlation Correlation  Error  Correlation
      1   0.873549   0.869170  0.023458  0.763089
      2   0.286114   0.256837  0.090909  0.081861
  求得第1对典袖量(V1,W1)之间的典型相关系数r1=0.873549,校正值为0.869170、标准误差为0.023458、典型相关系数的平为0.763089;第2行是第2对典袖量(V2,W2)的有关结果。
              Eigenvalues of INV(E)*H
               = CanRsq/(1-CanRsq)
        Eigenvalue Difference Proportion Cumulative
      1   3.2210   3.1318   0.9731   0.9731
      2   0.0892    .     0.0269   1.0000
  这是与r2/(1-r2)相对应的2个特征值,依次为3.2210和0.0892。r2为典型相关系数之平。
   Test of H0: The canonical correlations in the current
          row and all that follow are zero
      Likelihood
       Ratio  Approx F  Num DF  Den DF  Pr > F
    1 0.21751744  27.7454    8   194  0.0001
    2 0.91813855  2.9126    3    98  0.0382

     Multivariate Statistics and F Approximations
           S=2  M=0.5  N=47.5
   Statistic     Value   F  Num DF Den DF Pr > F
   Wilks' Lambda 0.21751744 27.7454  8   194 0.0001
  第1部分是用似然比法检验典型相关系数与零的差别是否显著,检验r1时,其零假设为r1以及小于r1的所有典型相关系数都为零;检验r2时,其零假设为r2以及小于r2的所有典型相关系数都为零,依此类推。 所求的似然比统计量近似服从F,其P值依次为P<0.0001和P=0.0382,说明第1和第2典型相关系数分别具有非常显著和显著的意义。
  对r1的检验结果与用Wilks' ∧ 统计量进行多元分析的结果是等价的。

       Raw Canonical Coefficients for the 'VAR' Variables
                   V1        V2
          X1   -0.683560368   -1.765389378
          X2   1.5129465118   1.1379135675
       Raw Canonical Coefficients for the 'WITH' Variables
                   W1        W2
          Y1   0.8692628837   -1.046744053
          Y2   -0.077454063    0.853797769
          Y3   0.1688480883   -0.330772634
          Y4   0.0375413811   0.8858186575
  这是用原指标来线性表达典袖量的系数,即:
     ┌ V1=-0.683560X1+1.512947X2
     |
     └ W1=0.899263Y1-0.077454Y2+0.168848Y3+0.037541Y4
     ┌ V2=-1.765389X1+1.137914X2
    |
     └ W2=-1.046744Y1+0.853798Y2-0.330773Y3+0.885819Y4

          Standardized Canonical Coefficients for
               the 'VAR' Variables
                   V1      V2
            X1    -0.6836    -1.7654
            X2    1.5129    1.1379
          Standardized Canonical Coefficients for
               the 'WITH' Variables
                   W1      W2
            Y1    0.8693    -1.0467
            Y2    -0.0775    0.8538
            Y3    0.1688    -0.3308
            Y4    0.0375    0.8858
  这是用标准化指标xi和yi来线性表达典袖量的系数,即:
    ┌ V1=-0.6836x1+1.5129x2
    |
    └ W1=0.8693y1-0.0775y2+0.1688y3+0.0375y4
  同理可写出用标准化指标来线性表达V2、W2的表达式。
  此处本应是4个典型结构(Canonical Structure)矩阵,省略了。这4个典型结构矩阵都是典袖量与相应的原指标之间的相关系数。如X1与V1的相关系数为0.6011,Y4与W2的相关系数为0.5489, 依此类推。可以看出Y1与W1之间的相关系数最大,Y3与W1之间的相关系数次之,即在典 型变量W1所提取的相关信息中,Y1和Y3的贡献最大。
  评论这张
 
阅读(1236)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017