数据元分析

热门范文 2019-08-05 06:00:35 热门范文

小中大

手机查看

[摘要]数据元分析篇1:主元分析(PCA)理论分析及应用主元分析(PCA)理论分析及应用(主要基于外文教程翻译)什么是PCA?PCA是Principal componentanalysis的缩写，中文翻译为主元分析。它是一种对数据进行分析的技术，最重要的应用是对原有数据进行简化。正如它的名字：主元分

【www.shanpow.com--热门范文】

数据元分析篇1:主元分析(PCA)理论分析及应用

主元分析(PCA)理论分析及应用
(主要基于外文教程翻译)
什么是PCA?
       PCA是Principal component
analysis的缩写，中文翻译为主元分析。它是一种对数据进行分析
的技术，最重要的应用是对原有数据进行简化。正如它的名字：主元分析，这种方法可以有效的找出数据中最“主要”的元素和结构，去除噪音和冗余，将原有的复
杂数据降维，揭示隐藏在复杂数据背后的简单结构。它的优点是简单，而且无参数限制，可以方便的应用与各个场合。因此应用极其广泛，从神经科学到计算机图形
学都有它的用武之地。被誉为应用线形代数最价值的结果之一。
       在以下的章节中，不仅有对PCA的比较直观的解释，同时也配有较为深入的分析。首先将从一个简单的例子开始说明PCA应用的场合以及想法的由来，进行一个
比较直观的解释；然后加入数学的严格推导，引入线形代数，进行问题的求解。随后将揭示PCA与SVD(Singular
Value Decomposition)之间的联系以及如何将之应用于
真实世界。最后将分析PCA理论模型的假设条件以及针对这些条件可能进行的改进。
一个简单的模型
       在实验科学中我常遇到的情况是，使用大量的变量代表可能变化的因素，例如光谱、电压、速度等等。但
是由于实验环境和观测手段的限制，实验数据往往变得极其的复杂、混乱和冗余的。如何对数据进行分析，取得隐藏在数据背后的变量关系，是一个很困难的问题。
在神经科学、气象学、海洋学等等学科实验中，假设的变量个数可能非常之多，但是真正的影响因素以及它们之间的关系可能又是非常之简单的。
       下面的模型取自一个物理学中的实验。它看上去比较简单，但足以说明问题。如图表 1所示。这是一个理想弹簧运动规律的测定实验。假设球是连接在一个无质量无摩擦的弹簧之上，从平衡位置沿轴拉开一定的距离然后释放。

图表
1
       对于一个具有先验知识的实验者来说，这个实验是非常容易的。球的运动只是在x轴向上发生，只需要记录下轴向上的运动序列并加以分析即可。但是，在真实世界中，对于第一次实验的探索者来说（这也是实验科
学中最常遇到的一种情况），是不可能进行这样的假设的。那么，一般来说，必须记录下球的三维位置。这一点可以通过在不同角度放置三个摄像机实现（如图所示），假设以的频率拍摄画面，就可以得到球在空间中的运动序列。但是，由于实验的限制，这三台摄像机的角度可能
比较任意，并不是正交的。事实上，在真实世界中也并没有所谓的轴，每个摄像机记录下的都是一幅二维的图像，有其自己的空间坐标系，球的空间位置是由一组二维坐标
记录的：。经过实验，系统产生了几分钟内球的位置
序列。怎样从这些数据中得到球是沿着某个轴运动的规律呢？怎样将实验数据中的冗余变量剔除，化归到这个潜在的轴上呢？
       这是一个真实的实验场景，数据的噪音是必须面对的因素。在这个实验中噪音可能来自空气、摩擦、摄像
机的误差以及非理想化的弹簧等等。噪音使数据变得混乱，掩盖了变量间的真实关系。如何去除噪音是实验者每天所要面对的巨大考验。
       上面提出的两个问题就是PCA方法的目标。PCA主元分析方法是解决此类问题的一个有力的武器。下文将结合以上的例子提出解决方案，逐步叙述PCA方法的思想和求解过程。
线形代数：基变换
       从线形代数的角度来看，PCA的目标就是使用另一组基去重新描述得到的数据空间。而新的基要能尽量揭示原有的数据间的关系。在这
个例子中，沿着某轴上的运动是最重要的。这个维度即最重要的“主元”。PCA的目标就是找到这样的“主元”，最大程
度的去除冗余和噪音的干扰。
A.
标准正交基
为了引入推导，需要将上文的数据进行明确的定义。在上面描述的实验过程中，在每一个采样时间点上，每
个摄像机记录了一组二维坐标，综合三台摄像机数据，在每一个时间点上得到的位置数据对应于一个六维列向量。
如果以的频率拍摄10分钟，将得到个这样的向量数据。
       抽象一点来说，每一个采样点数据都是在维向量空间（此例中）内的一个向量，这里的是牵涉的变量个数。由线形代数我们知道，在维向量空间中的每一个向量都是一组正交基的线形组合。最普通的一组正交基是标准正交基，实验采样的
结果通常可以看作是在标准正交基下表示的。举例来说，上例中每个摄像机记录的数据坐标为，这样的基便是。那为什么不取或是其他任意的基呢？原因是，这样的标准正交基反映了数据的采集方式。假设采集数据点是，一般并不会记录（在基下），因为一般的观测者都是习惯于取摄像机的屏幕坐标，即向上和向右的方向作为观测的基准。也就
是说，标准正交基表现了数据观测的一般方式。
       在线形代数中，这组基表示为行列向量线形无关的单位矩阵。
B.
基变换
从更严格的数学定义上来说，PCA回答的问题是：如何寻找到另一组正交基，它们是标准正交基的线性组合，而且能够最好的表示数据集？
       这里提出了PCA方法的一个最关键的假设：线性。这是一个
非常强的假设条件。它使问题得到了很大程度的简化：1）数据被限制在一个向量空间中，能被一组基表示；2）隐含的假设了数据之间的连续性关系。
       这样一来数据就可以被表示为各种基的线性
组合。令是一个的矩阵，它的每一个列向量都表示一个时间采样点上的数据，在上面的例子中，。表示转换以后的新的数据集表示。是他们之间的线性转换。

                          (1)
有如下定义：
l
表示的行向量。
l
表示的列向量（或者）。
l
表示的列向量。
公式(1)表示不同基之间的转换，在线性代数中，它有如下的含义：
Ø
是从到的转换矩阵。
Ø
几何上来说，对进行旋转和拉伸得到。
Ø
的行向量，是一组新的基，而是原数据在这组新的基表示下得到的重新表示。
下面是对最后一个含义的显式说明：
注意到的列向量：
可见表示的是与中对应列的点积，也就是相当于是在对应向量上的投影。所以，的行向量事实上就是一组新的基。它对原数据进行重新表示。在一些文献中，将数据成为“源”，而将变换后的称为“信号”。这是由于变换后的数据更能体现信号成分的原因。
C.
问题
在线性的假设条件下，问题转化为寻找一组变换后的基，也就是的行向量，这些向量就是PCA中所谓的“主元”。问题转化为如下的形式：
l
怎样才能最好
的表示原数据？
l
的基怎样选择才是最好的？
解决问题的关键是如何体现数据的特征。那么，什么是数据的特征，如何体现呢？
方差和目标
       “最好的表示”是什么意思呢？下面的章节将给出一个较为直观的解释，并增加一些额外的假设条件。在
线性系统中，所谓的“混乱数据”通常包含以下的三种成分：噪音、旋转以及冗余。下面将对这三种成分做出数学上的描述并针对目标作出分析。
A.
噪音和旋转
噪音对数据的影响是巨大的，如果不能对噪音进行区分，就不可能抽取数据中有用的信息。噪音的横梁有多
种方式，最常见的定义是信噪比(signal-to-noise ratio)，或是方差比：
                                                                                                          (2)
比较大的信噪比表示数据的准确度高，而信噪比低则说明数据中的噪音成分比较多。那么怎样区分什么是信
号，什么是噪音呢？这里假设，变化较大的信息被认为是信号，变化较小的则是噪音。事实上，这个标准等价于一个低通的滤波器，是一种标准的去噪准则。而变化的大小则是由方差来描述的。
       它表示了采样点在平均值两侧的分布，对应于图
表 2(a)就是采样点云的“胖瘦”。显然的，方差较大，也就是较“宽”较“胖”的分布，表示了采样点的主要分布
趋势，是主信号或主要分量；而方差较小的分布则被认为是噪音或次要分量。
2：(a)摄像机A的采集数据。图中黑色垂直直线表示一组正交基的方向。是采样点云在长线方向上分布的方差，而是数据点在短线方向上分布的方差。(b)对的基向量进行旋转使SNR和方差最大。

       假设摄像机A拍摄到的数据如图表 2(a)所示，圆圈代表采样点，因为运动理论上是只存在于一条直线上，所以偏离直线的分布都属于噪音。此时描述的就是采样点云在某对垂直方向上的概率分布的比值。那么，最大限度的揭示原数据的结构和关系，
找出某条潜在的，最优的轴，事实上等价寻找一对空间内的垂直直线（图中黑线表示，也对应于此空间的一组基），使得信噪比尽
可能大的方向。容易看出，本例中潜在的轴就是图上的较长黑线方向。那么怎样寻找这样一组方向呢？直接的想法是对基向量进行旋转。如图表 2(b)所示，随着这对直线的转动以及方差的变化情况。应于最大值的一组基，就是最优的“主元”方向。在进行数学中求取这组基的推导之前，先介绍另一个影响因素。
B.
冗余
有时在实验中引入了一些不必要的变量。可能会使两种情况：1）该变量对结果没有影响；2）该变量可以用其它变量表示，从而造成数
据冗余。下面对这样的冗余情况进行分析和分类。
图表
3：可能冗余数据的频谱图表示。和分别是两个不同的观测变量。（比如例子中的，）。最佳拟合线用虚线表示。

       如图表 3所示，它揭示了两个观测变量之间的关系。(a)图所示的情况是低冗余的，从统计学上说，这两个观测变量是相互独立的，它们之间的信息没有冗余。而相
反的极端情况如(c)，和高度相关，完全可以用表示。一般来说，这种情况发生可能是因为摄像机A和摄像机B放置的位置太近或是数据被重复记录了，也可
能是由于实验设计的不合理所造成的。那么对于观测者而言，这个变量的观测数据就是完全冗余的，应当去除，只用一个变量就可以表示了。这也就是PCA中“降维”思想的本源。
C.
协方差矩阵
对于上面的简单情况，可以通过简单的线性拟合的方法来判断各观测变量之间是否出现冗余的情况，而对于
复杂的情况，需要借助协方差来进行衡量和判断：
       ，分别表示不同的观测变量所记录的一组值，在统计学中，由协方差的性质可以得到：
l
，且当且仅当观测变量，相互独立。
l
，当=。
等价的，将，写成行向量的形式：
，
       协方差可以表示为：

        (3)
       那么，对于一组具有个观测变量，个采样时间点的采样数据，将每个观测变量的值写为行向量，可以得到一个的矩阵：

(4)
       接下来定义协方差矩阵如下：

                                                           (5)
容易发现协方差矩阵性质如下：
l
是一个的平方对称矩阵。
l
对角线上的元素是对应的观测变量的方差。
l
非对角线上的
元素是对应的观测变量之间的协方差。
       协方差矩阵包含了所有观测变量之间的相关性度量。更重要的是，根据前两节的说明，这些相关性度量反映了数据的
噪音和冗余的程度。
l
在对角线上的
元素越大，表明信号越强，变量的重要性越高；元素越小则表明可能是存在的噪音或是次要变量。
l
在非对角线上
的元素大小则对应于相关观测变量对之间冗余程度的大小。
一般情况下，初始数据的协方差矩阵总是不太好的，表现为信噪比不高且变量间相关度大。PCA的目标就是通过基变换对协方差矩阵进
行优化，找到相关“主元”。那么，如何进行优化？矩阵的那些性质是需要注意的呢？
D.
协方差矩阵的
对角化
总结上面的章节，主元分析以及协方差矩阵优化的原则是：1）最小化变量冗余，对应于协方差矩阵的非对
角元素要尽量小；2）
最大化信号，对应于要使协方差矩阵的对角线上的元素尽可能的大。因为协方差矩阵的每一项都是正值，最小值为0，所以优化的目标矩阵的非对角元素应该都是0，对应于冗余最小。所以优化的目标矩阵应该是一个对角阵。即只有对角线上的元素可能是非零值。同时，PCA假设所对应的一组变换基必须是标准正交的，而优化矩阵对角线上的元素越大，就说明信号的成分越大，换句话就是对应于越重要的“主元”。
      对于协方差矩阵进行对角化的方法很多。根据上面的分析，最简单最直接的算法就是在多维空间内进行搜
索。和图表 2(a)的例子中旋转的方法类似：
1）
在维空间中进行遍历，找到一个方差最大的向量，令作。
2）
在与垂直的向量空间中进行遍历，找出次大的方
差对应的向量，记作。
3）
对以上过程循
环，直到找出全部的向量。它们生成的顺序也就是“主元”的排序。
这个理论上成立的算法说明了PCA的主要思想和过程。在这中间，牵涉到两个重要的特性：a)转换基是一组标准正交基。这给PCA的求解带来了很大的好处，它可以运用
线性代数的相关理论进行快速有效的分解。这些方法将在后面提到。b）在PCA的过程中，可以同时得到新的基向量所对应的“主元排序”，利用这个重要性排序可以方便的对数据进行光
顺、简化处理或是压缩。
A.
PCA的假设和局限
PCA的模型中存在诸多的假设条件，决定了它存在一定的限制，在有些场合可能会造成效果不好甚至失效。对
于学习和掌握PCA来
说，理解这些内容是非常重要的，同时也有利于理解基于改进这些限制条件的PCA的一些扩展技术。
       PCA的假设条件包括：
1.
线形性假设。
如同文章开始的例子，PCA的内部模型是线性的。这也就决定了它能进行的主元分析之间的关系也是线性的。现在比较流行的kernel-PCA的一类方法就是使用非线性的权值对原有PCA技术的拓展。
2.
使用中值和方
差进行充分统计。
使用中值和方差进行充分的概率分布描述的模型只限于指数型概率分布模型。（例如高斯分布），也就是
说，如果我们考察的数据的概率分布并不满足高斯分布或是指数型的概率分布，那么PCA将会失效。在这种模型下，不能使用方差和协方差来很好的描述噪音和冗余，对教化之后的协方差矩阵并
不能得到很合适的结果。
              事实上，去除冗余的最基础的方程是：
其中代表概率分布的密度函数。基于这个方程进行冗余去除的方法被称作独立主元分析(ICA)方法(Independent Component Analysis)。不过，所幸的是，根据中央极限定理，现实生活中所遇到的大部分采样数据的概率分布都是遵从高斯分
布的。所以PCA仍
然是一个使用于绝大部分领域的稳定且有效的算法。
3.
大方差向量具
有较大重要性。
PCA方法隐含了这样的假设：数据本身具有
较高的信噪比，所以具有最高方差的一维向量就可以被看作是主元，而方差较小的变化则被认为是噪音。这是由于低通滤波器的选择决定的。
4.
主元正交。
PCA方法假设主元向量之间都是正交的，从
而可以利用线形代数的一系列有效的数学工具进行求解，大大提高了效率和应用的范围。
PCA求解：特征根分解
       在线形代数中，PCA问题可以描述成以下形式：
寻找一组正交基组成的矩阵，有，使得是对角阵。则P的行向量（也就是一组正交基），就是数据的主元向量。
       对进行推导：
       定义，则是一个对称阵。对进行对角化求取特征向量得：
       则是一个对角阵而则是对称阵的特征向量排成的矩阵。
       这里要提出的一点是，是一个的矩阵，而它将有个特征向量。其中是矩阵的秩。如果，则即为退化阵。此时分解出的特征向量不能覆盖整个空间。此时只需要在保证基的正交性的前提下，在剩余的空间中任意取得维正交向量填充的空格即可。它们将不对结果造成影响。因为此时对应于这些特征向量的特征值，也就是方差值为零。
       求出特征向量矩阵后我们取，则，由线形代数可知矩阵有性质，从而进行如下计算：
       可知此时的就是我们需要求得变换基。至此我们可以得到PCA的结果：
l
的主元即是的特征向量，也就是矩阵的行向量。
l
矩阵对角线上第i个元
素是数据在方向的方差。
我们可以得到PCA求解的一般步骤：
1）采集数据形成的矩阵。为观测变量个数，为采样点个数。
2）在每个观测变量（矩阵行向量）上减去该观测变量的平均值得到矩阵。
3）对进行特征分解，求取特征向量以及所对应的特征根。
总结和讨论
l
PCA技术的一大好处是对数据进行降维的处理。我
们可以对新求出的“主元”向量的重要性进行排序，根据需要取前面最重要的部分，将后面的维数省去，可以达到降维
从而简化模型或是对数据进行压缩的效果。同时最大程度的保持了原有数据的信息。在前文的例子中，经过PCA处理后的数据只剩下了一维，也就是弹簧
运动的那一维，从而去除了冗余的变量，揭示了实验数据背后的物理原理。
l
PCA技术的一个很大的优点是，它是完全无参数限制的。在PCA的计算过程中完全不需要人为的设定参数
或是根据任何经验模型对计算进行干预，最后的结果只与数据相关，与用户是独立的。但是，这一点同时也可以看作是缺点。如果用户对观测对象有一定的先验知
识，掌握了数据的一些特征，却无法通过参数化等方法对处理过程进行干预，可能会得不到预期的效果，效率也不高。
图表
4：黑色点表示采样数据，排列成转盘的形状。容易想象，该数据的主元是或是旋转角。
如图表
4中的例子，PCA找出的主元将是。但是这显然不是最优和最简化的主元。之间存在着非线性的关系。根据先验的知识可知旋转角是最优的主元。则在这种情况下，PCA就
会失效。但是，如果加入先验的知识，对数据进行某种划归，就可以将数据转化为以为线性的空间中。这类根据先验知识对数据预先进行非线性转
换的方法就成为kernel-PCA，它扩展了PCA能够处理的问题的范围，又可以结合一些先验约束，是比较流行
的方法。
l
有时数据的分
布并不是满足高斯分布。如图表 5所示，在非高斯分布的情况下，PCA方法得出的主元可能并不是最优的。在寻找主元时不能将方差作为衡量重要性的标准。要根据数据的分布情
况选择合适的描述完全分布的变量，然后根据概率分布式
来计算两个向量上数据分布的相关性。等价的，保持主元间的正交假设，寻找的主元同样要使。这一类方法被称为独立主元分解(ICA)。
图表
5：数据的分布并不满足高斯分布，呈明显的十字星状。
这种情况下，方差最大的方向并不是最优主元方向。

l
PCA方法和线形代数中的奇异值分解(SVD)方法有内在的联系，一定意义上来说，PCA的解法是SVD的一种变形和弱化。对于的矩阵，通过奇异值分解可以直接得到如下形式：
其中是一个的矩阵，是一个的矩阵，而是的对角阵。形式如下：
其中，是原矩阵的奇异值。由简单推导可知，如果对奇异值分解加以约束：的向量必须正交，则矩阵即为PCA的特征值分解中的，则说明PCA并不一定需要求取，也可以直接对原数据矩阵进行SVD奇异值分解即可得到特征向量矩阵，也就是主元向量。

计算机视学领域的应用
       PCA方法是一个具有很高普适性的方法，被广泛应用于多个领域。这里要特别介绍的是它在计算机视觉领域的
应用，包括如何对图像进行处理以及在人脸识别方面的特别作用。
A.
数据表示
如果要将PCA方法应用于视觉领域，最基本的问题就是图像的表达。如果是一幅大小的图像，它的数据将被表达为一个维的向量：
在这里图像的结构将被打乱，每一个像素点被看作是一维，最直接的方法就是将图像的像素一行行的头尾相接成一个一维向量。还必须要注意的是，每一维上的数据对应于对应像素的亮度、灰度或是色彩值，
但是需要划归到同一纬度上。
B.
模式识别
假设数据源是一系列的20幅图像，每幅图像都是大小，那么它们都可以表示为一个维的向量。将它们排成一个矩阵：
       然后对它们进行PCA处理，找出主元。
为什么这样做呢？据人脸识别的例子来说，数据源是20幅不同的人脸图像，PCA方法的实质是寻找这些图像中的相似的
维度，因为人脸的结构有极大的相似性（特别是同一个人的人脸图像），则使用PCA方法就可以很容易的提取出人脸的内在结构，也及时所谓“模式”，如果有新的图像需要与原有图像比
较，就可以在变换后的主元维度上进行比较，则可衡量新图与原有数据集的相似度如何。
对这样的一组人脸图像进行处理，提取其中最重要的主元，即可大致描述人脸的结构信息，称作“特征脸”(EigenFace)。这就是人脸识别中的重要方法“特征脸方法”的理论根据。近些年来，基于对一般PCA方法的改进，结合ICA、kernel-PCA等方法，在主元分析中加入关于人脸图像的先验知识，则能得到更好的效果。
C.
图像信息压缩
使用PCA方法进行图像压缩，又被称为Hotelling算法，或者Karhunen
and Leove(KL)变换。这是视觉领域内图像处理的经典算法之一。具体算法与上述过程相同，使用PCA方法处理一个图像序列，提取其中的主
元。然后根据主元的排序去除其中次要的分量，然后变换回原空间，则图像序列因为维数降低得到很大的压缩。例如上例中取出次要的5个维度，则图像就被压缩了1/4。但是这种有损的压缩方法同时又保持
了其中最“重要”的信息，是一种非常重要且有效的算法。

参考文献
[1]   Lindsay
I Smith. (2002) “A tutorial on Principal Components Analysis”
[2]
Jonathon Shlens. (2005) “A Tutorial
on Principal Component Analysis”
[3]
?Will, Todd
(1999) “Introduction to the Singular Value Decomposition” DavidsonCollege.
http://www.davidson.edu/academic/math/will/svd/index.html
[4]   Bell, Anthony and Sejnowski, Terry. (1997) “The Independent
Components of
Natural    Scenes are EdgeFilters.”
Vision Research 37(23), 3327-3338.
[5]   T.F.
Cootes and C.J.Taylor
(2004) “Statistical Models of Appearance for Computer Vision”       http://www.isbe.man.ac.uk/~bim/Models/app_models.pdf
[6]   张翠平苏光大 (2000)“人脸识别技术综述”《中国
图像图形学报》第五卷A版第11期
[7]   何国辉甘俊英 (2006)“PCA类内平均脸法在人脸识别中的应用研究”《计算机应用研究》2006年第三期
[8]   牛丽平付仲良
魏文利 (2006)“人脸识别技术研究”《电脑
开发与应用》2006年第五期
[9]   Wikipedia “principal components analysis”词条解释 From Answers.com

数据元分析篇2:数据元标准化基本方法

■ 刘丽华金水高王骏胡凯
公共卫生数据元的标准化，不仅要对数据自身进行“名、型、值”的定义，还要找出数据之间内在与外在间的关联关系，对构建高效稳健的公共卫生数据模型起到积极的作用。
数据标准化工作是信息系统建设的基础工作。数据工作的无规则性，必然会导致系统的低效能和资源的浪费。长期以来，我国公共卫生信息系统的建设缺乏整体规划，在国家层面上缺乏对公共卫生数据的标准定义与规范，导致了不同系统之间的数据难以交换、共享，也造成了资源的极大浪费。
公共卫生数据元的标准化，不仅要对数据自身进行“名、型、值”的定义，还要找出数据之间内在与外在间的关联关系，对构建高效稳健的公共卫生数据模型起到积极的作用。
数据元基本概念与结构
数据元可定义为通过标识、定义、表示以及允许值等一系列属性描述的数据单元，在特定的语义环境中被认为是不可再分的最小数据单元，一般由对象类词、特性类词和表示三部分组成。
（1）对象类词: 是指人们希望研究、搜集和存储其相关数据的事物，如: 人、家庭、医疗机构、观察与干预等。
（2）特性类词: 是某个对象的一个特征。例如，人这个对象类可以具有很多特征，如性别、出生日期、身高、职业或患病情况等。
（3）表示是值域、数据类型的组合，必要时也包括度量单位或字符集。它所表达的是数据元概念的数据类型及可能的取值范围。表示类词可以是一个编码，如国际疾病分类（ICD-10），也可能是一个取值范围，如身高的取值。
对象往往有多个特性，对象与其任何一个有意义的特性的结合就组成一个数据元概念。例如，人这个“对象”可以有性别、身高、出生日期等多个“特性”，将它与其中的某一个特性结合在一起就组成一个“数据元概念”，如人—性别、人—身高和人—出生日期等都是数据元概念的例子。
数据元是数据元概念与值域的结合。即一个特定的数据元概念与一个特定的值域结合创建一个数据元。例如在儿童营养监测中，定义的一个数据元概念“儿童身高”，与身高的表示值域结合，构成数据元“儿童身高的测量值”; 而与儿童身高的平均水平值域结合，则构成“儿童身高的平均值”这个数据元。显然，这是两个不同的数据元。数据元概念与数据元之间存在一对多的关系，即一个数据元概念与不同的表示组合后可以生成不同的数据元。
数据元标准化的重要作用
（1）规范和统一数据的采集与应用; （2）构筑数据共享的基础，为不同系统多种模式的数据存取和数据共享提供数据转换格式和编程接口; （3）实现对公共卫生数据在“元数据”层面上的管理，从而使“应用软件”真正与“数据”分家，使应用软件的开发更具灵活性; （4）为公共卫生内部数据交换及公共卫生与外部数据交换在“数据”这一层上提供统一的、各学科可以共同遵守的数据交换规范; （5）是构建统一、集成、高效的公共卫生数据模型的基础。
数据元标准化方法
1.数据元的提取
公共卫生数据元的提取采用以下步骤: ①业务需求分析。包括流程分析，业务建模。②基本数据集设置。将必需收集的数据按照特性分成不同数据集，确定每个数据集中的数据项; ③数据元构建。对抽取的数据项，按对象类词、特性类词及表示类词构建数据元。
2.数据元的规范化描述
数据元的规范化描述是指按照国际或国家标准对于所提取的数据元的属性进行描述。国家公共卫生数据元的属性的规范化描述遵循的标准为ISO/IEC 11179-3:2002和国家标准GB/T 18391.3-2001（信息技术/数据元的规范与标准化/第三部分: 数据元的基本属性），基本属性的模型如图所示。
该标准要求对数据元的22个属性进行描述。内容包括标识类属性、定义类属性、关系类属性、表示类属性、管理类属性及附加类属性。数据元其中还说明了属性的出现次数以及可选属性之间的绑定关系。结合实际，在公共卫生数据元的规范化的描述中，增加了英文名称及英文简称两个新的属性。
以“伤害发生原因”数据元规范化描述为例说明如下。
标识类属性
标识符: PH0802009
名称: 伤害发生原因
版本号: 0.1
英文名称: cause of injury
英文简称: cause of injury
同义名称:
注册机构: 标准化研究总体组
相关环境:该数据元用以收集伤害发生的原因。该数据元用于伤害监测数据集。
定义类属性
定义:填写造成伤害的起始原因，即在伤害发生链中最前面的原因。
表示类属性
表示类别: 代码法
表示形式: 代码
数据元值的数据类型: CV
数据元值的最大长度: 2
数据元值的最小长度: 1
表示格式: n
数据元允许值: 伤害原因代码表
管理类属性
主管机构: 中国疾病预防控制中心
注册状态: 已登录
提交机构: 中国疾控中心慢病中心
备注:
数据元著录工具
为了便于对数据元进行著录于管理而编制的公共卫生数据元著录与管理系统是参照中华人民共和国国家质量监督检验检疫总局发布的《数据元的规范与标准化》国家标准（GB/T18391）进行设计开发的，其主要功能包括数据元著录、管理、查询和调用等。目的是以软件工具作为辅助手段建立一套符合数据元标准化的工作程序，保证用户在可操作性比较强的方式下，以标准化的方式进行数据元的著录和管理。系统设计为带有客户端软件的WEB服务模式，用户通过INTERNET或局域网络下载本系统的客户端软件，然后通过客户端界面与网络连接进行录入与管理功能，权限级别不同的用户可进行操作的范围不同。系统具有如下主要功能:
1．数据元著录功能: 数据元著录分为三个主要环节:术语条目库建立、数据元生成和数据元属性著录。在具体操作中，用户可直接进入数据元生成环节进行操作，也可以在有完整数据元的情况下直接进行数据元属性著录。
2．数据元查询功能: 可以选择针对数据元、数据元概念、对象类词术语、特性术语、表示术语来进行精确或模糊查询，以及多个查询条件组合的查询。
3．数据元审核与注册功能。
4．数据元目录维护功能。
5．数据元字典维护功能。
（计算机世界报 2006年10月16日第40期 B20）

数据元分析篇3:数据整理分析报告

第四章
调查资料整理与分析
本章结构图
第四章调查资料整理与分析
本章要点：
本章主要介绍市场调查资料的整理与分析方法和市场调查报告的撰写。【典案阅读】
某保险公司对影响保险户开车事故率的因素进行调查，并对
各种因素进行了分析，从表-1可以看出有61%的保险户在开车过程中从未出现过事故。
驾车者的事故率表-1
然后，在性别分析基础上分解这个信息，判断男女之间是否有差别。这就出现了表-2
男女驾车者的事故率表-2
这个表的结果令男士懊恼，因为他们的事故率高。但人们会提出疑问而否定上述判断的正确性，即男士的事故多，是否因为他们驾驶的路程较长。这样就引入第三个因素“驾驶距离”，见表-3
不同驾驶距离下的事故率表-3
此表表明，男驾驶者的高事故率是由于他们的驾驶距离比女驾驶者的长，结果证明事故率只跟驾驶的距离成正比而与驾驶者的性别无关。【教学内容】
第一节市场调查资料的整理【学习目标】知识点：
1、调查资料整理的含义、步骤与内容。 2、市场调查资料整理的基本方法。技能点：
市场调查资料整理的基本方法。
一、资料整理的步骤和内容
资料整理是根据研究目的，运用科学的方法，对调查资料进行审核、分类或分组、汇总，使之系统化和条理化，并以集中、简明的方式反映调查对象总体情况的工作过程。
资料整理对于整个市场调查工作具有非常重要的作用：
1、它是对调查资料的全面检查。查缺补漏，去假存真，去粗取精。保证资料的真实。
2、它是进一步分析研究资料的基础。对资料的分析必须借助完备的系统的资料，因此它是研究阶段的第一步。
3、它是保存资料的客观要求。只有进行整理之后，才能使原始资料具有长期保存的价值。
（一）资料整理的步骤
1、设计和编制资料整理方案。这是保证统计资料的整理有计划、有组织地进行的重要一步。资料的整理往往不是整理一个或两个指标，而是整理多个有联系的指标所组成的指标体系。
2、对原始资料进行审核。资料的审核是第一步，为了保证质量必须进行严格的审核。
3、综合汇总表的项目，对原始资料进行分组、汇总和计算是关键。 4、对整理好的资料在进行一次审核，然后编制成一个统计表，以表示社会经济现象在数量上的联系。
1、资料的审核必须遵守资料整理的一般要求，着重资料的真实性、准确性、完整性。
（1）资料的真实性
调查资料来源的客观性问题，来源必须是客观的。调查资料本身的真实性问题，要辨别出资料的真伪，把那些违背常理的、前后矛盾的资料舍去。
（2）资料的准确性。
准确的审核要着重检查那些含糊不清的、笼笼统统的以及互相矛盾的资料。
（3）资料的完整性。
第一，调查资料总体的完整性。第二，每份调查资料的完整性。 2、审核应注意的问题
在审核中，如发现问题可以分不同的情况予以处理：
（1）对于在调查中已发现并经过认真核实后确认的错误，可以由调查者代为更正。
（2）对于资料中可疑之处或有错误与出入的地方，应进行补充调查。（3）无法进行补充调查的应坚决剔除那些有错误的资料，以保证资料的真实准确。
（二）资料审核的内容
二、资料整理的方法——统计分组法
（一）分组涵义
统计分组，是指根据社会调查的目的和要求，按照一定标志，将所研究的事物或现象区分为不同的类型或组的一种整理资料的方法。
（二）分组的作用
（1）可以找出总体内部各个部分之间的差异。如产业结构划分为第一产业、第二产业、第三产业（甚至第四产业）。不同产业包括的部门是各不相同的。（2）可以深入了解现象总体的内部结构。如
我国三次产业分类的从业人员构成情况单位（%）
思考：说明了什么结构特点
（3）可以显示社会现象之间的依存关系。某地区粮食单位面积产量和施肥量的关系
说明：粮食单位面积产量和施肥量的关系。
（三）分组标志的选择
1、标志含义。标志指反映事物属性或特征的名称。 2、正确分组必须遵守以下原则：
1）根据调查研究的目的和任务选择分组标志。 2）选择能够反映被研究对象本质的标志。 3）应从多角度选择分组标志，并不是唯一性的。 3、分组类型
1）根据分组标志的数量有：简单分组和复合分组两类。
2）根据所使用分组标志的性质有：品质标志分组和数量标志分组。
（四）次数分布
将我系1000名同学按照性别分组，看男性和女性各有多少？比重多少？
如下表：
1、含义
次数分布：是将总体中的所有单位按某个标志分组后，所形成的总体单位数在组之间的分布。分布在各的总体单位数叫次数或频数。各组次数与总次数之比叫做比重、比率或频率。
次数分布实质：是反映统计总体中所有单位在各组的分布状态和分布特征的一个数列，也可以称作次数分配数列，简称分布数列。
2、变量数列的种类及计算（1）单项变量数列
（2）组距变量数列
（五）汇编、制表和绘图
1、汇编，指根据调查研究的目的，将资料中的各部分散的数据会聚起来，
请比较：（1）两表的不同（2）说明应用方向
以集中形式反映调查单位的总体状况及内部数量结构的一项工作。
方法有：手工汇总：点线法、过录法、折叠法和卡片法。
计算机汇总。
2、制表
（1）表的结构、种类。
种类：简单分组表、复合分组表。
制作方法：制作应遵循科学、实用、简练、美观原则。
表4-1
（2）注意以下问题：
1）标题简单明了。
2）表格形式一般是开口式。
3）如表格栏数多，应对栏数加以编号。
4）数字要填写整齐，对准数位。
5
3、绘图
曲线图（见表4-4）、象形图。
4-3）（1
、
第三季度
表4-2 柱行图
表4-3圆形图表4-4曲线图
（2）统计图的作用：
1）表明事物总体结构。
1）表明统计指标不同条件下的对比关系。
2）反映事物发展变化的过程和趋势。
3）说明总体单位按某一标志的分布情况。
4）显示现象之间的相互依存关系。
第二节市场调查资料的分析
【学习目标】
知识点：
1、动态分析的方法。
2、静态分析的方法。
技能点：
综合性市场调查资料分析的能力。
一、静态分析
（一）定性分析
1、定性分析的概念及原则
定性分析是与定量分析相对而言的，它是对不能量化的现象进行系统化理性认识的分析，其方法依据是科学的哲学观点、逻辑判断及推理，其结论是对事物的本质、趋势及规律的性质方面的认识。
定性分析有如下特点：分析的对象是调查资料、分析的直接目的是要证实或证伪研究假设，对市场现象得出理论认识、分析强调纵式关系。
进行定性分析遵循以下原则：
1) 坚持用正确的理论指导。
2) 分析只能以调查资料为基础，并且分析出的结果必须用调查资料来验证。
3) 要从调查资料的全部事实出发，不能简单地从个别事实出发。
2、常用的定性分析方法
（1）归纳分析法
归纳分析法是我们用得最广泛的一种方法，分为完全归纳法和不完全归纳法，后者又分为简单枚举法和科学归纳法。
（2）演绎分析法
在运用演绎分析法时要注意如下问题：
1）分类研究的标准要科学；
2）分类研究的角度应该是多角度、多层次的；
3）对分类研究后的资料还要运用多种逻辑方法揭示其本质，形成理性认识；
4）综合要以分类研究为基础；
5）综合要根据研究对象本身的客观性质，从内在的相互关系中把握其本质和整体特征，而不是将各个部分、方面和因素进行简单相加或形式上的堆砌。
（3）比较分析法
比较分析法是把两个或两类事物的调查资料相对比，从而确定它们之间相同点和不同点的逻辑方法。运用比较分析法时，要注意如下问题：
以在同类对象间进行，也可以在异类对象间进行；要分析可比性；应该是多层次的；
（4）结构分析法
在市场调查的定性分析中，我们通过调查资料，分析某现象的结构及其各组成部分的功能，进而认识这一现象本质的方法，称为结构分析法。
结构分析法要着重分析以下内容：
分析结构、分析内部功能和分析外部功能
（二）定量分析
定量分析是指从事物的数量特征方面入手，运用一定的数据处理技术进行数
量分析，从而挖掘出数量中所包含的事物本身的特性及规律性，从而挖掘出数量中所包含的事物本身的特性的分析方法。定量分析可分为：
·描述性统计分析
描述性统计分析指对被调查总体所有单位的有关数据作搜集、整理和计算综合指标等加工处理，用来描述总体特征的统计分析方法。
市场调查分析中最常用的描述性统计分析，主要包括对调查数据的分组分析、集中趋势分析、离散程度分析和相对程度分析、指数分析。
·解析性统计分析方法
主要方法有：假设检验、方差分析、相关分析
·确定性分析方法―模糊分析
1、相对程度分析
相对程度分析是统计分析的重要方法，是反映现象之间数量关系的重要手段。它通过对比的方法反映现象之间的联系程度，表明现象的发展过程，还可以使那些利用总量指标不能直接对比的现象找到可比的基础，因而在市场调查分析中经常使用。市场调查分析中常用的相对指标，主要有结构相对指标、比较相对指标、比例相对指标和强度相对指标等几种。
结构相对指标是总体各组部分与总体数值对比求得的比重或比率，用来表明总体内部的构成情况。它从静态上反映总体内部构成，揭示事物的本质特征，其动态变化可以反映事物的结构发展变化趋势和规律性。
比较相对指标是指不同总体同类现象指标数值之比。
它表明同类现象在不同空间的数量对比关系，可以说明同类现象在不同地区、单位之间发展的差异程度，通常用倍数（系数）或百分数表示。
社会经济现象总体内各组成部分之间存在着一定的联系，具有一定的比例关系。为了掌握各部分之间数量的联系程度，需要把不同部分进行对比。比例相对指标就是同一总体内不同部分的指标数值对比得到的相对数，它表明总体内各部分的比例关系，如家计调查中的收支比例，国民经济结构中的农、轻、重比例等，通常用百分数表示，也可以用一比几或几比几的形式表示。
在市场调查中，有时要研究不同事物间的联系，如流通费与商品销售额、产值与固定资产等，这就需要通过计算强度相对指标来分析。强度相对指标是两个性质不同而有联系的总量指标对比得到的相对数，它反映现象的强度、密度普通程度。
2、集中与离散分析
（1）数据的集中趋势分析
对调查数据公布的数量规律性中集中特征进行分析，是对被调查总体的特征
进行准确描述的重要前提。数据集中趋分析的对象，包括数据的均值（各类平均数）、中位数和众数。
均值是数据偶然性和随机性的一个特征值，反映了一些数据必然性的特点。平均数一般包括算术平均数、调和平均数和几何平均数三种，其中算术平均数是最简单、最基本的形式，它又视资料分组与否而具有简单算术平均和加权算术平均。
利用均值，可以将处在不同地区、不同单位的某现象进行空间对比分析，以反映一般水平的变化趋势或规律；可以分析现象间的依存关系等等，从而拓宽分析的范围。
众数是总体中出现次数最多单位的标志值，也是测定数据集中趋势的一种方法，克服了平均数指标会受数据中极端值影响的缺陷。从分析的角度看，众数反映了数据中最大多数的数据的代表值，可以使我们在实际工作中抓住事物的主要矛盾，有针对性地解决问题，但若出现了双众数现象，则可能说明调查总体不具有同质性，资料可能来源于两个不同的总体。这类结果既可以用来检查方案设计中的总体一致性问题，也可以用来帮助验证数的数据的可靠与否。
中位数的确定可以以未分组资料为基础，也可由分组资料得到。它同样不受到资料中少数极端值大小的影响。在某些情况下，用中位数反映现象的一般水平比算术平均数更具有代表性，尤其对于两极分化严重的数据，更是如此。
均值，众数和中位数都是反映总体一般水平的平均指标，彼此之间存在着一定的关系，使其各自的涵义不同的调查数据类型，采用不同的指标分析，以期能把被调查总体数据的集中趋势最准确地描述出来。
（2）数据的离散程度分析
对一组数据规律性的研究，集中趋势是数据重要数量特征的一个方面，离散程度则是数据数量特征的另一方面。集中趋势反映的是数据的一般水平，我们用均值等一个数值来代表全部数据。但若要较全面地掌握这组数据的数量规律，还需要计算反映数据差异程度的数值，如极差、平均差、方差和标准差离散系数等。
极差（也称全距）是数据中两个极端值，不能反映蹭数据变化的影响，受极端值的影响较大。一般说，极差越大，平均值的代表性越小。所以，极差可以一般性地检验平均值的代表性大小。
平均差是总体各单位标志值与其算术平均数离差绝对值的算术平均数。平均差与平均数代表性的关系，与极差基本一致。不同的是，平均差的计算由于涉及了总体中的全部数据，因而能更综合地反映总体数据的离散程度。
方差与标准差是幂的关系，前者是后者的平方。标准差的计算公式，也视资料的分组情况而分为简单平均式和加权平均式。
这两个指标均是反映总体中所有单位标志值对平均数的离差关系，是测定数据离散程度最重要的指标，其数值的大小与平均数代表性的大小呈反方向变化。
离散系数是为两组数据间进行比较而设计的；是一组数据标准差与均值相比较而得的相对值。
在不同情况的两组数据间，直接用标准差进行离散程度的比较是不科学的，甚至还会得出相反的结论。
二、动态分析
（一）动态数列的概念
动态，是指现象在时间上的发展变化。把反映某现象的同一指标，在不同时间上的指标数值，按时间(如按年．季、月、日等)先后顺序编排所形成的数列，称为动态数列或时间数列的每一行有序数值，就是一个动态数列，上表共五个动态数列。可见，任何一个动态数列，均由两个基本要素构成：一个是现象所属的时间，另一个是反映现象所属时间的发展水平即统计指标数值，
要研究和分析现象的发展变化，必须编制动态数列，因为动态数列有很大作用，第一，它可以描述被研究现象的发展过程和结果：第二，通过它可分析被研究现象的发展速度，趋势，探索其发展变化的规律性，第三，通过动态数列有关统计数据的计算、研究，对所研究的现象作趋势预测；第四，将不同国家或地区的同类现象的动态数列进行对比，观察其发展变化的数量关系，也可将两个以上相关现象，在同一历史时期的动态数列进行对比，分析其发展变化的协调性。
（二）动态数列的种类
根据统计指标表现的形式不同可分为总量指标动态数列，相对指标动态—数列和平均指标动。态数列三种。其中，总量指标动态数列是基本数列，后两种是派生数列。
1、总量指标动态数列
将现象某一总量指标在不同时间的数值，序时编排所形成的数列，称总量指标动态数列，它反映被研究现象总水平(或规模)的发展过程和结果。例如，表6—1中的“年末职工人数”、“工资总额”和“国有经济单位工资总额”这三个动态数列，均为总量指标动态数列。根据总量指标反映现象的时间状况不同，总量指标动态数列又可分为时期数列和时点数列。
我国近几年来职工人数及工资额的变化（1）时期数列。凡排列在总量指标动态数列中的每个指标数值，均反映现象在一段时期内发展过程的总和，该动态数列称时期数列。例如，表6—1的第二、第三个动态数列是时期数列。时期数列中的每个指标数值，反映现象所在时间的长短，称时期。例如，表6—1第二和第三个动态数列的每个指标数值，均是一年的工资总额。所以，该时期数列的时期是一年。在动态数列中，两个相邻指标值所在时间的距离，称间隔。该工资总额时期数列的间隔也是一年。若将该动态数列中的1995年资料略去，所形成的时期数列，其时期仍为一年，但其间隔就不都是一年了。
2．时点数列。凡排列在总量指标动态数列中的每个指标数值，都反映现象在某一时点上总量的动态数列称时点数列。例如，表6—1中第一个动态数列是时点数列。时点数列没有时期，只有间隔，该时点数列的间隔为一年。同样，若将1995年的资料略去后所形成的时点数列，其间隔并不都是一年，时期数列和时点数列的区别是由这两种动态数列所反映现象的性质和特点决定的，其区别是：
(1)时期数列中的每个指标数值，都是反映现象在一定时期内发展过程的总量；时点数列中的每个指标数值，则是反映现象在某一时点上的总量。
(2)时期数列各期指标数值可以相加，因为相加的结果有实际的意义，时点数列中的各指标数值除非计算过程需要相加外，一般不能相加，因为相加的结果无实际意义。
(3)时期数列小每个指标数值的大小，与时期的长短有关；时点数列中，每个指标数值的大小，与时间的间隔长
4)时期数列的每个指标数值，是跟随现象发展过程作连续登记得到的；时点数列中的每个指标数值，是对现象做一时调查确定的。
2、相对指标动态数列
将现象某—相对指标在不同时间的数值序时编排所形成的数列，称相对指标动态数列，它反映被研究现象数量对比关系的发展变化过程。例如，表6一l中的第四个动态数列，就是一个相对指标动态数列，它反映近几年来各年我国国有经济单位职工工资总额比重的变化过程。相对指标动态数列中的相对数，除上述所举的结构相对数外，也可以是第四章所讲过的其他任何一种相对数，如计划完成相对数、比较相对数，动态相对数和强
度相对数等。相对指标动态数列中的各时间上的数值，是不能相加总的。
3、平均指标动态数列
将现象某一平均指标在不同时间的数值序时编排所形成的数列，称平均指标动态数列。它反映现象平均水平的发展趋势。由于平均指标可分为静态平均数(一般平均数)和动态平均数(序时平均数)，因此，平均指标动态数列亦可分为静态平均数动态数列和序时平均数动态数列两种。
1．静态平均数动态数列。静态平均数是标志总量除以总体总量，它反映总体各单位某一数量标志值，在一定时间上的一般水平。
2．序时平均数动态数列。把反映现象自身在不同时期的若干个序时平均数的数值，按时间顺序编排所形成的动态数列，称序时平均数动态数列。例如，表6—2中的第二个动态数列，它反映该国有商场各月平均售货员人数的变化。序时平均数动态数列中的各期数值直接相加的结果，也是没有独立存在的意义。如果为了进一步计算该序时平均数动态数列的序时平均数，作为一个计算步骤，则是可以的。
4、序时平均数的计算方法
动态数列有三种，各种动态数列的序时平均数的计算方法不尽相同，但根据总量指标动态数列计算序时平均数的方法是基本的，现分别说明如下：
1．总量指标动态数列序时平均数的计算。总量指标动态数列包括时期数列和时点数列，这两种数列序时平均数的计算方法很不一样，亦需分别说明。
(1)时期数列序时平均数的计算。时期数列序时平均数的计算方法比较简单，只需将数列各期水平直接加总除以数列项数即得。
(2)时点数列序时平均数的计算。时点数列序时平均数的计算方法，因掌握资料的情况不同而异。
①在掌握间隔相等连续时点(如每日的时点)资料时。例如，某单位对职工天天都考勤，因而有每日出勤人数，若计算月份的平均
出勤人数，用公式(6—1)计算即得。
②在掌握间隔不等连续时点资料时。有些时点现象的量，不需要经常登记，只在它发生变动时，作变动记录即可。例如，某单位人事部门，对本单位在册职工人数有如下记录：1月1日有职工218人，1月1l日调出18人，1月16日调入6人，1月25日又调入9人，2月5日调出4人。亦即该单位1月1日至1月10日这10天都是218人，1月11日至1月15日这5天都是200人，1月16日至1月24日这9天都是206人，1月25日至1月31日这7天都是215人。问1月份该单位职工平均在册人数是多少?这需要加权平均计算：
③在掌握间隔相等的间断时点资料时。根据我国现行的统计报表制度，对一些重要现象(如银行存款余额、商品库存量(额)、职工人数等)的时点指标，均可从报表中取得其月末数，于是，可编制的间隔相等的时点数列。
（三）指数分析
1、统计指数的概念
统计界认为，统计指数的概念有广义和狭义两种理解。广义指数是泛指社会经济现象数量变动的比较指标，即用来表明同类现象在不同空间、不同时间、实际与计划对比变动情况的相对数。狭义指数仅指反映不能直接相加的复杂社会经济现象在数量上综合变动情况的相对数。例如，要说明一个国家或一个地区商品价格综合变动情况，由于各种商品的经济用途、规格、型号、计量单位等不同，不能直接将各种商品的价格简单对比，而要解决这种复杂经济总体各要素相加问题，就要编制统计指数综合反映它们变动情况。
2、统计指数的分类
统计指数从不同角度可以作如下分类：
(1)按研究范围不同，统计指数可分为个体指数和总指数
1）个体指数，是表明复杂社会经济总体中个别要素变动情况的相对数。例如，某种商品销售量指数、个别商品的价格指数、单个产品的成本指数等都是个体指数。
2）总指数，是表明复杂经济现象中多种要素综合变动情况的相对数。例如，工业生产指数、社会商品零售物价指数、社会商品零售量指数、职工生活费用价格指数等都是总指数。
(2)按编制指数的方法论原理不同，可分为简单指数和加权指数
1）简单指数，是指直接将社会经济现象个别要素的计算期数值与基期数值对比的相对数。
2）加权指数，是由个体指数加权平均或汇总求得的总指数。加权指数是计算总指数广为采用的方法，综合指数也是一种加权指数。
(3)按指数性质不同，可分为数量指标指数和质量指标指数
1）数量指标指数，是用来反映社会经济现象的数量或规模变动方向和程度的指数。例如，职工人数指数、产品产量指数、商品销售量指数等。
2）质量指标指数，是用以反映社会经济现象质量、内涵变动情况的指数。例如，成本指数、物价指数、劳动生产率指数等。
(4)按反映的时态状况不同，分为动态指数和静态指数
1）动态指数，是说明现象在不同时间上发展变化的指数。例如，股票价格指数，社会商品零售价格指数、农副产品产量指数等。
2）静态指数，是反映现象在同时期不同空间对比情况的指数。例如，计划完成情况指数、地区经济综合评价指数等。
3、指数体系和因素分析
（1）指数体系
社会经济现象之间的相互联系、相互影响的关系是客观存在的，有些社会经济现象之间的联系可以用经济方程式表现出来，如：
商品销售额=商品销售量×商品销售价格
生产总成本=产品产量×单位产品成本
上述的这种关系，按指数形式表现时，同样也存在这种对等关系。即: 商品销售额指数＝商品销售量指数×商品销售价格指数
生产总成本指数=产品产量指数×单位产品成本指数
在统计分析中，将一系列相互联系、彼此间在数量上存在推算关系的统计指数所构成的整体称指数体系。
上述指数体系，按编制综合指数的一般原理用公式可写成:
∑p1q1 ∑q1p0 ∑q1p1
×
∑p0q0 ∑q0p0 ∑q1p0
从上面所举的例子中可发现，统计指数体系—般具有两个特征：(1)具备三个或三个以上的指数。(2)体系中的半个指数在数量上能相互推算。如已知销售额指数、销售量指数，则可推算出价格指数;已知价格指数、销售量指数，则可推出销售额指数。(3)现象总变动差额等于各个因素变动差额的和。
(2)因素分析
指数体系是进行因素分析的重要工具。构建指数体系的目的，就是要分析多种因素的变动对社会经济总体变动情况的影响。例如，用指数体系来分析价格、销售量的变动对销售额的影响；分析工资水平、工人结构、工人总数的变动对工资总额的影响等。
1）因素分析的对象是复杂现象。这里所说的复杂现象，是指受多因素影响的现象，它的量表现为若干因素的乘积，其中任一因素的变动都会使总量发生变化。如生产总成本表现为单位产品成本和产量的乘积，单位成本和产量任一发生变化，都会使总成本产生
变动。因素分析的目的就是要测定这些因素的变动对总成本变动的影响方向和影响程度。
2）因素分析中的指数体系以等式的形式表现。编制指数体系的基本思想是：测定一个因素的变动时假定其他因素不变，并以等式来表现体系。例如，将生产
总费用的变动分解为单位产品的材料消耗(单耗)、原材料单价、产量三个因素的影响。因素分析时，是用固定价格、产量来编制单耗指数，用固定单耗、产量来编制价格指数；用固定单耗、价格编制产量指数，从而形成如下以等式形式表现指数体系。
总费用指数=产量指数×单耗指数×单价指数
在因素分析中，所有的指数体系都以等式表现。
3）因素分析的结果有相对数也有绝对数。指数体系的表现形式表明，若干因素指数的乘积等于总变动指数，若干因素的影响差额之和应等于总体变动实际发生的总差额。
三、总量指标的因素分析
(—)两因素分析
总量指标的两因素分析，在指数体系上表现为总变动指数等于两个因素指数的乘积。要保证两个因素指数之积等于被研究现象变动的指数，最关键的是确定同度量因素的时期。一般应遵循的原则是：—个因素指数的同度量因素固定在报告期，则另一个因素指数的同度量因素要固定在基期，即两个指数的同度量因素不能同时固定在报告期或同时固定在基期。下面以实例说明总量指标两因素分析的要领。例如：
商品销售量×商品价格=商品销售额
q·p=pq
在因素分析中，它的指数体系及绝对量的关系为：
∑p1q1 ∑q1p0 ∑q1p1
×
∑p0q0 ∑q0p0 ∑q1p0
∑q1p1 —∑q0p0=（∑q1p0—∑q0p0）+（∑q1p1—∑q1p0）
即：销售额变动指数=各因素指数连乘积
[例7—6] 某省三种出口商品的统计资料如表7—6所示，要求据此分析出口价、出口量的变动对出口额的影响。
这是总量指标的两因素分析，先写出分析的指数体系：
∑q1p1 ∑q1p0 ∑q1p1
———=———×———
∑q0p0 ∑q0p0 ∑q1p0
依指数体系系列计算栏q1p1、q1p0、q0p0 有：
∑q1p1 25 480 000
（1）出口额指数：———=————— =124.96%
∑q0p0 20 390 000
∑q1p1—∑q0p0=25 480 000—20 390 000=5 090 000（美元）
∑q1p0 24 410 000
（2）出口量指数：——— =——————=119.72%
∑q0p0 20 390 000
∑q1p0 —∑q0p0=24 410 000—20 390 000=4 020 000（美元）
∑q1p1 25 480 000
（3）出口价指数：———=——————=104.38%
∑q1p0 24 410 000
∑q1p1 — ∑q1p0=25 480 000 — 24 410 000 = 1 070 000（美元）分析：由于出口价格上升4.38%，出口额增加了107万美元，由于出口量上升19.72%出口额增加了402万美元,两者共同影响,三种商品的出口额上涨了24.96%,即增加509万美元。
（二）多因素分析
总量指标的多因素分析在指数体系上，表现为被研究现象的总变动指数等于三个或三个以上因素指数的乘积。同样，要保证三个或三个以上因素指数之积等于被研究现象变动的指数，最关键的是确定同度量因素的时期。在实际分析时必须注意以下几个问题：
1．多因素分析必须遵循连环代替法的原则。即在分析受多因素影响的事物的发展变化时，要逐项分析，逐项确定同度量因素。当分析第一个因素变动影响后，接着分析第二个因素的影响，然后再分析第三个因素的影响，依次类推。
2．在多因素分析中，为了分析某一因素的影响，要把其余因素固定不变。具体方法是：当分析第一个因素的影响时，把其他所有因素固定不变，把其他所有因素作为同度量因素固定在基期。当分析第二个因素变动的影响时，则把已经分析过的因素固定在报告期，没有分析过的因素仍固定在基期。当分析第三个因素的变动影响时，把分析过的两个因素固定在报告期，没有分析过的因素仍然固定在基期，依次类推。
3．对多因素的排列顺序，要具体分析现象总体的经济内容，使之符合客观事物的联系或逻辑。质量指标因素在后的原则。具体可采用逐项层层分解法来确定。
例如：
产品单位产品原料原材料
原材料费用总额××
生产量消耗量（单耗）单价
qmp=q·m·p
指数体系可写为：
产品单位产品原材料单位原材料
原材料费用总额指数××
产量指数消耗量指数价格指数
∑q1m1p1 ∑q1m0p0 ∑q1m1p0 ∑q1m1p1
××
∑q0m0p0 ∑q0m0p0 ∑q1m0p0 ∑q1m1p0
[例] 假设某厂生产产品的有关资料如表7—7，要求运用指数体系，分析产品产量，单位产品原材料消耗量及单位原材料价格对原材料费用总额的影响。
某厂产品产量及其原材料单耗情况表
依指数体系列计算所示
原材料费用总额因素分析计算表
故有：
（1）产品产量指数
∑q1m0p0 17 000
．18%
∑q0m0p0 19 500
∑q1m0p0 — ∑q0m0p0 ＝17 000—19 500＝-2 500（元）
（2）原材料单耗指数：
∑q1m1p0 15 300
．00%
∑q1m0p0 17 000
∑q1m1p0－∑q1m0p0=15 300-17 000=-1 700（元）
（3）原材料价格指数
∑q1m1p1 14 400
．12%
∑q1m1p0 15 300
∑q1m1p1-∑q1m1p0=14 400-15 300=-900（元）
（4）原材料费用总额指数：
∑q1m1p1 14 400
．85%
∑q0m0p0 19 500
∑q1m1p1-∑q0m0p0=14 400-19 500=-5 100（元）
（5）综合影响：
各因素指数连乘积=原材料费用总指数
87．18%× 90．00%×94．12% = 73．85%
各因素影响绝对额之和=原材料费用减少额
（-2 500）+（-1 700）+（-900）=-5 100（元）
分析，由于生产量减少12．82%，少支出的费用为2 500元；由于单位产品原材料消耗降低10%，少支出费用1 700元；又由于原材料价格下降5．88%，少支出费用900原。三者共同影响，使原材料费用总额下降26．15%，减少5 100元。
此外，还可以分析四因素、五因素等更多的因素，限于篇幅，从略。
第三节市场调查报告的撰写
【学习目标】
知识点：
1、市场调查报告的结构。
2、市场调查报告的撰写步骤。
技能点：
市场调查报告的撰写能力。
一、市场调查报告原则与要求
（一）市场调查报告撰写的原则
1、坚持实事求是的原则
市场调查报告作为调查研究的成果，最基本的特点就是尊重客观实际，用事实说话，而且这些事实的真实的。真正做到实事求是的不容易的，原因在于：①数字不容易搞准确；②人们认识能力有局限性，因而准确的判断不是轻而一举的；③少数人弄虚作假，虚报瞒报，为准确的反映客观事物带来困难。只有深入调查研究力求弄清事实，摸清原因，才能真实地反映事物的本来面目。
2、符合市场规律及各项政策规定的原则。在社会主义市场经济条件下，市场供需活动有其特有的规律性，市场调查报告应该反映市场的规律。
（二）市场调查报告撰写的要求
1、以调查资料为依据，做到调查资料与观点相统一
市场调查报告的独特风格就是以调查资料为依据，而资料中数据资料显得优为重要，数据资料具有很强的概括力和表现力。用数据证明事实的真相往往比长篇大论更能使人信服。在市场调查中，常常会碰到有的问题、观点，用很多叙述都难以表达清楚，而用一个数字、一个百分比，往往使事物的全貌一目了然。但运用数据要适当，过少不能说明问题，使调查报告，空洞无物，失去特色；过多地堆砌数字又太繁琐，反而使人眼花缭乱，不得要领。所以，恰当地运用调查数据，可以增加调查报告的科学性。准确性和说服力。
一篇好的市场调查报告，必须有数字，有情况，有分析，既要有用资料说明观点，又要有用观点统帅资料，二者应紧密结合，相互统一。通过定性分析与定量分析的有效结合，达到透过现象看本质的目的，从而究竟市场活动的发展、变化过程及其规律性。
2、表达意思要准确
准确性是市场调查报告的生命。准确性包括数字要准确，情况要真实，观点要恰当三个方面，只有掌握了准确的资料，才能做出正确的判断和结论。
二、市场调查报告的格式与内容
（一）市场调查报告的格式
市场调查报告的格式一般是由：题目、目录、概要、正文、结论和建议、附件等几部分组成。
1、题目
题目包括时市场调查题目、报告日期、委托方、调查方，一般应打印在扉页上。
关于题目，一般是通过标题把被调查单位、调查内容明确而具体地表示出来，如《关于北京市居民收支、消费及储蓄情况调查》。有的调查报告还采用正、副标题形式，一般正标题表达调查的主题，副标题则具体表明调查的单位和问题。如《“上帝”眼中的《北京青年报》——《北京青年报》读者调查总体研究报告》。
2、目录
提交调查报告，如果调查报告的内容、页数较多，为了方便读者阅读，应当使用目录或索引形式列出报告所分的主要章节和附录，并注明标题、有关章节号码及页码，一般来说，目录的篇幅不宜超过一页。例如：
目录
一、调查调查与组织实施································1
二、调查对象构成情况简介······························8
三、调查的主要统计结果简介···························14
四、综合分析·········································20
五、数据资料汇总表···································28
六、附录·············································29
3、概要
概要主要阐述课题的基本情况，它是按照市场调查课题的顺序将问题展开，并阐述对调查的原始资料进行选择、评价、作出结论、提出建议的原则等。主要包括四方面内容：
第一，简要说明调查目的。即简要地说明调查的由来和委托调查的原因。第二，介绍调查对象和调查内容，包括调查时间、地点、对象、范围、调查要点及所要解答的问题。
第三，简要介绍调查研究的方法。例如，某调查工作技术报告“执行情况”
部分如下：
本次抽样采用二阶段抽样方法，根据第四次人口普查数据，在第一阶段中使用PPS抽样方法从××地区随机抽出20个居民会，第二阶段从每个居委会中使用SRS方法随机抽出50个居民户。抽样置信度5%。
抽样及入户调查由国际公认的调查网认证通过。
问卷设计与后期数据处理及技术分析报告由××××技术公司完成。抽样与入户调查由×××××城调查队负责完成。调查进行日期从199×年×月×日至×日。
问卷设计为封闭式，工81个问题。入户调查采用调查员询问代填方式。问卷总数1001份收回997份。
抽样基本情况：
抽样的男女比例与总体一致，年龄分布呈正态分布；被调查所占比例最多的行业为国营企业、事业单位以及政府机关；所有的被调查者中有84.45%的享受公费医疗；被调查者中39%的人收入在200元至400元之间，45%的人收入在400元至800元之间，文化程度大专以上文凭有关。79.7%的人均已婚并有小孩。
4、正文
正文是市场调查分析报告的主要部分。正文部分必须准确阐明全部有关论据，包括问题的提出到引出的结论，论证的全部过程，分析研究问题的方法。还应当有可供市场活动的决策者进行独立思考的全部调查结果和必要的市场信息，以及对这些情况和内容的分析、评论。
5、结论和建议
结论和建议是撰写综合的分析报告的主要目的。这部分包括对引言和正文部分所提出的主要内容的总结，提出如何利用已证明和正文部分所提出的主要内容的总结，提出如何利用已证明为有效的措施和解决某一具体问题可供选择的方案与建议。结论和建议与正文部分的论述要紧密对应，不可以提出无论据的结论，也不要没有结论性意见的论证。
6、附件
附件是指调查报告正文包含不了或没有提及，但与正文有关必须附加说明的部分。它是对正文报告的补充或更详尽说明。
（二）市场调查报告的内容与撰写步骤
1、市场调查报告的内容
第一，说明调查目的及所要解决的问题。
第二，介绍市场北京资料。
第三，分析的方法。
第四，调研数据。
第五，提出论点。即摆出自己的观点和看法。
第六，论证所提观点的基本理由。
第七，提出解决问题可供选择的建议、方案和步骤。
第八，预测可能遇到的风险、对策。
2、市场调查报告撰写的步骤
（1）构思
1）构思是根据思维运动的基本规律，从感性认识上升到理性认识的过程。通过收集到的资料，认识客观事物。通过收集到的资料，即调查中获得的实际数据资料及各方面背景材料，初步认识客观事物。
2)确立主题思想。在认识客观事物的基础上，确立主题思想。
3)确立观点，列出论点、论据。确定主题后，对收集到的大量资料，经过分析研究，逐渐消化、吸收，形成概念，再通过判断、推理，把感性认识提高到理性认识。然后列出论点、论据，的出结论。
在做出结论时，应注意以下几个问题：①一切有关实际情况及调查资料是否考虑了；②是否有相反结论足以说明调查事实；③立场是否公正客观，前后一致。
4)安排文章层次结构。在完成上述几步后，构思基本上就有个框架了。在此基础上，考虑文章正文的大致结构与内容，安排文章层次段落。层次一般分为三层，即：①基本情况介绍；②综合分析；③结论与建议。
（2）取数据资料
市场调查报告的撰写必须根据数据资料进行分析。即介绍情况要有数据作依
据，反映问题要用数据做定量分析，提建议、措施同样要用数据来论证其可行性与效益。
选取数据资料后，还要运用得法，运用资料的过程就是一个用资料说明观点、揭示主题的过程，在写作时，要努力做到用资料说明观点，用观点论证主题，详略得当，主次分明，使观点与数据资料协调统一，以便更好地突出主题。（3）撰写初稿
根据撰写提纲的要求，由单独一人或数人分工负责撰写，各部分的协作格式、文字数量、图表和数据要协调，统一控制。（4）定稿
写出初稿，征得各方意见进行修改后，就可以定稿。定稿阶段，一定要坚持对事客观、服从真理、不屈服于权利和金钱的态度，使最终报告较完善、较准确地反映市场活动的客观规律。
三、市场调查报告的撰写形式与技巧
（一）形式 1、标题的形式
标题是画龙点睛之笔。它必须准确揭示调查报告的主题思想，做到题文相符。标题要简单明了，高度概括，具有较强的吸引力。
标题的形式有三种：
（1）、“直叙式”的标题。是反映调查意向或只透出调查地点、调查项目的标题。例如：〈××市居民住宅消费需求调查〉等。
（2）、“表明观点式”的标题，是直接阐明作者的观点、看法，或对事物的判断、评价的标题。如：〈对当前巨额结余购买力不可忽视〉等调查报告的标题。
（3）、“提出问题式”的标题。是以设问、反问等形式，突出问题的焦点和尖锐性，吸引读者阅读，促使读者思考。如：〈××牌产品为什么滞销？〉等形式的标题。
以上几种标题的形式各有所长，特别是第二、三种形式的标题，它们既表明了作者的态度，又揭示了主题，具有很强的吸引力。但从标题上不易看出调查的范围和调查对象。因此，这种形式的标题又可分为正标题和副标题，并分作两行表示，如：
××牌产品为什么滞销
——对××牌产品的销售情况的调查分析
女人生来爱逛街
——京城女士购物消费抽样调查报告
2、开头部分的形式
“万事开头难”，好的开头，既可使分析报告顺利展开，又能吸引读者。开头的形式一般有以下几种：
（1）开门见山，揭示主题。文章开始先交代调查的目的或动机，揭示主题。例如：“我公司受北京××电视机厂的委托，对消费者进行一项有关电视机的市场调查，预测未来几年大众对电视机的需求量及需求的种类，使××电视机厂能根据市场需求即使调整其产量及种类，确定今后发展方向。
（2）结论先行，逐步论证。是先将调查结论写出来，然后再逐步论证。例如“××牌收机是一种高档收款机，通过对××牌收银机在京各商业部门的拥有、使用情况的调查，我们认为它在北京不具有市场竞争能力，原因主要从以下几个方面阐述??。”
(3)交代情况，逐层分析。可先介绍背景情况、调查数据，然后逐层分析，得出结论。也可先交代调查时间、地点、范围等情况，然后分析。
例如〈关于香皂的购买习惯与使用情况的调查报告〉的开头：“本次关于对香皂的购买习惯和使用情况的调查，调查对象主要集中于中青年，其中青年（20岁—35岁）占55%，中年（36岁—50岁）占25%，老年51岁以上占20%；女性为70%，男性30%……。”
(4)提出问题，引入正题。例如〈关于方便面市场调查的分析报告〉中的开头部分：“从去年下半年开始，随着台湾康师傅方便面的上市，各种合资的、国产的方便面如统一、营多、一品、加洲等牌号似雨后春笋般的涌现，面对种类放对的竞争中立于不败之地？带着这些问题，我们对北京市部分消费者和销售单位进行了有关调查。” 3、论述部分的形式
论述部分是调查报告的核心部分，它决定着整个调查报告质量的高低和作用的大小。这一部分着重通过调查了解到的事实分析说明被调查对象的发生、发展和变化过程，调查的结果及存在的问题，提出具体的意见和建议。
由于论述一般涉及内容很多，文字较长，有时也可以用概括性或提示性的小标题，突出文章的中心思想。论述部分的结构安排是否恰当，直接影响着分析报告的质量。论述部分主要分为基本情况部分和分析部分两部分内容。
（1）基本情况部分。主要有三种方法：第一，是先对调查数据资料及背景资料做客观的说明，然后在分析部分阐述情况的看法、观点或分析；第二，首先提出问题，提出问题的目的是要分析问题，找出解决问题的办法；第三，先肯定事物的一面，由肯定的一面引申出分析部分，又由分析部分因出结论，循序渐进。
（2）分析部分。分析部分是调查报告的主要组成部分。在这个阶段，要对资料进行质和量的分析，通过分析，了解情况，说明问题和解决问题。分析有三
类情况：第一类原因分析。是对出现问题的基本成因进行分析，如对××牌产品滞销原因分析，就属于这类。第二类，利弊分析。是对事物在市场活动中所处的地位，起到的作用进行利弊分析等。第三类，预测分析。是对事物的发展趋势和发展规律做出的分心，如对××市居民住宅需求意向的调查，通过居民家庭人口情况、住房现有状况、收入情况、及居民对储蓄的认识，对分期付款购房的想法等，对××市居民住房需求意向进行预测。
此外，论述部分的层次段落一般有4种形式：①层层深入形式，各层意思之间是一层深入一层，层层剖析；②先后顺序形式，按事物发展的先后顺序安排层次，各层意思之间有密切联系；③综合展开形式，先说明总的情况，然后分段展开，或先分段展开，然后综合说明，展开部分之和为综合部分；④并列形式，各层意思之间是并列关系。
总之，论述部分的层次是调查报告的骨架，它在调查报告中起着重要作用，撰写市场调查报告时应注意结合主题的需要，采取什么写法，应该充分表现主题。 4、结尾部分的形式
结尾部分是调查报告的结束语，好的结尾，可使读者明确题旨，加深认识，启发读者思考和联想。结尾一般有三种形式：
（1）概括全文。经过层层剖析后，综合说明调查报告的主要观点，深入文章的主题。
（2）形成结论。在对真实资料进行深入细致的科学分析的基础上，得出报告结论。
（3）基础看法和建议。通过分析，形成对事物的看法，在此基础上，提出建议和可行性方案。提出的建议必须能确实掌握企业状况及市场变化，使建议有付诸实行的可能性。
（4）展望未来，说明意义。通过调查分析展望未来前景。（二）撰写报告的语言
调查报告是用书面形式表达的语言，提高语言表达能力，是写好调查报告的重要条件之一。有了丰富的资料，深刻的感受，而写作不能得心应手，辞不达意，则会使整个调查研究工作功亏一篑，前功尽弃。报告的语言要逻辑严谨、数据准确、文风质朴、简洁生动、通俗易懂、用词恰当，并且善于使用表格、图示表达意图，避免文字上的累赘。（三）撰写报告应注意的问题 1、切忌将分析工作简单化
即资料数据罗列堆砌，只停留在表面文章上，根据资料就事论事，简单介绍式的分析多，深入细致的分析及观点少，无结论和建议，整个调查报告的系统性
很差，使分析报告的价值不大。只有重点突出，才能使人看后得到深刻的印象。
2、切忌面面俱到、事事俱细地进行分析
把收集来的各种资料无论是否反映主题，全都面面俱到，事事俱细地进行分析，使读者感到杂乱无章，读后不知所云。一篇调查报告自有它的重点和中心，在对情况有了全面了解之后，经过全面系统的构思，应能有详有略，抓住主题，深入分析。
3、报告长短根据内容确定
确定调查报告的长短，要根据调查目的和调查报告的内容而定，对调查报告的篇幅，做到宜长则长，宜短则短，尽量做到长中求短，力求写到短小精悍。
【小结】
【思考与训练】
1、市场调查资料整理的内容？ 2、市场调查资料整理的原则？ 3、市场调查资料整理时注意的问题？
4、市场调查资料整理的方法？ 5、市场调查资料分析的方法？
6、在进行市场调查资料分析时应注意的问题？ 7、市场调查报告撰写的内容？
8、在校内进行一次大学生消费状况调查，并写出调查报告 9、在撰写市场调查报告时应注意那些问题？【典案应用】
1、某糖酒公司经营5种品牌的白酒（用A、B、C、D、E代表），这五种白酒各有特色。但市场销售中A、B有些滞销，积压量大，而C、D是平销，E是畅销，库存量较少。为进一步研究市场需求，加快企业资金周转，调节市场供应，决定对商品的价格进行调整，调低A、B两种白酒的价格，适当提高C、D、E的价格。为获得良好的市场销售结果，调价过程中进行实验。调价前先分别测定5种品牌白酒的销售数量及市场占有率，然后再调整价格进行销售。实验一个月后，再测量5种品牌白酒的商品销售量及其构成。这样来观察判断商品调价后的市场需求情况和销售趋势。经实验调查调查测定，实验前后数据如下表：
白酒调价前后实验汇总表
要求用所学的市场调查资料的整理分析方法对以上资料进行分析。
2、以下是杭州市饮料市场连续两年的调查资料，请根据所给资料对杭州市饮料市场进行定性分析。
1992年杭州市饮料统计数
1993年杭州市饮料统计数

本文来源：https://www.shanpow.com/news/401435/

《数据元分析.doc》

将本文的Word文档下载到电脑，方便收藏和打印

推荐度：

点击下载文档

文档为doc格式