Maxdiff系列（六）MaxDiff的数据分析（用Excel进行logit分析）

最近10年来，Maxdiff在解决多个对象的偏好测量上被应用到越来越多的领域里，但是国内关于Maxdiff数据具体应该如何分析的介绍很少。尽管本系列曾经就Maxdiff的分析做了一些简单的介绍(参见《Maxdiff系列(五)Maxdiff的数据分析》)，但主要是从频数分析角度出发简单介绍其分析思想。

目前Maxdiff的主流分析模型是逻辑模型(Logit model)的以及基于此模型的分层贝叶斯估算（Hierarchical Bayesian Estimation）方法。其中Logit model是核心模型。我们就先从Logitmodel的分析开始，看看它是如何用来估算Maxdiff中各个对象的偏好效用值。至于分层贝叶斯算法，我们会在以后的系列文章中进行介绍。

为什么要使用logit model，这是因为Maxdiff记录的是消费者在面对不同对象集合时的选择（Choice）。从模型的角度看，消费者的选择是因变量Y，他所面对的对象集合是自变量X。而消费者的选择（Y）是一个离散型变量（要么选中，要么不选中），而非连续型数据（偏好打分）。这时，我们的因变量实际上具有一种概率意义，只不过我们收集到的样本数据并不是如同概率那样可以在0-1的区间里任意取值，而是只能为0或1。

更准确地说，对于Maxdiff，我们通常采用的是条件逻辑模型（conditional logit model）。之所以使用条件逻辑模型，是因为MaxDiff本身的特性：通过观察消费者在给定不同备选对象时的权衡取舍（trade-off），进而估算对象之间的相对偏好程度。

我们还是从一个简单的例子出发来看看具体应该怎样一步步的建模和分析。假设我们要评测8个对象，每个受访者要做6道MaxDiff的题目（任务），每个题目中出现4个对象，每个任务里出现的对象如下图所示。

现在假设这个受访者在任务1的4个对象中最喜欢3号对象，最不喜欢8号对象。那么我们收集到的回答数据就是这样。

如果我们把这个受访者在所有6个任务的回答都排列在一起，那么数据就是下面这种形式。

当然，上面这种数据还不能直接进行分析，必须进行进一步的编码。这里插一句，在数据分析中，编码（coding）是相当重要的环节。大家通常对各种酷炫的统计和数学模型感兴趣，但是却往往忽视了编码的重要性，以至于真实数据到手后不知道如何整理成软件或程序可以处理的样子。

精彩全文请点击：Maxdiff系列（六）MaxDiff的数据分析（用Excel进行logit分析）