以客户需求为中心的市场竞争要求企业对客户需求快速响应,并将其准确反映到产品中[1],因此于客户需求模型(customer needs model,CNM)的研究具有十分重要的意义。
一般而言,客户需求的研究分为需求获取和需求分析两个部分。传统产品设计过程中,通常采用结构化问卷、专家采访等方式获取用户需求,存在效率低下、人工干预度高、结果完备性差等问题。随着数据科学范式的发展,大数据驱动的智能制造科学范式与方法体系正在生成[2]。数据驱动的研究方法充分发挥了计算机算力与人工智能的算法优势,在效率与客观性方面可以有效弥补传统研究方法的不足。
在客户需求获取方面,基于产品评论的观点挖掘是该领域的热点。观点挖掘是指对文本中涉及的不同主题的意见、情绪和态度进行检测、提取和分类[3]。大部分观点挖掘方法是基于特征的,即提取关于产品特征的词语、表达以及针对这些特征的观点词[4]。涂海丽等[5]采用LDA聚类方法挖掘用户关注的主题属性以及情感。LIN等[6]在LDA方法的基础上提出JST模型,提高了文本情感分类的精度。熊蜀峰等[7]提出的一个短文本情感主题模型可同时提取商品评论文本中的主题与情感。程惠华等[8]提出了半监督的递归自编码深度模型和灰色预测模型,以进行用户满意度挖掘。吕品等[9]针对产品评论提出一种基于灰色理论的用户满意度评价方法。IRELAND等[10]运用“特征-情感”词对以及朴素贝叶斯原理识别一系列客户需求。JIN等[11]通过WordNet、情感分析、卡尔曼滤波等技术分析了产品评论中的客户关注特征与情感。ZHANG等[12]提出了一种基于Word2Vec和SVM的情绪分类法,在产品评论的分析中取得了良好的效果。
上述研究本质上是通过评论数据挖掘客户对产品的观点,而特征词的提取是观点挖掘的前提与基础工作[13]。目前,基于词典的规则匹配方法是特征提取的最有效手段之一,被业界普遍采用[14]。ALENZI等[15]将情感词典应用于电影剧本,进行电影的暴力信息检测。LIU等[16]利用位置嵌入生成医学领域的情感词典,并以此对药品评论数据集进行情绪分类。郁圣卫等[17]采用领域情感词典进行特征表示,进行细粒度的情感挖掘。
在客户需求分析领域,对获取到的非结构化的客户需求进行结构化建模和权重分配是关注的重点[18]。一些学者通常采用的方法包括灰层次分析法[19]、灰色预测模型[20]、粗数理论[21]、Kano[22]模型等,其中Kano模型是一种广泛应用的客户需求分析工具。WU等[23]为分析客户需求提出了一种连续的Kano模型来分析客户需求,针对客户需求的不精确性,提出了改进的模糊Kano问卷。CHAUDHA等[24]基于QFD和Kano分析提出计算属性重要度的函数。LEE等[25]提出模糊问卷的方法对Kano二维问卷主观性进行修正。孙圆圆等[26]提出了基于Kano-QFD的产品属性重要度确定方法。白涛等[22]提出一种基于模糊Kano模型的顾客需求分类和重要度计算方法。
上述对客户需求模型的研究具有很好的借鉴意义,但在基于评论数据构建进行客户需求建模时仍存在以下不足:
(1)运用主题聚类方法需要对主题数目有良好的预先估计。设置不同的主题数目,聚类结果的差异较大,难以保证所挖掘到需求的全面性与稳定性。
(2)现有产品评论研究关注用户情感的分析,通过分析情感倾向为产品设计提供改良建议。而在客户需求研究中,客户对产品性能的评价,无论其情感倾向如何,只要其在客户群体中具备一定的代表性,这类客户观点是不能忽略的。
(3)目前基于评论数据进行的客户需求研究中缺乏需求分析过程,而现有客户需求分析方法并不是完全数据驱动的,依赖于客户问卷调查或专家评分等主观手段获得原始数据,效率低、主观性强。
鉴于以上问题,本文对客户需求模型进行了研究,期望提出一种评论数据驱动下的客户需求建模方法,利用大数据工具解决当前客户需求获取与分析过程中的问题。本文的主要研究思路如下:
(1)提出产品性能词典(product performance lexicon,PPL)用于客户需求挖掘。客户需求是客户对广义的产品性能(包含产品结构、服务、功能等)的要求,本文受情感词典启发,利用产品领域知识建立特征词与产品性能之间的映射关系,从而可以识别评论文本中评价的产品性能。以产品性能作为需求获取的主题可以解决主题聚类方法中主题数目不易确定的困难。此外,本文对TF-IDF法进行了改进,作为高效创建PPL的工具。
(2)提出基于产品评论数据的Kano分析方法(product review based Kano analysis method,PR-Kano)用于客户需求分析。通过研究产品评论与Kano模型之间的关系,利用评论大数据分析代替Kano问卷、专家评分等主观过程,提高效率与客观程度。
(3)综合以上两点,结合对产品评论文本的分析,本文提出评论数据驱动的客户需求建模流程,引入物元模型实现了客户需求的量化表达。
客户需求是指客户域中一个解决方案未定的表述,用以表达客户考虑事项的关键基本特征,一般而言就是客户对产品功能、性能、外观、价格等特征的要求[27]。客户需求模型是指产品设计中需求域信息的表达方式,包含客户需求、需求属性、需求间的结构关系以及需求重要度等信息。客户需求模型主要解决客户需求的量化问题和面向大批量定制的市场细分问题[28],在产品族开发中,设计者通过对客户需求模型的转化,完成产品功能的定义。客户需求模型的构建过程包括客户需求的获取(需求挖掘)与分析两部分。
本文通过分析评论文本的特点,提出基于产品性能词典的客户需求挖掘方法对现有研究进行了改进,并加入了基于产品评论数据的Kano分析方法,形成了图1所示的客户需求建模流程,主要包括产品评论分析、产品性能词典创建、客户需求挖掘与分析3个模块,其中,灰色背景部分为重点环节,虚线代表工具的使用,实线表示流程顺序或组成关系。第一个模块完成数据采集与处理工作;第二个模块通过改进的TF-IDF算法提取评论数据集中描述产品性能的特征词,用以结合产品领域知识建立产品性能词典;第三个模块首先利用PPL进行客户需求挖掘,然后利用PR-Kano方法对所得需求进行分析。最终整合以上步骤结果,得到基于物元模型表示的客户需求模型。
图1 评论数据驱动客户需求建模流程
Fig.1 Review data driven customer need modeling process
首先建立本地数据库,借助于网络爬虫技术,从在线购物平台中抓取与目标产品相关的评论文本,形成原始评论数据库,经过数据预处理得到可用评论数据集E。
在评论文本中,客户需求被表达为客户对产品性能的评价。如手机的产品评论“手机的电池续航时间太短了”,“电池续航”是一种产品性能,观点为“续航时间短”,从中可以得出客户需求为“电池续航时间长”。所以客户需求N可以表示为<产品性能,客户观点>二元组:
N = <P,GP>
(1)
其中,P为产品性能,GP为关于P的具有代表性的客户观点,由于客户群体的多样性,GP通常包含多条观点。
同一款产品,其性能(P)的类别是有限的,但表达同一性能的特征词汇(F)是不唯一的,而关于产品性能观点词(V)则更加多样化,即在数量上V>F>P。对于一条原始产品评论r,能够直接得到F和V,因此r可表示为
r=<F1,VF1; F2, VF2; …>
基于评论数据的客户需求建模过程也就是对评论文本中特征词、观点词进行识别、统计、分析与转化的过程。
产品性能词典是产品评论中出现的特征词及其结构关系的集合。提出产品性能词典的目的是基于特征词库来快速匹配识别文本中的特征词,同时利用词典映射关系识别特征词所描述的产品性能,因此产品性能词典首先从产品设计知识库中获取到产品性能信息,然后建立特征词与产品性能的映射关系(图2)。
图2 产品性能词典中的映射关系
Fig.2 Mapping in the PPL
研究产品组成部分之间的关系,可将产品逐级分解为不同系统模块下的不同性能(图2),因此本文按照“产品—模块—性能”3个层次设计产品性能词典,将每个来自评论文本的特征词与产品性能之间建立一一映射,划分到不同模块。
在可拓理论中,物元是系统组成的基本逻辑单元,由有序三元组R=(A,c,v)表示,其中,A表示描述对象,c为特征项,v为特征量值。n维的物元表示为[29]
(2)
物元表示法为事物描述提供了量化表达工具,因此本文产品性能词典采用n维物元模型进行表达,由式(2)有
(3)
其中,产品性能词典PPL由n个系统模块(Mi)构成,si为每个模块中包含产品性能的数量。每个Mi可按产品性能组成表示为
(4)
其中,Pi=[Pi1 Pi2 … Pim]T为构成系统模块Mi的一组产品性能特征,Fi1=[Fi1 Fi2 … {Fim]T为与Pi相对应的特征词的集合。
式(3)与式(4)给出了产品性能词典的形式化定义。本文通过提出产品性能词典来保证客户需求建模效果,主要依据如下:
首先,式(4)建立了“特征词—产品性能”映射关系,将文本中包含的特征词对应到不同产品特征下,相当于对特征词进行了一次聚类。由于构成产品的性能本身是一个确定的有限集,所以聚类结果是稳定的,基于产品性能词典进行需求挖掘,可获得每个性能对应的需求,所以挖掘结果是全面的。
其次,“特征词—产品性能”映射使得产品性能词典的收录词范围细化,与情感词典相比,产品性能词典收录的词汇量减少、领域专一,因而在基于规则进行匹配时,效率更高,确定对象产品后,可以更准确识领域相关特征词,过滤掉其他干扰词。
最后,式(3)与式(4)定义了产品性能词典的“产品—模块—性能”三级结构,根据产品设计知识,可以在定义产品性能词典时,最大限度保证模块与模块之间、性能与性能之间的独立性,从而降低所得需求之间的耦合程度。另外,结构化的产品性能词典亦是结构化客户需求的保证。
在特定产品的评论中,客户评论对象是有限的,因此用于描述评论对象的特征词会多次出现在不同评论中,词频-逆文档词频(TF-IDF)方法在提取这类特征词时具有不错的效果,因此本文针采用基于TF-IDF算法的无监督产品性能词典构建方法,提高效率。
TF-IDF方法用于估计词语对文档文本的重要程度。TF(term frequency)表示词在文档中出现的词频,IDF(inverse document frequency)用于评价词语对语料库的普遍性,TD-IDF值VTD-IDF等于TF值VTF与IDF值VIDF的乘积[30],TF值表示式为
(5)
式中,nij为词i在文档j中出现的次数;Nj为文档j的总词数。
IDF值表达式为
式中,|D|为语料库中文档总数;|Di|为包含词汇i的文档数。
则TF-IDF值为
VTD-IDFij=VTFijVIDFi
(6)
一个词的TF-IDF值越高,代表该词在当前文档中的频域越高,在语料库中的普遍性越低,因此倾向于筛选出在部分文档中频率较高的词的同时过滤掉常见的非特征高频词。
TF-IDF技术常用于提取文本关键词。但提取评论短文本的关键词时,由于文本较短,关键词稀少,直接应用效果不佳,因此本文结合产品评论特点对其进行了以下改进。
(1)改进一,短文本组合。在同一产品的评论中,客户关注点存在共性,所以同一特征词或观点词会在不同用户的评论中多次出现,而非特征词、非观点词则不具备这种性质。本文采用随机有放回抽样的方法,随机从评论数据集E中抽取n条评论,组成长文本S。与一条评论相比,在S中,真正关键词的词频增加幅度大于干扰词,所以其TF值更高。同时采用预训练的外部IDF值(常量),使得真正关键词的TF-IDF值高于干扰词。
(2)改进二,不相关词“降频”。产品性能词典收录的词是描述产品性能的特征词,而在评论中经常出现的情感词、程度副词、主张词、观点词很难代表产品性能,但是由于其词频较高,会产生很大噪声,为此需要对其进行“降频”处理。以收录了常用的情感词、程度副词、主张词、观点词的情感词典为依据,改进式(5):
(7)
式中,w为降频因子,0<w<1,用于降低情感词典收录词汇的TF值。
(3)改进三,停用词典动态扩充。产品性能词典创建时,需要多次从E中抽取评论,已提取的特征词在新一轮的提取过程中就成为了干扰词,在产品性能词典建立的过程中,动态地将新提取到的关键词加入停用词词典,使未提取的特征词(即未登录词)被选中的概率增大。
图 3 产品性能词典创建流程
Fig.3 Creation process of PPL
基于以上研究,给出图3所示的产品性能词典创建流程。通过设置TF-IDF阈值t,每次循环将TF-IDF值大于t的关键词输出,将其中属于描述产品性能的特征词的词加入到产品性能词典中。利用循环重复进行关键词提取,直到抽取到的关键词TF-IDF值都小于阈值t,表示评论文本中含有未登录词的概率已足够低,循环结束。对得到的关键词进行判断,如果是产品特征词,则结合产品组成关系信息将其加入到产品性能词典对应的性能下,最终输出产品性能词典。整个过程不需要人工标记大量数据,因此可以提高产品性能词典的建立效率。
产品性能词典创建时完成了产品性能P的获取,确定了需求的数量,本节研究客户观点GP的挖掘。分析产品评论表达,在一条评论中,客户观点与评价对象以较大概率同时出现在一个句子中,且具有代表性的客户观点会在不同语句中多次出现,即观点词与其特征词词距较近且共现频率较高。
Word2Vec是自然语言处理领域的一种词向量表示工具,通过对语料库中文本的训练,可以将词汇转化为词向量,且相似度越大的词汇之间的余弦距离越小。在Word2Vec中,词语之间的相似度是根据词汇之间的上下文共现关系以及共现频率得出的,词汇间距离越近、共现频率越多,其相似度也越大。因此,可以采用Word2Vec方法进行观点词获取。以产品特征词典中收录的特征词为锚点,通过Word2Vec计算出与特征词相似度大的词汇,这类词汇由于其与特征词词距较近,且频率较高,所以更有可能是具有代表性的客户观点词;而与特征词相似度较低的词,则与特征词词距较远或者共现次数少,词距较远则该词用于评价当前特征词的概率很低,共现次数少则说明该观点在客户群体中不具备代表性。
基于以上分析,给出如下客户需求挖掘步骤:
(1)评论文本分句、分词。
(2)迭代训练Word2Vec神经网络,得到词向量。
(3)设置相似度阈值ε,对于每个特征词,选取相似度大于ε的词作为候选观点词。
(4)对于产品性能词典中每个性能单元P,计算P中每个特征词的候选观点词,组成观点词集。
(5)分析每个性能对应的观点词集,得到用户观点GP,组成客户需求<P, GP>二元组。
(6)计算需求关注度。需求Ni=<Pi,GPi>的关注度计算公式为
(8)
其中,Ni代表需求i,|E|为评论集合E中总评论数,kij为需求Ni在第j条评论中出现的次数,kij的统计基于产品性能词典实现,由产品性能词典映射关系识别评论中的Pi,从而识别出Ni。
4.2.1需求的Kano属性与需求在评论中分布的关系
针对客户需求与用户满意度之间的关系,Kano模型认为不同类型的需求对客户满意度的影响存在差异。在工程应用中,一般将客户需求划分为兴奋型需求、期望型需求与基本型需求,如图4所示,根据需求被满足程度与客户满意度之间的关系,3种需求分别对应3条特性曲线。在产品评论中,顾客的满意度可以大致划分为满意、一般、不满意3类,表现为好评、中评、差评3种评价类别,对应图4中由虚线隔开的3个区域。
图4 Kano模型
Fig.4 Kano model
依据图4,表1给出了不同类型需求的特点与分布情况。从产品评论角度分析,好评代表用户对产品总体满意度最大,而兴奋型需求与期望型需求对总体满意度提升起主要作用,所以这两种类型的需求在好评中出现概率大,而基本型需求得到满足时并不会使客户感到满意,所以在好评中出现最少。同理可以分析在差评中,基本型需求与期望型需求会出现较多,而兴奋型需求出现最少。
4.2.2 基于评论数据的Kano分析法
基于表1中3种Kano需求类型与评论之间的对应关系,本文在模糊Kano模型的基础上提出基于评论数据的Kano分析法(PR-Kano),基于需求在好评、中评、差评数据集中出现概率的差异推断需求的Kano属性,引入隶属度函数,实现需求的重要度排序。具体步骤如下。
表1 Kano需求在好评、中评、差评中的分布
Tab.1 Distribution of Kano needs in the good,
medium and poor rating reviews
Kano需求类型需求与满意度关系需求在3种评论中的分布兴奋型需求随着满足程度的增加,客户满意度会急剧上升,但是该类型即使表现不完善,客户也不会因此而不满这类需求会较多体现在好评之中,而在差评中的出现概率则会明显降低期望型需求客户满意度与需求被满足程度成正比,此类需求的满意度会因产品对需求满足程度不同而在较大范围内变化3种类型的评论中,这种需求出现的概率比较相似基本型需求这类需求被满足是理所当然的,当这类需求不被满足时会引起顾客强烈不满,反之满意度不会提升此类需求会在差评中体现较多,好评中较少
(1)基于产品性能词典,统计好评、中评、差评中每种客户需求出现的概率,按照概率从大到小的顺序依次排序,公式如下:
Ok(Ni)=j
(9)
j∈{1,2,…,N} k∈{1,2,3}
其中,O1(Ni)、O2(Ni)和O3(Ni)分别为需求Ni在好评、中评、差评中出现的概率排序序号。
(2) 算隶属度,以(gM(Ni),gE(Ni),gB(Ni))向量表示需求Ni的类别隶属度,用于衡量需求Ni属于兴奋型、期望型、基本型需求的程度:
(10)
(11)
(12)
zi=eMi+eEi+eBi
Mi=δ[O3(Ni)-O1(Ni)]
(13)
|O3(Ni)-O2(Ni)|]}
(14)
Bi=δ[O1(Ni)-O3(Ni)]
(15)
其中,δ为缩放因子,用于调整式(10)~式(12)的归一化结果。
中间变量Mi、Ei、Bi是未归一化的类别隶属度。式(13)表示Mi值越大,需求在好评中出现概率越高,在差评中出现概率越低,该需求越有可能是兴奋型需求,反之Mi值越小,越有可能是基本型需求;Bi与Mi互为相反数,含义与Mi也相反;式(14)中,表示需求在3种评论集中分布的差异,差异越小,该需求属于期望型需求的概率越大,为了在数值上与Mi、Bi保持均衡,引入项,使Ei值可以表示期望型需求隶属度。式(10)~式(12)对类别隶属度进行了归一化处理。
(3)基于需求的Kano分析结果计算重要度。Kano模型的重要性由高到低排序:基本型需求,期望型需求,兴奋型需求。为体现3种Kano类型需求之间的差异,本文分别赋予基本型、期望型、兴奋型需求重要度权重γ1、γ2、γ3,在PR-Kano模型中,按下式计算不同需求的重要度:
(16)
本文采用物元表示法表达客户需求模型,其形式化定义如下:
(17)
其中,M′i代表构成客户需求模型CNM的不同需求模块,s′i表示每个需求模块包含需求的数量。在每个需求模块中,M′i又可继续划分成以下子元:
(18)
其中,Nij代表组成该需求模块的所有需求,需求的特征值部分由<F,C,I>三元组表示,F为需求出现频率,C为需求的Kano类别,I为需求的重要程度。
式(17)、式(18)的形式与产品性能词典定义类似,通过模块划分,明确了需求之间的结构化关系,通过三元组特征向量,实现了客户需求的量化表达。
本文选取某手机产品作为分析对象,通过爬取电商平台数据,共获得21 465条客户评论数据,经过数据清洗过程,同时为了计算便利,最终选取20 000条用户数据作为最终评论数据集E。
5.2.1 建立产品性能词典
对评论数据集中的数据应用基于改进TF-IDF的产品性能词典建立方法,设置阈值t为0.07,w设为0.1时,每次抽样1 000条评论,最终获得156个描述产品性能的特征词。分析现有手机产品的设计知识库,按照“产品—模块—性能”三级结构,得到6个系统模块,23个产品性能的构成关系。建立性能与特征词之间映射关系,根据式(3)可建立产品性能词典如下:
在产品性能词典的二级结构中,以M1服务模块为例,提取到了“送货速度”“态度”“礼物”等多个特征词,结合产品的组成信息可知,这些特征词描述了3种产品性能——物流、服务与附件,为特征词与性能之间建立起映射关系,即完成了产品性能词典创建,由式(4)得
其中,右列表示每个产品性能下的特征词集合。
5.2.2 基于产品性能词典的特征词识别验证
表2给出基于产品性能词典和基于TF-IDF识别产品特征词的对比试验结果(F1为精确率和召回率的调和平均值),结果表明,产品性能词典可基本完成关键词的匹配,完备性较好;基于特征词典的特征词识别方法的有效程度远远高于IF-IDF的关键词抽取结果。
表2 特征词识别结果
Tab.2 Feature word recognition results
评价指标精确率(%)召回率(%)F1(%)基于PPL77.1080.8078.91基于TF-IDF24.7721.2022.84
将数据集E转化为语句作为Word2Vec中的输入语料库。设置词窗大小为5,当阈值ε取0.6时,聚类结果与比较理想,得到500维词向量,汇总得到客户对每个产品性能表达出的具有代表性的观点词,如表3所示。
表3 观点词挖掘结果(部分展示)
Tab.3 Opinion word mining results (partial display)
P观点词工艺握感 操控 握持 握 精良 握持 炫 精细 美观 手机外观 轻巧附件钢化膜 壳子 保护套 充电宝 自拍杆 透明软壳 套 称 膜 手机套 电子秤 音响……物流物流速度 物流 发货速度 顺丰 快递 送货速度 发货 京东物流 配送 快递小哥……服务服务态度 老板 热情 快递小哥 客气 商家 店家 态度 客服态度12315 售后……游戏吃鸡 刺激 绝地 求生 农药 战场 王者荣耀 王者 一局 大型 打游戏 发热运行反应速度 运行速度 反应 物流速度 发货速度 送货速度 玩起来 用电 卡机 发热………………
分析表3,可推断出客户的各项需求。如:对于产品性能“工艺”,通过观点词“握感”“握持”“握”可以推断出客户需求为:手机具有良好握持手感。对所有产品性能下的观点词进行以上推断工作,可以完成客户需求的获取,组成完整的客户需求<P, GP>二元组表达。表4给出了部分需求挖掘的结果。
表4 客户需求需求挖掘结果(部分展示)
Tab.4 Customer needs mining results (partial presentation)
PGP工艺①握持舒适;②手机重量轻;③做工细致精美;④适合女性审美附件①赠送手机常用配件物流①电商发货速度快;②快递物流速度快;③快递服务态度好服务①服务态度好;②良好售后服务;③快递服务态度好游戏①手机能够畅玩王者荣耀、绝地求生等主流大型手游;②玩游戏发热小…………
通过以上工作,得到23个客户需求<P,GP>二元组。以评论数据集E中20 000条样本为依据,按式(8)计算各个需求的关注度,得到表5中结果。其中,需求出现频次越高,代表客户关注度越大,这类需求也更重要,在产品设计中应该给与重视。
表5 手机产品需求频次统计表(基于20000条评论数据)
Tab.5 Statistical table of demand frequency of mobile
phone products (based on 20 000 comments data)
需求品牌相机外观物流运行工艺附件用户体验关注度7 5694 2553 6713 4402 4002 2502 0171 810需求竞争品牌电池服务屏幕性别关怀功能外形系统关注度1 5801 5741 4851 2441 2261 036840834需求性价比游戏声音内存自带软件网络处理器关注度68062144039521018679
注:需求N = <P, GP>以产品性能P表示。
按照客户评价中给出的评分,将产品评论划分为差评、中评、好评3个等级。统计每种评论中不同需求出现的概率,由大到小排序,缩放因子α设为0.1;为体现不同类别需求之间重要度差异,并且保证差异处在一个合理范围内,设定基本型、期望型、兴奋型需求重要度权重γ1、γ2、γ3分别为5、4、3,计算得出需求重要度。计算结果见表6,其中含有灰色背景部分表示该需求隶属度最高的Kano属性。
分析表6中数据,对服务性能的需求在差评中出现的概率最高,在好评中出现概率则远低于差评和中评。这说明,服务类需求更倾向于基本型需求。对于客户而言,在购物中享受基本的服务是最低的要求,在此基础上,客户才会去关注产品的特性,这符合基本常识,也验证了这种Kano分析方法的有效性。根据需求重要度的计算结果,有关性价比的需求最为重要,其值为1,其他需求则以1为基准,计算得出。
表6 客户需求模糊Kano类型分析表
Tab.6 Customer needs fuzzy Kano type analysis table
客户需求(以P表示)需求出现频率排序Kano类型隶属度差评中评好评基本期望魅力需求重要度服务16110.590.330.080.97相机2210.160.650.190.85电池3150.260.570.170.87附件49100.400.480.120.92品牌5740.180.600.220.85运行6330.150.590.260.83性价比710200.730.220.051.00屏幕8470.190.570.230.85物流91190.190.620.190.86游戏108170.480.400.120.93声音1117190.490.410.100.94用户体验1213140.230.620.150.87工艺13560.110.420.460.78竞争品牌1416120.170.570.260.84网速1521230.490.410.100.94外观161220.050.190.760.70功能171580.090.370.540.76系统1814150.150.570.280.83内存1920180.170.620.210.85自带软件2023210.220.600.180.87性别关怀2118160.130.520.350.81外形2219130.090.370.540.76处理器2322220.160.650.190.85
对于本文所研究的手机产品,将所有挖掘到的粗粒度用户需求对应到6个大类,即心理需求、性能需求、工美需求、硬件需求、功能需求以及服务需求,与产品性能词典中系统模块一一对应,根据式(17),最终建立如下客户需求模型:
每个需求类别按式(18)可继续按照物元模型进行表达如下(以M′1为例):
其中,<P1i,GP1i>为服务需求类型下的各项需求,每个需求的参数信息包含关注度、Kano类型、重要度。N1需求的二元组信息见表7。
表7 各项需求展开表
Tab.7 Every expansion table
P1GP1P11:物流GP11:{电商发货速度快;快递物流速度快;快递服务态度好}P12:服务GP12:{服务态度好;良好售后服务;快递服务态度好}P13:附件GP31:{赠送手机常用配件}
客户需求模型的物元表达可以将客户针对产品各个结构的需求按照逻辑层层划分,并通过<F,C,I>三元组给出每个需求的参数信息,完成了客户需求的数学表示。
(1)基于评论数据研究客户需求的可行性。产品评论作为典型的用户行为数据,表达了客户对于所购产品的使用感受,包含客户对产品各项性能的观点,所以基于评论数据可以得到客户对产品性能的需求。评论中的等级评分反映了客户对产品的总体满意度,通过统计在不同满意度评论中出现的产品性能的频率,可得知客户对于某类产品性能的需求被满足或不被满足时所产生的效用的差异,这与Kano模型的思想相符合。这一特点说明基于产品评论数据进行客户需求分析是可行的。
(2)客户需求挖掘。基于词典的字符匹配方法在文本识别方面具有很好的性能表现,且词典可以建立词与实体之间的多对一映射关系,因此可以用来精确识别评论中的特征词并匹配产品性能。由于Word2Vec词向量表示的词语在距离上具有很好的性质,能够将与每组特征词共现频率较高的词聚类到特定产品性能下,可以实现观点词挖掘的功能,因此,借助于产品性能词典与WordVec可以进行客户需求挖掘。
(3)客户需求分析。Kano模型建立起了客户满意度与客户需求之间的关系,典型电商评论中的评价等级的划分也是客户按照自身对于产品的满意程度给出的,所以4.2节中分析了Kano属性与评价等级之间的联系。由于兴奋型、期望型与基本型需求之间存在重要度的差异,所以可以根据需求在每种Kano类型中的隶属度可以计算其重要度。
(4)物元模型作用。物元模型可以描述事物与基元的组成关系并给出量化表示。采用物元表示的客户需求模型完成了客户需求的结构化、量化表示,描述了客户需求模型的组成、需求的属性和参数取值。
(5)参数设置。在参数设置方面,实验中,需要人工设定TF-IDF阈值t、降频因子w、Word2Vec相似度阈值ε、缩放因子α以及重要度权重γ1、γ2、γ3。其中k、ε,w的设定需要根据实验表现进行调整,多次实验选取最优结果。α的确定关系到隶属度归一化的计算,由于Softmax函数是指数形式的,而Bi、Mi总是一正一负的,当α较大时,需求的隶属度会在兴奋型与基本型属性上过度偏向一方,使得引入隶属度计算的意义降低,当α较小时,隶属度在3种需求上的分布趋于相同,效果同样不理想,所以α的设计需要观察实验中不同值对于隶属度结果的影响,根据结果选取适中值。重要度参数γ1、γ2、γ3对重要度计算结果有直接影响,设定时要根据实际研究产品,评估各类需求之间的相对重要性,保证γ1>γ2>γ3,同时要兼顾差异的合理性。
(6)产品设计建议。由表6可知,客户对服务、性价比、游戏、声音、网速的需求更符合基本型需求的特点,因此这类需求在设计时应该必须满足。客户对工艺、外观、功能、外形的需求在兴奋型需求中隶属度较大,这类需求在得不到满足时,不会立刻降低客户的总体满意度,因此可以最后满足;其余的客户需求,如相机、电池等都更符合期望型需求的特征,对于这类需求,满足的程度越高,客户的满意度提升的也越快,因此设计者应该主要关注此类需求。
本文对客户需求模型进行了研究,分析了产品评论文本的特点,进而提出基于评论数据进行客户需求建模的流程与方法,本文主要结论归纳如下:
(1)根据评论文本的特点,提出了产品性能词典用于客户需求挖掘,由于产品性能词典引入了产品设计领域的先验知识,将客户评价对象划分到有限的确定的产品性能下,解决了聚类方法中由于聚类主题未知而导致的聚类结果不稳定的问题;基于产品性能词典按照产品不同模块、逐性能进行需求挖掘的方式可以获得客户关于产品各个性能的需求,保证了客户需求挖掘的全面性;产品性能词典的模块化组织实现了客户需求的结构化目标。
(2)对传统的模糊Kano模型进行改进提出PR-Kano法,不通过模糊Kano问卷,不进行人工干预,即可根据评论中的客户满意情况完成需求的Kano属性判断,同时对需求进行重要度进行排序。这一改进提高了客户需求分析关节的效率与客观度,同时完善了数据驱动的客户需求建模流程。
(3)相关实验结果表明,本文所提出的改进TF-IDF方法能够有效完成特征词的提取,精确率与召回率都能得到保障,并且不需要人工标注的过程,有效提高了词典创建效率。
(4)通过选取工业产品进行实例分析,验证了本文所提方法的可行性与有效性。
[1] 张雷, 钟言久, 袁远, 等. 基于数据挖掘的绿色设计中客户需求向工程特性权重转化方法[J]. 中国机械工程, 2019, 30(2):174-182.
ZHANG Lei, ZHONGYanjiu, YUAN Yuan, et al. Method of Transform Customer Demands to Engineering Characteristic Weights in Green Design Based on Data Mining[J]. China Mechanical Engineering, 2019, 30(2):174-182.
[2] 张洁, 汪俊亮, 吕佑龙, 等. 大数据驱动的智能制造[J]. 中国机械工程, 2019, 30(2): 127-133.
ZHANG Jie, WANG Junliang, LYU Youlong, et al. Big Data Driven Intelligent Manufacturing[J]. China Mechanical Engineering, 2019, 30(2): 127-133.
[3] KUMAR R, VADLAMANI R. A Survey on Opinion Mining and Sentiment Analysis: Tasks, Approaches and Applications[J]. Knowledge-Based Systems, 2015, 89: 14-46.
[4] HOU T, BERNARD Y, YANN L, et al. Mining Customer Product Reviews for Product Development: a Summarization Process[J]. Expert Systems Applications, 2019, 132: 141-150.
[5] 涂海丽, 唐晓波, 谢力. 基于在线评论的用户需求挖掘模型研究[J]. 情报学报, 2015, 34(10): 1088-1097.
TU Haili, TANG Xiaobo, XIE Li. Research on User Needs Mining Model Based on Online Reviews[J]. Journal of the China Society for Scientific and Technical Information, 2015, 34(10): 1088-1097.
[6] LIN C, HE Y. Joint Sentiment/Topic Model for Sentiment Analysis[C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management. New York, 2009: 375-384.
[7] 熊蜀峰, 姬东鸿. 面向产品评论分析的短文本情感主题模型[J]. 自动化学报, 2016, 42(8): 1227-1237.
XIONG Shufeng, JI Donghong. A Short Text Sentiment-topic Model for Product Review Analysis[J]. Acta Automatica Sinica, 2016, 42(8): 1227-1237.
[8] 程惠华, 黄发良, 潘传迪. 基于产品评论情感分析的用户满意度挖掘[J]. 福建师范大学学报(自然科学版), 2017, 33(1): 14-21.
CHENG Huihua, HUANG Faliang, PAN Chuandi. Mining User Satisfaction Based on Product Review Sentiment Analysis[J]. Journal of Fujian Normal University (Natural Science Edition), 2017, 33(1): 14-21.
[9] 吕品, 钟珞, 唐琨皓. 在线产品评论用户满意度综合评价研究[J]. 电子学报, 2014, 42(4): 740-746.
LV Pin, ZHONG Luo, TANG Kunhao. Customer Satisfaction Degree Evaluation of Online Product Review[J]. Acta Electronica Sinica, 2014, 42(4): 740-746.
[10] IRELAND R, LIU A. Application of Data Analytics for Product Design: Sentiment Analysis of Online Product Reviews[J]. CIRP Journal of Manufacturing Science and Technology, 2018, 23:128-144.
[11] JIN J, LIU Y, JI P. et al. Understanding Big Consumer Opinion Data for Market-driven Product Design[J]. International Journal of Production Research, 2016, 54(10): 3019-3041.
[12] ZHANG D, XU H, SU Z, et al. Chinese Comments Sentiment Classification Based on Word2vec and SVMperf[J]. Expert Systems with Applications, 2015, 42(4): 1857-1863.
[13] 史伟, 王洪伟, 何绍义. 基于微博的产品评论挖掘:情感分析的方法[J]. 情报学报, 2014, 33(12): 1311-1321.
SHI Wei, WANG Hongwei, HE Shaoyi. Product Reviews Mining from Microblogging Based on Sentiment Analysis[J]. Journal of the China Society for Scientific and Technical Information, 2014, 33(12): 1311-1321.
[14] 石玉鑫, 杨泽青, 赵志滨, 等. 一种面向商品评价对象挖掘的领域词典构建法[J]. 软件工程, 2019, 22(1): 1-7.
SHI Yuxin, YANG Zeqing, ZHAO Zhibin, et al. A Method on Domain Dictionary Construction for Object Mining on Commodity[J]. Software Engineering, 2019, 22(1): 1-7.
[15] ALENZI B, KHAN M. Application of Sentiment Lexicons on Movies Transcripts to Detect Violence in Videos[J]. Internal Journal of Advanced Computer Science and Applications, 2019, 10(2): 352-360.
[16] LIU S, LEE I. Extracting Features with Medical Sentiment Lexicon and Position Encoding for Drug Reviews[J]. Health Information Systems and Telemedicine, 2019, 7: 11.
[17] 郁圣卫, 卢奇, 陈文亮. 基于领域情感词典特征表示的细粒度意见挖掘[J]. 中文信息学报, 2019, 33(2): 112-121.
YU Shengwei, LU Qi, CHEN Wenliang. Fine-grained Opinion Mining Based on Feature Representation of Domain Sentiment Lexicon[J]. Journal of Chinese Information Processing, 2019, 33(2): 112-121.
[18] 盛步云, 汪星刚, 萧筝, 等. 基于客户需求分析的模块化产品配置方法[J]. 计算机集成制造系统, 2017, 23(10): 2091-2100.
SHENG Buyun, WANG Xinggang, XIAO Zheng, et al. Modular Product Configuration Method Based on Customer Requirement Analysis[J]. Computer Integrated Manufacturing Systems, 2017, 23(10): 2091-2100.
[19] ZHENG P, XU X, XIE S. A Weighted Interval Rough Number Based Method to Determine Relative Importance Ratings of Customer Requirements in QFD Product Planning[J]. Journal of Intelligence Manufacturing, 2019, 30(1): 3-16.
[20] 王晓墩, 熊伟. 基于改进灰色预测模型的动态顾客需求分析[J]. 系统工程理论与实践, 2010, 30(8): 1380-1388.
WANG Xiaodun, XIONG Wei. Dynamic Customer Requirements Analysis Based on the Improved Grey Forecasting Model[J]. Systems Engineering-Theory & Practice, 2010, 30(8): 1380-1388.
[21] ZHAI L, KHOO L, ZHONG Z. A Rough Set Enhanced Fuzzy Approach to Quality Function Deployment[J]. International Journal of Advanced Manufacturing Technology,2008,37:613-624.
[22] 白涛, 李中凯. 基于模糊Kano模型的顾客需求重要度计算方法[J]. 中国机械工程, 2012, 23(8): 975-979.
BAI Tao, LI Zhongkai. A Customer Needs Importance Rating Method Based on Fuzzy Kano Model[J]. China Mechanical Engineering, 2012, 23(8): 975-979.
[23] WU M, WANG L. A Continuous Fuzzy Kano’s Model for Customer Requirements Analysis in Product Development[J]. Journal of Engineering Manufacture, 2012, 226(3): 535-546.
[24] CHAUDHA A, JAIN R, SINGH A, et al. Integration of Kano’s Model into Quality Function Deployment(QFD)[J]. International Journal of Advanced Manufacturing Technology, 2011, 53(5): 689-698.
[25] LEE Y, HUANG S. A New Fuzzy Concept Approach for Kano’s Model[J]. Expert System with Applications, 2009, 36(3): 4479-4484.
[26] 孙圆圆, 刘飞, 李丽. 基于Kano-QFD的个性化产品属性指标重要度确定方法[J]. 计算机集成制造系统, 2014, 20(11): 2697-2704.
SUN Yuanyuan, LIU Fei, LI Li. Importance Determining Method of Personalized Product Attributes Based on Kano-QFD Integration Model[J]. Computer Integrated Manufacturing Systems, 2014, 20(11): 2697-2704.
[27] 经有国, 但斌, 张旭梅, 等. MC半结构化客户需求信息表达与处理方法[J]. 管理科学学报, 2011, 14(1): 78-85.
JING Youguo, DAN Bin, ZHANG Xumei, et al. Expressing and Processing Approach for Semi-structured Customer Needs under Mass Customization[J]. Journal of Management Sciences in China, 2011, 14(1): 78-85.
[28] 蒋建东, 张立彬, 胥芳, 等. 面向大批量定制生产的小型农业作业机客户需求模型的构建研究[J]. 农业工程学报, 2005, 21(9): 98-102.
JIANG Jiandong, ZHANG Libin, XU Fang, et al. Model for Customer Requirements of Small Agricultural Machinery Product under Mass Customization[J]. Transactions of The Chinese Society of Agricultural Engineering, 2005, 21(9): 98-102.
[29] 李金艳, 余忠华, 徐宣国. 面向质量问题的可拓知识表达与诊断推理[J]. 哈尔滨工业大学学报, 2017, 49(7): 152-157.
LI Jinyan, YU Zhonghua, XU Xuanguo. Quality Problem Oriented Extension Knowledge Representation and Diagnostic Reasoning[J]. Journal of Harbin Institute of Technology, 2017, 49(7): 152-157.
[30] 黄承慧, 印鉴, 侯昉. 一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J]. 计算机学报, 2011, 34(5):856-864.
HUANG Chenghui, YIN Jian, HOU Fang. A Text Similarity Measurement Combining Word Semantic Information with TF-IDF Method[J]. Chinese Journal of Computers, 2011, 34(5):856-864.