第44卷增刊 2015年12月 测绘学报 Vo1.44,No.SO December.2015 Acta Geodaetica et Ca rlOgraphIca Sinica 引文格式:陆川伟,孙群,郭健,等.基于网页旅游攻略的旅行线路规划EJ].测绘学报,2015,44(S0):117—122.DOI:10.11947/j.AGCS. 2015.F063. LU Chuanwei,SUN Qun,GUO Jian,et a1.The Travel Routes Planning Strategy Based on the Web Tourist OuidesEJ3.Acta Geodaetica et Cartographica Sinica,2015,44(S0):117—122.DOI:10.11947/j.AGCS.2015.F063. 基于网页旅游攻略的旅行线路规划 陆川伟 ,孙 群 ,郭 健 ,李爱光 ,彭泽峰。 l_信息工程大学地理空间信息学院,河南郑州450001;2.75711部队,广东广州510000 The Travel Routes Planning Strategy Based on the Web Tourist Guides LU Chuanwei ,SUN Qun ,GUO dian ,LI Aiguang ,PENG Zefeng。 1.Institute of Su rveying and Mapping,Information Engineering University。Zhengzhou 450001,China;2.75711 T roops,Guangzhou 510000,China Abstract:In order to help travelers planning travel routes,based on the tourist guide as the data source, a method of text analysis was used to help the user to choose popular attractions.To solve the dynamic problem in alternative attractions of travel route planning-and according to the“cluster fi rst・route second’’ method of two stages strategy of the traditional methods for solving the vehicle routing problem,an improved“cluster fi rst—route second’’heuristic travel route planning strategy was studied and designed based on the appearance frequency of attractions in the guides for automatic planning of travel itinerary. The experimental result shows that the travel routes,generated by using the method proposed in this paper,are more reasonable allocation Of time,the distance between the attractions that every day to visit is shorter and the ratio of time and distance is higher。There is great practical significance for tourists planning travel routes. Key words:tourist guide;text analysis;travel routes;routes planning strategy;vehicle routing problem Foundation support:The NationaI NaturaI Science Foundation Of China(No.41571399) 摘 要:为帮助旅行者规划旅行线路,以旅游攻略为数据源,针对旅行线路规划问题中可选景点的动态 性问题,根据传统车辆路径问题求解方法中两阶段法的先分组再定路线的策略,重点研究并设计改进了 一种基于攻略中景点出现频率的先分组再定路线的启发式旅行线路规划策略用于自动规划旅游行程。 试验结果表明,使用本文所提出的方法生成的旅游线路,时间分配更加合理,游览的景点间路程更短,线 路的游览时间与景点间距离的费效比更高,对于游客规划旅行线路有着很大的现实意义。 关键词:旅游攻略;文本分析;旅行线路;线路规划策略;车辆路径问题 中图分类号:P209 文献标识码:A 文章编号:1001—1595(2015)SO.0117.06 基金项目:国家自然科学基金(41571399) 1 引 言 后旅行社时代,越来越多的游客不再满足于 呈现在用户眼前,旅游攻略由“用户生成内容” (user generated content)的模式产生[1],内容极 其注重个体感受和旅行体验,成为游客出行前的 必修课。旅游攻略是前人旅行后进行总结,包含 吃穿住行玩等各个方面的信息,并通过互联网发 传统的“上车睡觉,下车拍照,回去啥也不知道”的 传统旅游模式,而是希望自行安排自己的旅游时 间和线路,因此需要在出发之前通过互联网等手 布分享给其他游客的一种旅行参考。一般来说, 游客使用旅游攻略主要是实现3个目的:①旅游 目的地有哪些景点;②哪些景点值得去;③根据日 程规划自己的旅行线路。 段获取足够多的旅行目的地的相关信息来制订自 己的旅行计划。随着网络的发展,各种各样的旅 游信息通过旅游网站、达人攻略、旅行博客等方式 118 Decembe r 2015 Vo1.44 No.S0 AGCS http://xb.sinomaps,com 关于旅游线路的研究主要包括从旅行游记、 各个景点具体的方位不清楚且易混淆,用户难以 形成心像地图,规划旅游行程;③受限于攻略提供 GPS轨迹以及包含位置信息的照片3个方面的 数据源人手提取或推荐线路进行研究。具体 来说: 者自身的专业水平,旅游攻略中的线路随意性较 大,每天旅行的景点不紧凑,导致景点间交通浪费 大量的时间,参考意义不大。如图1所示为根据 一(1)旅行游记。文献[2—3]针对旅行Et志提 出了一种概率主题模型,将旅行日志中的主题词 汇分为两种:本地主题和全局主题。本地主题主 篇北京七El游的攻略绘制的旅行线路图,可明 显看出其中一天的线路“天坛公园一798艺术 区一国家图书馆一鸟巢一水立方”中的景点跨越 了大半个城市,导致往返于景点间的路程会浪费 要是针对特定地点的词汇,如火山岩、海岸线等; 全局主题则不针对特定地点而是在大量的日志中 描述景点所共用的词汇,如旅馆、机场等。通过该 模型来更好地从旅行El志中抽取出相关词汇,从 而加强对景点的理解,如景点推荐、目的地概括以 及检索更多的旅行日志等。 (2)GPS轨迹信息。文献[5]基于多用户的 GPS历史轨迹在一个特定区域内挖掘出前n个 兴趣点和前m条游览序列。首先根据GPS轨迹 提取出用户的停留点,然后对这些停留点进行层 次聚类,得到一个基于树的分层图,层次越高所包 含的停留点越多,所代表的区域也越大。然后利 用基于HITSL6](hypertext—induced topic search) 算法的推理模型来估计用户的旅行经历和兴趣, 进而对停留点和区域进行排序,从而得到景点和 热门区域,进一步根据兴趣点评分和兴趣点序列 挖掘出旅行线路。 (3)包含位置信息的照片。文献[7—10]利 用照片的地理标签挖掘出用户的频繁地点序列, 然后将这些地点序列连接成为旅行线路,同时通 过计算照片的时间属性,得到每个景点所消耗的 时间,如此根据用户的时间期望来帮助用户推荐 旅行线路。文献[11-]针对Flickr上带有地理信息 的照片首先使用信息熵来衡量图片的信息含量进 而对数据进行清洗,然后使用密度聚类算法将景 点聚类并通过HMM[1。](hidden markov mode1) 的Viterbi算法识别出景点线路,最后使用Mean 值还原出更符合用户需求的旅行线路。 国内的旅游攻略主要来源于各类旅游网站, 如去哪儿网、携程网、蚂蜂窝等。旅游攻略的内容 基本上都是“文本描述行程+图片展示”的形式。 但是当用户使用这些旅游攻略时,面临着3个严 重的问题:①旅游攻略来源广、数量多,内容大同 小异但每篇攻略包含的景点不尽相同,一一阅读 则会耗费大量的时间,同时难以直接对比各个攻 略中行程的异同,如去哪网中有关北京的旅游攻 略有两万多篇;②旅游攻略内容以文字描述为主, 大量的时间。 t 图1旅游攻略中旅行线路图 Fig.1 Travel routes of a tourist guide 本文针对用户应用旅游攻略的目的以及传统 方式使用旅游攻略所面临的问题,提出了一种基 于网页旅游攻略的旅行线路规划策略,其主要流 程如图2所示。 图2研究流程图 Fig.2 Flow chart of research 在该过程中,本文首先设计了将文本信息进 行结构化表示的旅游攻略描述三元组和景点资源 描述三元组。然后基于车辆路径问题的解决思 路,根据旅行线路规划的实际问题,提出了一种面 向旅游景点的先分组再定路线的启发式景点规划 策略,主要是首先将所有景点根据其旅游攻略中 的频数,按照旅行时间进行聚类,然后在每一个类 中使用顺序插入法规划具体的旅行顺序,以此满 增刊 陆川伟,等:基于网页旅游攻略的旅行线路规划 119 足将大量的旅游攻略文本数据的结构化表示以及 根据用户需求自动规划旅游路线等现实需求。最 后本文分别从路程、时间以及两者之间的费效比 3个方面进行对比来验证所提方法的有效性。 2数据处理 2.1旅游攻略文本数据特点 旅游攻略文本数据归属于大数据的范畴,因 此其也具备大数据所具有的4V特征口 。同时旅 游攻略文本数据也具有时间相关、位置相关以及 非(半)结构化的特征,具体说明如下。 (1)时间相关:时间相关是指旅游攻略中含 有大量的与时间有关的信息,如出发时间、参观时 间等。 (2)位置相关:位置相关是指旅游攻略文本 数据中含有诸如景点位置、地点名词、地理关系名 词以及位置标签等信息。 (3)非(半)结构化:对于网络中的文本数据, 可以使用网络爬虫按照设计的正则表达式按照一 定的结构爬取数据,但是对于爬取到的数据却并 不具备结构化特征,仍需要使用文本处理方法进 行结构化转换。 本文采用的文本数据源为去哪儿网中北京市 的旅行攻略为文本数据源。该数据源具有以下特 征:①攻略遵循的基本结构包括前言(行前准备、 行程花费、交通、住宿等)、每日行程(游玩地点、游 玩心得等)等内容;②每日行程部分包括景点的具 体介绍,如所在城市、门票、电话、地址、标签、开放 时间、简介等;③文本内容中包含大量的景点名称 等位置相关信息。 2.2旅游攻略文本数据的结构化表示 文本数据的结构化表示主要是将无(半)结构 化的文本数据进行结构化转换,并借助RDF描述 框架建立了资源描述三元组对资源进行归一化知 识描述[】 ,逐步建立信息知识库。资源描述三元 组具体形式为: Resource=(Subject,Predicate,Object) 式中,Subject表示主体;Predicate表示主体与客 体间的二元关系;Object表示客体。 根据研究需要,本文设计了旅游攻略描述三 元组和景点表述三元组以建立攻略信息库和景点 信息库。表1为旅游攻略描述三元组结构表。其 中URL为攻略的网址。表2为旅游攻略中故宫 的描述三元组,其中URL表示景点的唯一标识。 表1 旅游攻略描述三元组结构表 Tab.1 Triple structure table of tourist guides 表2故宫描述三元组 Tab.2 Triple structure table of Gugong 3启发式旅行线路规划策略 3.1 旅行线路规划中的车辆路径问题 旅行线路规划问题就是在计划的总旅行时间 内游览尽可能多的景点,同时限定每天游览景点 的时间。旅行线路规划问题的本质是运筹学领域 的车辆路径问题口。 (vehicle routing problem, VRP)的变形,即每天从固定点(酒店)出发,按照 一定的顺序依次通过各个点(景点)并耗费一定的 成本,最终回到固定点(酒店),使其满足一些约束 条件而达到最优解的过程_1 。 目前求解车辆路径问题的方法很多,主要包 括精确算法、经典启发式算法以及各种改进的启 发式算法等。但是传统的这些车辆路径问题的解 决方法通常是针对固定的客户,即每一个客户的 位置、需求都固定,且必须通过所有各点,而不能 自主选择各点是否通过。而旅行线路规划问题中 12O Decembe r 2015 Vo1.44 No.SO AGCS 的客户(景点)却具有动态性,即对于任何一个景 离最近的景点所在群组加入其中;直到所有群组 内的时间总耗费都达到时间£ 则停止分组。其 算法逻辑描述如下。 ‘ (1)初始化:景点序列P一{P ,P。,…,P }, 点,都有去和不去两种选择。因此传统车辆路径 问题求解方法难以应用直接于旅行路线规划问题 中的线路规划。 3.2启发式旅行线路规划策略 针对旅行线路规划问题中景点的动态性特 群组G=::{G ,G。,…,G },群组内时间权值 TG 一0( 一1,2,…,m); 征,同时结合传统车辆路径问题求解方法中两阶 段法的先分组再定路线的策略。本文首先假设景 点的受欢迎程度可以使用旅游攻略中景点出现的 (2)将P 加人群组G ; (3)从景点序列P中依次取景点P (i一2, 3,…, ); 频率进行衡量。基于此,本文设计改进了一种基 于攻略中景点词频的先分组再定路线的启发式旅 行线路规划策略,即首先基于旅游攻略中所提景 点频数对景点进行受欢迎程度的排序,然后根据 旅行时间、景点类型、景点间距离等过滤条件使用 点分配(point assignment)[18]聚类方法将景点进 行聚类,最后再在各类中规划最优路线。其基本 思想描述如下。 3.2.1 基于统计的景点受欢迎程度排序 到某地旅行时一般会面临着大量的景点而无 从选择,本文假设景点的受欢迎程度可以使用旅 游攻略中景点出现的频率进行衡量,因此通过统 计大量攻略中所提到景点的频数,对景点的受欢 迎程度进行排序,得到景点序列P P一{P ,P。,…,P ) (1) 式中,n为景点的个数。 3.2.2建立时间矩阵 由于本文并不研究各景点间如何通达的问 题,而是简化为各点间必达,但时间消耗由于距离 的远近而不同,因此建立时间矩阵T。 P1 P 2 P P tp1 £Z1,2 £Z1。 T0==:P 2 £Z 2。1 tp 2 Z 2, (2) ● ● : : ! P Z Z棚 tp 式中,tl (i,J一1,2,…, ;i≠ )为景点P 到 P 花费的时间,tp (i一1,2,…, )为在景点P: 参观所花费时间。 3.2.3点分配聚类 聚类的基本思想根据景点的受欢迎程度的排 序,首先对于前m个景点:分配到 个群组中, 同时考虑若两个景点间时间消耗小于t。则应分 配到同一个群组,而且应设定每天的游览时间为 t ,即每个群组中所有景点参观时间以及景点间 时间之和小于t ;对于其他景点则根据其时间距 (4)根据时间矩阵T。统计景点P 与景点 P (f=1,2,…,i一1)之间的时间消耗并按照时 间由小到大的顺序对景点P,( 一1,2,…,i一1) 进行重排序形成基于时间消耗的景点序列NP一 {NP1,NP 2,…,NP —1); (5)从新序列NP中依次取NP (愚一1,2, …,i一1); (6)判断:若i≤m,则跳转至步骤(7),否则 跳转至步骤(8); (7)计算点P 与NP 之间的时间消耗 tlⅢ,判断:若tlm≤t。则跳转至步骤(8),否则跳 转至步骤(11); (8)获取NP 所在的群组G。,计算T 一 TG +tp +tlⅢ,并判断:若T ≤t 则将P 加 入群组G ,并更新TG。一T ,m++,然后跳转 至步骤(3),否则跳转至步骤(9); (9)判断:若k—i一1,则跳转至步骤(1O),否 则跳转至步骤(5); (1O)判断:若i≤m,则跳转至步骤(11),否 则将P 舍弃并跳转至步骤(3); (11)将P 加入一个空群组G 并更新TG。一 声 ,然后跳转至步骤(3)。 其流程如图3所示。 3.2.4线路规划 本文的研究重点并不在于研究如何规划各个 景点间的具体的最优行进路线,而是研究各个景 点的游览顺序,以满足线路中各景点间的路程最 短,衔接的时间最小。因此本文线路规划所研究 的问题实际就成为了从酒店(起始点)出发环游所 有景点后回到酒店的最优路径问题,采用节省成 本最大的顺序插入法。 顺序插入法是由文献E19]为解决车辆路径问 题所提出的一种启发式算法。顺序插入法计算对 于尚未构成路径的节点 插入已有线路中的可 行位置,计算公式为 增刊 陆川伟,等:基于网页旅游攻略的旅行线路规划 121 a( , ,J):c( , )+c( ,J)+Ac( ,J) 然后根据 ( , ,J)=/zc(O,/,t)mot( , ,J) (4)将U插入到i,-『之间。 式(3)和式(4)中, 、 两个参数决定插入的 标准。若 =1、 一0,算法将插入距离增加最少 的节点;若 —O、 一0,被插入的节点将对应于与 两个相邻节点间距离之和的最小者;若 一。。、 >0,被插人的将是距离出发点最远的节点。 图3聚类流程图 Fig.3 Clustering flow chart 4试验与结论 本文以去哪网中北京市旅游攻略为例,采集 了120篇北京市旅游攻略,然后根据艺龙网中的 北京景点库建立了北京地区的景点词库,使用 ICTCLAS[2 对采集到的文本数据进行统计分 析,其中统计了词频前50个景点的信息。如表3 所示为攻略中部分景点的重要性排序。 表3攻略中景点的重要性排序 Tab.3 Importance ranking of spots 排名 1 2 3 4 5 景点 故宫天安门广场八达岭长城颐和园 南锣鼓巷 词频 112 110 98 95 94 排名 6 7 8 9 10 景点 天坛公园 鸟巢 圆明园 王府井北京大学 词频 90 89 85 8O 79 如图4所示为针对图1中的七日游攻略使用 本文提出启发式旅行线路规划策略生成的旅行路 线规划图,其中设定:景点间最小间隔t。==:0.2(h), 每天的旅行时间t 一7(h)。 表4原线路信息统计表 Tab.4 Statistics table of the old routes 线路 i 2 3 4 5 6 7 总计 景点间距离/kin 9.4 48.4 景点游玩时间/h 9 l1 费效比/(h/kin)0.96 0.23 表5启发式旅行线路规划策略线路信息统计表 Tab.5 Statistics table of the new routes ~ . 图4启发式景点规划策略生成的旅行规划路线图 Fig.4 Travel routes generated by new strategy 如表4和表5所示为针对图1中的七日游攻 略的原攻略线路和启发式景点规划策略线路的每 条线路中景点间距离、景点游玩时间以及线路的 费效比(时间/距离,即景点间耗费每单位距离可 以游玩的时间)对比表。 由表4和表5可见,采用本文设计改进的启 发式旅行线路规划策略制定的旅行线路与原攻略 游客自己生成的旅行线路相比,每天的游览时间 122 Decembe r 2015 Vo1.44 No.SO AGCS http;f}xb sinomaps.com 分配得更加均匀合理,每条线路的景点间距离更 相比基本没有减少。由图5(c)可见,与原攻略中 短,游览时间与景点间距离的费效比更高。 如图5所示分别为本文所采集的120篇旅游 攻略数据的原攻略线路与采用启发式景点规划策 线路相比,本文所设计改进的启发式旅行线路规 划策略制定的旅行线路的费效比总体较高,采用 新策略的时间/距离费效比的均值为O.52,而原攻 略中的线路费效比为O.43。 由以上试验及分析结果可见,本文设计改进 的启发式旅行线路规划策略制定的旅行线路在游 览时间基本不变的前提下,实现了景点间的路程 略线路的旅行线路景点问路程、游览时间以及游 览时间与线路景点间路程之间的费效比的对比 图。由图5(a)和图5(b)可见,采用本文设计改进 的启发式旅行线路规划策略制定的旅行线路的景 点间总路程更短,而参观时长与原攻略中的线路 更短,时间/路程费效比更高的效果。 …一原攻略路j鼙,km 一原策略路 ̄E/km …・原攻略时间,h——新策略时间,h 一.原攻略费效比/(时间,距离) ——新策略费效比, 200 l20 mu……~,一 … 1.00 (时间,距离) 18O O.90 16O lO0 0.80 140 0.70 120 80 0.6O 100 60 O.5O 8O 0.40 60 40 0.30 40 2O O.2O 20 O.1O 0 0 O.00 1 1l 2l 31 4l 5l 61 7l 81 9ll01l1l l l1 21 31 41 5l 61 71 81 9ll01lll l l1 21 31 4l 51 61 71 81 91l01lll (a)路程对比图 (b)时间对比图 (c)时间,距离费效比对比图 图5分析对比图 Fig.5 Analysis and comparison chart Conference.Raleigh,North Carolina,USA:ACM,2010. 5结束语 [3]HAO Qiang,CAI Rui,WANG Changhu,et a1.Generating Location Overviews with Images and Tags by Mining 针对旅游线路规划这一实际应用问题,本文 User—Generated Travelogues[C]∥Proceedings of The 以旅游攻略为文本数据源,设计了旅游攻略描述 1 7th ACM International Conference on Multimedia. 三元组和景点资源描述三元组以对旅游攻略文本 Beijing,China:ACM,2009:801—804. 数据进行结构化描述,并建立旅游攻略信息知识 [4]HAO Qiang,CAI Rui,YANG Jiangming,et a1.Travel— 库和景点信息知识库,针对旅行线路规划问题中 Scope:Standing on the Shoulders of Dedicated travelers 景点的动态性特征,同时结合传统车辆路径问题 Ec]?}Proceedings of the 17th ACM International Conference 求解方法中两阶段法的先分组再定路线的策略, on Multimedia.Beijing,China:ACM,2009:1021—1022. [5] zHENG Yu,ZHANG Lizhu,XIE Xing,et a1.Mining 设计并改进了一种基于景点受欢迎程度的先分组 Interesting Locations and Travel Sequences from GPS Trajec— 再定路线的启发式旅行线路规划策略。试验结果 tories Ec]}}Proceedings of The 18th International World Wide 表明,采用这种启发式旅行线路规划策略所设计 Web Conference.Madrid,Spain:ACM,2009:791—800. 的旅行线路的时间分配更加均匀,景点问路程更 [6] KLEINBERG J M.Authoritative Sources in a Hyperlinked 短,线路的游览时间与景点间距离的费效比更高, Environment[J].Journal of the ACM,1999,5(46): 604—632. 具有很高的实用价值。 [72 YIN Huagang。Lu Xin,WANG Changhu,et a1.Photo2Trip: 参考文献: An Interactive Trip Planning System Based on Geo— Tagged Photos[c]∥Proceedings of 18th ACM [1] 吴惠丰.旅游网站的攻略文本生成模式探究[D].南京:南 Internationa1 Conference on Multimedia 2010,Firenze, 京大学,2013. Italy:ACM,2010:1579—1582. WU Huifeng.The Study of The Text Production of Travel [8] LU Xin,WANG Changhu,YANG Jiangmin4 ̄,et a1.Photo2Trip: Guides in Tourism Websites[D].Nanjing:Nanjing Generating Travel Routes from Geo—Tagged Photos for University,2013. Trip Planning[C]f}Proceedings of the 18th ACM Interna— E2-] HAO Qiang,CAI Rui,WANG Changhu,et a1.Equip tional Conference on Multimedia.Firenze,Italy:ACM, Tourists with Knowledge Mined from Travelogues[C]∥ 2O1O:143一l52. Proceedings of The 19th International World Wide Web (下转第128页) 128 December 2015 Vo1.44 No。SO AGCS http://xb.sinomaps.com National Academy of Science of the United States of America,2012 109(39):15706—15711. Annual Conference Proceedings(VIII).Beijing:Chinese Society For Environmental Sciences,2013. 5)在环境科学 [15] 冯奇,徐胜,吴胜军,等.大气细颗粒物(PM2.中的研究简述[J].环境科学与技术,2012,35(6I):167—170. FENG Qi,XU Sheng,WU ShengJun,et a1.Atmospheric Fine Particulate Matter(PM2.5)in Environmental Science [19]马轩龙,李春娥,陈全功.基于GIS的气象要素空间插值 方法研究[J].草业科学,2008,25(11):13—19. MA Xuanlong,LI Chun’e,CHEN Quangong.Study on the Method of GIS Based Spatial Interpolation of Climate Research Brief[J].Environmental Science&Technology. 2O12,35(61):167-170. Factors in China[J ̄.Pratacu1tura1science,2008,25(11): 13—19. E161 CABADA J C,KHLYSTOV A,WITTIG A E,et al_ Light Scattering by Fine Particles During the Pittsburgh (责任编辑:宋启凡) Air Quality Study:Measurements and Modeling[J]. Journal of Geophysical Research:Atmospheres(1 984- 20l2),2004,109(D16):D16S03. 收稿日期:2015-11.15 修回日期:2015.12.10 [17] 梅安新,彭望碌,秦其明.遥感导论[M].北京:高等教育 出版社,2001. MEI Anxin。PENG Wanglu,QIN Qiming.An Introduction to 第一作者简介:李伟(199O一),男,硕士,主要研究领域是 GIS空间分析与应用,遥感地学应用,城市三维建模等。 First author:LI Wei(199O一),male,maste r,maio rs in GIS spatial onalysis and applications,remote sensing applications in geosciences,urban study ON th ree dimensionaI modeling,etc. Remote SensingEM].Beijing:High Education Press,2001. [18] 丁卉,徐伟嘉,曹生现,等.三种区域空气质量空间插值 方法对比研究[c]//2013中国环境科学学会学术年会论 文集(第八卷).北京:中国环境科学学会,2013. DING Hui,XU We ia,CA0 Shengxian,et a1.Three E-mail:Iiwei@cugb.edu.CA. 通信作者:郑新奇 Corresponding author:ZHENG Xinqi Regional Air Quality Comparative Study of Spatila Interpolation Method[C]//China Environmental Science Institute E—mail:zhengxq@cugb.edu.cn. (上接第122页) [9] ARASE Y,XIE Xing,HARA T,et a1.Mining People’s Trips from Large Scale Geo-tagged Photos[C]//Proceedings of the 18th ACM Internationa1 Conference on Multimedia. Firenze,Italy:ACM,2010:I33—142. WENG Yu.Web Text Mining Technology in Network Topics[M].Beijing:China Minzu University Press,2012. H.The Truck Dispatching [16] DANTZIG G B,RAMSER JProblemEJ].Management Science,1959,6(1):80—91. [17] 刘霞.车辆路径问题的研究[D].武汉:华中科技大学,2003. [10]KURASHIMA T,IWATA T,IRIE G,et a1.Travel Route Recommendation Using Geotags in Photo Sharing Sites uu Xia.Research on Vehicle Routig Problnem[D].Wuhan: Huazhong University of Science and Technology。2003. ning of Massive [18] RAJARAMAN A,ULLMAN A D.Mi[c]//Proceedings of the 19th ACM International Corference on Information and Knowledge Management.Toronto, Ontario,Canada:ACM,2010:579-588. Datasets[M].Cambridge,United Kingdom:Cambridge University Press,2012. Eli]文赛平.基于图片Geo信息的旅行模式研究ED].北京:中 国科学院研究生院,2O12. WEN Saiping.The Study of the Travel modes based on al Route— [19] MaLE R H。JAMESoN S R.A SequentiBuilding Algorithm Employig a nGeneralised Savings Criterion [J].Operational Research,1976,27(2):503—511. Geo—Information of Photos[D].Beijing:University of Chinese Academy of Sciences,2012. E2o] NLPIR/ICTCLAs汉语分词系统[EB/OE1.http:∥ ictclas.nlpir.org/. [121 FINE S,SINGER Y,TISHBY N.The Hierarchical Hidden Markov Model:Analysis and Applications[J].Machine Learning,1998,32(1):41-62. (责任编辑:张艳玲) 收稿日期:2015-11-15 修回日期:2015-12.10 [13]任磊,杜一,马帅,等.大数据可视分析综述EJ].软件学 报,2Ol4,25(9):1909-1936. REN Lei,DUYi,MA Shuai,eta1.VisualAnalyticsTowards 第一作者简介:陆川伟(199O一),男,硕士生,研究方向为 地理空间信息可视化与可视分析 First author:LU Chuanwei(1990一),male,master Big Data[J].Journal of Software,2014,25(9):1909—1936. [14] KLYNE G,cARROLL J J,MCBRIDE B.Resource Description Framework(RDF):Concepts and Abstract candidate.majors in the visualization and visual analysis of geospatial jnfOrmali0n. Syntax[J].W3C Recommendation,2004(1):1-2O. [15]翁或.网络话题中的web文本挖掘技术[M].北京:中央 民族大学出版社,2012. E-mail:19we}.90chuan@163.cam