大数据时代产生了大量具有时空标记、能够描述个体行为的空间大数据,如手机数据、出租车数据、社交媒体数据等。这些数据为人们进一步定量理解社会经济环境提供了一种新的手段。近年来,计算机科学、地理学和复杂性科学领域的学者基于不同类型数据开展了大量研究,试图发现海量群体的时空行为模式,并建立合适的解释性模型。

大数据年代发生了很多具有时空符号、可以描绘个别行为的空间大数据,如手机数据、出租车数据、交际媒体数据等。这些数据为人们进一步定量了解社会经济环境供给了一种新的手法。近年来,核算机科学、地舆学和杂乱性科学范畴的学者依据不同类型数据展开了很多研讨,企图发现海量集体的时空行为方式,并树立适宜的解说性模型。笔者选用“社会感知(social sensing)”概念构建了空间大数据研讨结构,指出社会感知便是借助于各类空间大数据研讨人类时空间行为特征,然后提醒社会经济现象的时空散布、联络及进程的理论和办法。值得一提的是,与着重依据多种传感设备收集微观个别行为数据的社会感知核算(socially aware computing)比较,社会感知愈加着重集体行为方式以及背面地舆空间规则发掘。

社会感知数据可从三个方面获取人的时空间行为特征:(1)对地舆环境的情感和认知,如依据交际媒体数据获取人们关于一个场所的感触;(2)在地舆空间中的活动和移动,如依据出租车、报到等数据获取海量移动轨道;(3)个别之间的交际联络,如依据手机数据获取用户之间的通话联络信息。因为空间大数据包含了海量人群的时空间行为信息,使得咱们可以依据集体的行为特征提醒空间要素的散布格式、空间单元之间的交互以及场所情感与语义(如图1所示)。空间大数据供给的社会感知手法,第一次为地舆学甚至相关人文社会科学研讨敞开了一种“由人及地”的研讨范式。而“社会感知”这一概念,正是归纳描绘了空间大数据在相关研讨与运用中所供给的数据以及办法上的支撑才干。

本文梳理了近年来针对空间大数据展开的研讨,特别是其间用到的数据剖析与方式发现办法。这些办法一方面学习了核算机范畴的最新进展,另一方面也充沛考虑了地舆空间的规则和特征。

社会感知剖析办法

依据社会感知的概念,关于空间大数据的研讨可以分为“人”和“地”两个层面。前者重视人的空间行为方式,以及方式所遭到的地舆影响;后者则侧重于在集体行为方式的根底上,讨论地舆环境的相关特征。

个别行为方式剖析法

根据空间大数据的社会感知(基于空间大数据的社会感知)  大数据 空间 社会 第1张
根据空间大数据的社会感知(基于空间大数据的社会感知)  大数据 空间 社会 第2张

空间大数据可以感知人的三个方面的空间行为方式,如图1所示。其间,移动是个别层次空间行为最直接的外在表现。因为大数据关于移动轨道的获取才干较强,因而现在的研讨多会集在移动方式和模型的树立。

动物以及人在空间中移动所展现的规则性是杂乱体系范畴研讨的一个重要议题。每个个别的移动方式可以标明为随机游走(random walk)模型。经过对动物的移动进行调查,发现其移动步长和视点的核算散布特征出现必定的方式,提高了寻食的功率。当移动方向均匀散布,而步长为幂律散布,且指数在1~3之间时,移动为列维飞翔模型(Levy flight),如图2所示。与动物比较,人的出行意图愈加多样化,而且存在一个或许多个频频重访地址,这使得人的移动方式与动物的移动方式存在机理上的差异。在海量个别移动轨道数据的支持下,咱们可以调查人的移动方式并构建相应的解说模型。从布罗克曼(Brockmann)等人宣布在《天然》上的依据钱币追寻数据展开的研讨开端,许多学者运用手机、出租车、交际媒体报到等数据讨论了人的移动方式,而且企图树立解说性模型。

步长的核算散布是移动性方式表达中的重要元素。关于移动轨道而言,因为间隔衰减,使得长间隔出行的概率较低,而短间隔出行的概率较高。表征这种散布特征的函数有幂律散布、指数散布、指数切断的幂律散布等[5~9]。许多学者企图树立模型以解说调查到的人类移动方式。除了间隔衰减影响外,解说移动方式需求考虑的要素还包含地舆环境和个别的空间行为特征。其间地舆环境要素决议了潜在的个别移动到访点的空间散布,该散布一般与人口密度散布正相关;而个别的空间行为特征则反映了人们移动中的一些个性化的规则。现在得到较多重视的是个别轨道中的重访点,这是人类移动和动物移动存在较大差异的方面。人类移动存在家和作业地等频频重访的地址,具有较高的可猜测性[10]。在地舆环境散布特征方面,咱们一般从城市范围内及城市间两个标准别离讨论移动性方式。城市范围内的移动遭到城市用地结构的影响。关于一个城市而言,一般市中心区土地开发强度较大,居民出行的密度相对较高,而在城市边缘区域,土地运用强度和出行密度都相对较低。这种地舆环境散布方式使得城市标准的移动步长散布尾部不那么“重”[11]。而关于城市间的移动,城市体系中不同规划的城市空间散布相同影响了观测到的移动方式。韩(Han,音译)等人讨论了层次城市体系关于人类移动方式的影响,指出人们在低层次城市之间的移动一般要经由高层次城市,然后发生了步长的幂率散布特征[12]。

现在研讨所选用的空间大数据大都都是“移动轨道丰厚,活动信息缺乏”,这使得轨道背面丰厚的语义信息(特别是出行意图信息)缺失。在交通地舆学研讨中,出行意图是了解出行移动方式的根底,不同的出行意图遭到空间的束缚也不同。一些学者企图结合轨道数据、时刻束缚以及地舆环境特征,揣度出行意图,然后到达充沛轨道语义的意图[13,14]。

个别层次的时空间行为除了移动和活动外,交际联络(social ties)也是很重要的要素。运用空间大数据可以提醒交际联络背面的地舆影响。这方面的研讨首要包含个别地舆方位关于个别间交际联络的影响[15,16]以及个别空间移动与交际联络的相互作用[17,18]两个方向,意图是根究空间间隔和时空共现(spatio-temporal co-occurrence)与交际联络之间的量化联络。

活动时刻改变特征分类法

根据空间大数据的社会感知(基于空间大数据的社会感知)  大数据 空间 社会 第3张

不同类型的大数据可以提醒一个区域或城市的活动以及人口散布状况。大数据的时刻符号可以用于解说人口散布的动态改变特征。这种改变特征往往具有较强的周期性。关于城市研讨而言,特别以日周期改变最为显着。城市居民在寓居地址和作业地址之间的通勤行为发生了相关地舆单元人口密度的时变特征(如图3a)。因而,咱们可以依据城市不同区域对应的活动日改变曲线来研讨其用地特征和在城市运转中所承载的功用。

运用空间大数据所提取的活动散布特征感知土地运用类别的根本依据是活动量日改变特征对地块的指示才干。提取特征时一般选用非监督分类办法,最常用的算法有k-均匀算法(k-means)聚类、k-中心点算法(k-medoids)聚类等[19~21]。咱们常常可以看到相同的土地覆被对应不同的居民活动特征,而外形附近的修建或许承当了不同的社会功用,与之相较,运用大数据提取活动散布特征的办法从活动视点更为全面地解读了城市土地运用状况。在分类进程中,因为功用相同的地块存在活动强度的差异,如高密度居民区和低密度居民区,虽然人口总量不同,可是其人口密度日改变特征类似,故而在非监督分类进程中,一般需求对活动时变曲线进行归一化处理。此外,考虑城市居民作业日和周末的不同活动特征,在一些研讨中,会将作业日数据和非作业日数据分隔处理。因为空间大数据所提取的活动时空散布信息可以处理成与传统遥感数据类似的方式,因而除了非监督分类外,一些图画处理办法也可以运用于社会感知数据。图3b展现了怎么从人关于城市空间运用的视角去解读城市的结构特征。近年来,也有一些研讨选用主成分剖析以及非负矩阵分化办法,辨认一个城市不同区域活动改变的大局和部分改变特征[22~25]。此外,张量(tensor)也是剖析时空大数据的有用东西,张量模型的高阶(high order)表达才干可以描绘时空数据在时刻、空间、个别状况等多方面的特征。王静远等运用张量剖析了城市交通节律、社区组团、用地性质等要素之间的联络[26],范(Fan,音译)等人对城市时空数据进行了谱剖析,研讨了不同个别在不同时刻、不同地址关于突发灾祸事情的呼应方式[27](如图4所示)。

根据空间大数据的社会感知(基于空间大数据的社会感知)  大数据 空间 社会 第4张

场所情感及语义剖析法

交际媒体(推特、微博等)中包含了很多文本数据,成为语义信息获取的重要来历。带有方位的交际媒体数据一般占3%,研讨者可以运用这部分数据提醒与地舆方位有关的语义信息。现在的研讨首要包含三个方向:(1)获取一个场所的主题词(图5a);(2)获取与场所有关的情感信息(图5b),如快乐仍是郁闷[28~30];(3)获取关于特定事情(如灾祸[31]、事端[32]、
疾病[33])的呼应。因为交际媒体数据是很多用户自发创立的,剖析语义信息及其时空方式有助于方针拟定者了解社情民意并拟定相关公共方针。在交际媒体文本语义处理中,潜在狄利克雷分配 (Latent Dirichlet Allocation, LDA)模型被广泛运用,以确认每条信息所标明的主题以及相关的心情信息。但是,因为交际媒体数据中每条文本存在字数的束缚,而且内容随意性较强,因而怎么从中发掘愈加准确的、有意义的信息,需求进一步研讨。

近年来,深度学习技能的开展使得主动提取辨认相片语义信息成为或许。一些研讨依据对相片同享网站带有时空符号的图画进行内容剖析,提醒地舆环境的特征(图5c)。
与依据文本的语义信息提取比较,相片语义信息更为客观且丰厚。每张相片反映了摄影者关于场所的感知。周(Zhou,音译)等人运用在全球不同城市拍照的相片,研讨比较了城市的空间特征,其发现的方式有助于评价城市规划的作用[34]。考虑到文本和相片不同的表达才干,咱们以为结合文本和相片语义信息,可以全面捕获一个地舆场所给人们带来的体会。

根据空间大数据的社会感知(基于空间大数据的社会感知)  大数据 空间 社会 第5张

空间交互剖析

在地舆学研讨中,空间交互(spatial interaction)指的是两个场所之间的联络,一般可以依据人流、货流、资金流等进行量化。研讨空间交互有助于了解一个区域内部的结构以及动态演化特征。在空间大数据中,个别的移动轨道以及个别之间的交际联络都可以在集合层面量化两个场所之间的交互强度,前者如两个城市间的人流总量,后者如两个城市之间相互重视的老友对数。空间交互强度遭到间隔衰减效应的影响,间隔远的两个地舆单元间的联络相对较弱。因而,在地舆学研讨中,大多依据重力模型来拟合场所之间的交互强度,选用间隔的负幂函数(d-β)标明空间隔绝的影响。现在可用的拟合办法有线性规划法、代数求解法、模仿法等[35~37]。依据重力模型拟合成果,可以经过间隔衰减系数β来表征特定空间交互行为中间隔衰减效应的巨细,即β值越低,间隔的影响越小。实证研讨标明,关于居民在城市标准的移动行为,间隔衰减系数在1~2之间,而对运用手机、交际媒体等途径树立的空间交互,间隔衰减效应虽然较弱(β<1),但仍然存在影响[38]。

根据空间大数据的社会感知(基于空间大数据的社会感知)  大数据 空间 社会 第6张

运用地舆单元之间的空间交互,可以构建嵌入空间的网络(spatially-embedded network),并引进网络剖析办法研讨其结构特征。在该网络中,一般每个节点为一个地舆单元,而边的权重为地舆单元间交互的强度,如图6a所示,依据空间交互,构建嵌入空间的网络,然后引进网络科学剖析办法,剖析研讨区的空间结构特征[47]。在杂乱网络研讨中,常见的剖析办法是对网络进行社区发现(community detection)剖析,而网络中的社区由相对联络更为严密的节点构成。现在,用于社区发现的算法有Girvan-Newman[39]、Multilevel[40]、Fastgreedy[41]、Infomap[42]和Walktrap[43]等。关于嵌入空间的网络而言,一个社区往往对应地舆空间中联络相对严密的区域[44~47]。因为间隔衰减效应以及行政区划的影响,假如只是考虑交互强度而不考虑相邻束缚,社区发现的成果一般为空间上接连的区块,而且往往与行政区划鸿沟相一致(图6b)[48]。

结合传统空间数据的剖析和运用

城市是空间大数据发生最频频的区域。因而,空间大数据的运用研讨现在首要会集在城市区域。相关的研讨范畴有交通管理、城市规划、环境、公共卫生等。在此根底上,郑宇等提出了城市核算(urban computing)的概念,运用包含空间大数据在内的城市多源数据进行核算剖析,发现并处理城市运转中的问题[49]。

在上述运用中,除了空间大数据外,还要结合传统空间数据(如城市用地和修建数据、道路网数据、检测站点数据等)进行剖析。例如,王(Wang,音译)等人运用旧金山和波士顿区域的手机数据和路网数据,发现了交通拥堵路段的车流来历,而且给出了缓解拥堵的主张[50];郑(Zheng,音译)等人运用监测站数据、气候数据以及交通和人的移动数据,揣度城市的实时精密分辨率空气质量数据,该成果有助于城市居民规划户外活动[51]。因为空间大数据的获取树立在海量集体的空间行为的根底上,因而使咱们可以更好地感知人的行为方式及其与地舆环境之间的耦合模型。咱们以为树立在社会感知根底上的公共方针拟定,更可以表现“以人为本”的理念,有着宽广的运用远景。

空间大数据为咱们供给了一条透过海量人群的空间行为方式去调查、了解地舆环境特征及影响的研讨途径。社会感知概念的提出正是归纳了空间大数据的这种才干。空间大数据的处理,一方面需求有高效的剖析办法,一方面需求对人的行为动力学模型和地舆环境特征有充沛的了解。因而,需求信息科学、杂乱性科学、地舆学等不同学科以及不同运用范畴的学者进行通力合作,才干有用提取空间大数据中所包含的信息,并充沛表现其运用价值。

转载请说明出处
知优网 » 根据空间大数据的社会感知(基于空间大数据的社会感知)

发表评论

您需要后才能发表评论