智慧城市,让生活更美好
随着现代科技的不断发展进步,智慧城市的建设也在不断发展,本篇文章作者分享了有关智慧城市的内容,从智慧城市的概念、背景和发展历程、特点以及项目架构设计等内容都一一讲述,感兴趣的一起来看一下吧。
一、如何理解智慧城市/智慧城市是什么
提到智慧城市,常会想起上海2010年世博会“Better city, Better life.城市,让生活更美好”。关于智慧城市,其实没有一个共识性的定义,想从这两点谈谈对智慧城市内涵的理解。
1. 从AI+行业理解
我们在谈论AI+、智慧化概念的时候,说的是以人工智能技术升级传统行业。那智慧城市就是以人工智能技术升级城市公共服务。
麦肯锡的《智慧城市:数字科技打造宜居家园》报告中包括了出行、安全、健康、能源、水、垃圾、经济发展和住宅、参与和社区。不同厂商智慧城市解决方案覆盖的行业范围大有差异。
2. 从政府职能理解
《新型智慧城市发展报告2017》对智慧城市的定义是“智慧城市系统应是一个全面、精确、实时把老百姓需求与城市管理决策对接在一起的决策辅助系统,是一个政府、社会、公众三方参与的可持续的商业模式”。
我理解政府职能可以粗略划分为决策和服务两大类,智慧城市涉及G端、B端、C端三端用户,是把C端用户、B端企业和G端政府精准对接的辅助决策系统。
如何对宏观和产业做出更精准的决策;如何服务好企业,降低信息不对称性让企业少跑腿;如何服务好普通市民,让市民生活便利,更美好,实现更精细化的管理决策。比如阿里云城市大脑解决方案中顶层按G端、B端、C端分为优政-政府治理(G端)、惠民-城市服务(G端)和兴业-城市产业(G端)。
二、智慧城市的背景和历程/为什么会有智慧城市
2017年国家提出数字中国战略,2018年各省份制定数字经济、数字城市、数字政府等未来多年战略规划。密集出台了《关于促进智慧城市健康发展的指导意见》、《国家智慧城市顶层设计指南》、《新型智慧城市评价指标(2016年)》等。大体政策历程可以参考华润《智慧城市白皮书城市建设运营数字化转型》。
图片来源:《智慧城市白皮书城市建设运营数字化转型》
《华为AI赋能智慧城市白皮书》将智慧城市发展历程划分为试点探索(2012-2014)、落地实施(2014-2016)、发展转型(2016-2020)、新篇章(2020至今)四个阶段。划分标准是从政策文件出发进行划分。
《百度智慧城市白皮书》将智慧城市发展历程划分为概念导入期(2008-2012)、试点探索期(2012-2016)、统筹推进期(2016-2020)、集成融合期(2020至今)四个阶段。划分标准更多是从技术和推进方式来划分。
三、智慧城市项目的特点
1. 周期长、回款慢、工期紧张
从时间维度看,政府项目有周期长、回款慢、工期紧张的特点。周期以年为单位,交付部署完后还有后续运维期(一般3年)。
项目初期由渠道商务打单,政府与多家意向单位沟通,听取各家解决方案并选择最合适的。由于招投标一般中期才开始,供应商需要前期提前投入,且项目初验、终验不同阶段才能获得对应款项。
需要成本把控和风险防范。可能的风险点有,一是项目废标,如去年年底Z市公安1亿项目废标;二是客户中途替换供应商;三是客户觉得功能已经实现开始砍价。需要控制客户预期,做好投产评估。
2. 参与主体多、利益复杂
从参与主体看,政府项目有参与主体多、利益复杂的特点。参与主体有客户、供应商、监理等。客户侧,客户有不同的层级,高层领导、中层干部、基层办事员。日常工作中接触最多的是基层办事员,了解其工作流程和痛点。中层干部一般是周期性汇报或者节点决策时出现。而只有在项目启动会或者重大的汇报节点,才会和高层领导接触。
这里存在两个错位的三角形,决策权:高层领导>中层干部>基层办事员,对接密度:基层办事员>中层干部>高层领导。
政府项目一般遵循自上而下的建设路径,领导意志层层下达,过程容易扭曲。如果涉及多个部门的项目,会出现领导意见纷杂、众口难调的情况,不同部门间可能存在深层次利益冲突。
供应商侧,可能情况有,一是项目分为ABC多个包,不同的包由不同供应商负责;二是政府只会和有资质、体量大的公司签合同,这一公司作为总包,再把各模块分包给更有专业优势的分包商。
3. 需求变更频繁
这一特点是由特点2衍生的,“我不知道我要什么,我只知道我不要什么”。
智慧城市项目需求是自上而下传导的,可能是政策导向性业务需求,可能是机构领导指派的任务,也可能是为了解决机构内部问题。需求需要决策审批,由于多层级领导,决策链路长,中途易发生需求变更,可能面临多次推翻。
4. 需要考虑系统融合
这里针对二期、三期项目而言,需要考虑与一期已经建成系统的融合。即使一期做得不尽人意,客户也不会希望花了大价钱的系统就荒废了,还是希望能够和二期三期衔接起来。
5. 注重安全性
政府一般有内网和外网之分,项目注重安全性,需要本地化部署或者专有云部署。
四、智慧城市产业图谱及项目架构设计
1. 智慧城市产业图谱
图片来源:《中国信通院2020智慧城市产业图谱研究报告》
2. 智慧城市项目的架构设计
- 感知层:底层是外部数据的收集,“模态”是生物凭借感知器官(视觉、听觉、触觉、味觉、嗅觉)与经验来接收信息的通道,多模态感知指的是通过传感器、探头等硬件设备采集外部数据,将获取的信息包括文字、图片、音频、视频等进行融合。
- 平台层:数据资源中心,包含数据管理和运营、数据储存和计算、数据治理工具等模块,对从感知层采集到的数据进行加工,为模型所用。模型处理中心,包括深度分析、智能预测、视觉计算等模型。
- 应用层:即应用场景,对平台层处理过的数据和模型结果进行应用。包括优政-政府治理(TO G)、惠民-城市服务(TO C)、兴业-城市产业(TO B)。
五、智慧城市的常见问题
甲子光年曾做过两篇关于智慧城市的报道《7年了,为什么智慧城市还不智慧?》和《三问智慧城市:建设8年为何还处在初级阶段?》提到数据孤岛、数据共享难的问题。基本每个项目都会遇到这个问题,政务服务数据管理局、大数据管理局的成立,政府数据统一开放平台的建设,都是为了打破烟囱林立,数据孤岛的局面,但目前效果没有预期的好。登录一些地方的政府数据统一开放平台,很多数据目录中包含的数据字段很少,且口径较粗,都是表面数据,没有细颗粒度数据,难以展开分析和下一步工作。
六、从PM视角看智慧城市机器学习项目的落地
有天在商场看到厕所外面有一个智能屏幕,上面显示蹲位剩余情况比如“5/14”或者“空”。
我们找了一个儿童厕所试验了一下,进去关上门后从原本的0/3变成了1/3。思考下这个场景背后的需求和实现。在旅游景区、机场、火车站、商超等人流量密集的大型公共场所,上厕所经常是一个痛点,找厕所费劲、厕所排队时间长、卫生清洁状况差等。
作为管理人员,传统的解决方案是更加清晰显眼的指引路牌、合理规划蹲位、加大清洁人员值班的密度等。是否可以借助人工智能使公厕更加智慧化和便民化?
比如通过传感器、物联网技术提醒纸巾、洗手液等物资供应补给;通过人流量和物资消耗数据建模计算调整清洁频次;根据厕所人流量和距离推荐最优选择,提醒游客旅客前往人流量小的厕所等等。
这里想从PM视角将看机器学习项目落地的全过程:
1. 需求定义
在和客户沟通交流的过程中,分析客户的需求,传统方式是什么,是否需要AI加持,通过AI加持可以达到什么效果。在需求定义过程中产品需要做的事情:
- 与客户加强沟通,了解客户的需求,客户对模型能力的预期。如推荐的实时性、预测的精度、使用模型后用户满意度能提升多少等等,最好是有一个定量的目标,便于研发同学进行评估。
- 将抽象的业务问题转化为数学问题或者技术问题并传达给研发同学进行技术预研。如根据厕所人流量和距离推荐最优选择,转化为通过传感器收集到厕所人流量信息、通过LBS收集到用户和厕所的距离信息进行建模。
- 向研发介绍需求背景、业务目标、数据大致情况,由研发评估技术可行性和投产。
2. 数据采集
机器学习建模需要用到大量数据,在数据采集过程中,需要解决模型需要哪些数据输入、数据从哪里来、是否需要标注等问题。
在数据准备过程中产品需要介绍数据流转和采集方案,与研发同学共同确定所需字段和表结构。
3. 数据预处理
采集完数据后,并不能马上开始建模工作。在一个数据分析建模的项目中,数据清洗工作量可能高达80%。数据质量的好坏直接影响了建模效果,所以在数据采集完后,需要对数据进行清洗加工,确保入模数据的质量。常见的数据问题有数据缺失、日期格式不统一、重复、口径不统一、频率不统一、脏数据等,这里总结了一些数据处理的方法。
- 数据缺失处理:设定缺失阈值,如果缺失情况超出了既定阈值,就剔除相应指标,如果没有超出则保留并补全缺失值。补全方法有以某个设定的常数替换缺失值;以均值、中位数或众数替换缺失值;以随机生成的值替换缺失值。
- 去除异常值:避免极大极小值(outliner)对模型的影响,比如K-means算法对异常值非常敏感。
- 口径不一致需进行统一:有些指标是绝对值,有些指标是当期同比,有些指标是累计同比,需要进行统一。指数或已经带百分比率的指标一般不需要计算同比。
- 频率不一致需进行变频:有些是高频如日、周的指标,有些是低频如月、季的指标,需对指标进行变频处理,注意只能是高频变低频,变频也有多种计算方式,如合计值、平均值、是否限于当年等,需根据业务情况进行评估和选择。
- 进行平稳性检验:不符合平稳性检验的要进行差分处理。
在数据预处理完后,切分数据集,一般分为训练集、测试集和验证集。如果只有训练集和测试集,一般按照70/30划分,如果加上验证集,则按60/20/20划分。
在数据预处理过程中产品需要与算法共同确认数据清洗规则。
4. 模型构建
在数据清洗完后终于来到了建模这一步。此处引用刘海丰老师的定义:
建模的过程是从样本数据中提取可以很好描述数据的特征,再利用特征建立出对未知数据有优秀预测能力的模型。机器学习三大场景为分类、回归、聚类,具体应该用哪一种模型,需要根据目标变量进行定义。如果预测结果是两个离散的值,适用分类模型。如果预测结果是连续的值,适用回归模型。常见的分类算法有LR,NB,SVM,DT,RF,KNN等,常见的回归算法有lasso,ridge,gbrt,xgboost, garch常见的聚类算法有K-means, dbscan等。研发同学会根据目标变量、数据情况,结合算法优劣点,选择合适的模型。
5. 特征选择
前文提到运用机器学习模型,输入大量指标,输出目标变量的预测值。
并不是所有我们能获取的数据指标都会用在模型预测上,我们要找到优质的因子/特征,简单来说就是找到那些对目标变量Y预测效果好的解释变量X。
筛选方法有很多种,比如常见的斯皮尔曼相关系数、皮尔逊相关系数等,或者一些自研方法。在经过数理检验筛选出一批优质特征后,我们还可以从业务意义进行进一步筛选。
6. 模型训练与评估
通过不断地训练模型、验证模型和调优,达到最优的预测效果。对模型效果进行评估。回归模型常用的评价指标有MAE平均绝对误差、MSE均方误差、RMSE均方根误差,误差数值越小越好。
分类模型常用的评价指标是基于混淆矩阵的accuracy,precision,recall,F1-score等。混淆矩阵:
- True Positive(真正,TP):将正类预测为正类数;
- True Negative(真负,TN):将负类预测为负类数;
- False Positive(假正,FP):将负类预测为正类数;
- False Negative(假负,FN):将正类预测为负类数。
7. 模型融合
机器学习同时训练多个分类和回归模型,再通过集成的方式进行模型融合,提升模型预测的准确率。回归模型的融合是通过算法平均或加权平均,常见的融合方法有bagging, boosting和stacking,分类模型的融合是通过投票融合方法,票数最多的预测结果为最终结果。