數據分析與挖掘是人工智能發揮真正價值的核心。傳統的大數據分析,不管是傳統的聯機分析處理(OLAP)技術還是數據挖掘技術,都難以應對大數據的挑戰。一是執行效率低,傳統數據挖掘技術都是基于集中式的底層軟件架構開發,難以并行化,在處理TB級以上數據時效率低;二是數據分析精度難以隨著數據量提升而得到改進,特別是難以應對非結構化數據。深度學習具有自行處理、分布存儲和高度容錯等特性,非常適合處理非線性的或者模糊、不完整、不嚴密的知識和數據。智能大數據分析技術利用深度學習算法自動開展多種分析計算,探究數據資源中的規律和異常點,輔助用戶更快、更準地找到需求點,從而實現風險預測和評估。
總書記深刻指出,"要推動大數據技術產業創新發展""要運用大數據提升國家治理現代化水平"。李克強總理在今年的政府工作報告中提出,要"深化大數據、人工智能等研發應用"。公安機關必須積極推進公安大數據戰略,加快推動公安工作由信息化向智慧化升級轉型,在促進大數據與社會治理深入融合中提升社會治理能力和水平,讓打防管控的矛更利、盾更堅,切實筑牢維護國家政治安全、確保社會大局穩定、促進社會公平正義、保障人民安居樂業的堅強防線。
一、公安大數據建設要點
1.PB級數據存儲管理:信息化建設在推進,數據規模隨之飛速增長,為了滿足大規模數據的存儲和分析,大數據存儲系統應支持單一系統擴展至10PB以上規模,以滿足未來數據爆發的存儲需要
2.多種數據類型與協議支持:公安數據形式多樣,包含文檔、圖片、視頻、柵格、矢量等,因此該系統需要能夠支持結構化、半結構化、非結構化多種數據類型,提供NFS/CIFS/JDBC/ODBC等多種接口,以便業務對多種數據進行訪問和操作;
3.高質量的數據整合:好的數據質量是數據分析挖掘等有效應用的基本條件,面對公安行業交互復雜而繁多的系統,勢必需要將這些多源異構的數據進行抽取、轉換及裝載,實現數據的整合、消重,提供高質量的數據,在此基礎上進行關聯、建模,為實戰業務提供可用的數據;
4.高效的數據分析能力:百億條記錄的檢索、上千張表的碰撞、幾百個小時的視頻分析、大量的移動互聯網和社交媒體數據處理等應用,無不對大數據系統的數據分析能力提出更高的要求;
5.可管理和開放性:可管理、開放化、標準化的大數據技術體系架構,不僅可以為公安帶來更高的性價比、更出色的擴展性,更能為警務建設在大數據平臺上開展新探索、新應用解除后顧之憂;
6.安全可靠,自主可控:公安系統中很多數據關系著國家安全和人民生命財產安全,因此,要求該系統具備非常高的可靠性,同時,為進一步加強數據安全性,避免數據泄露,選用具備完全自主知識產權的國產設備和系統。
二、公安大數據的技術選型
大數據的實質是對數據的管理與開發利用,與當前以信息資源開發為核心的公安工作具有廣泛的共通性,如何借助大數據技術推動公安工作的發展和變革?技術選型非常重要。在各個企業和組織紛紛助推下,大數據領域的相關技術呈現百花齊放局面,涵蓋數據收集、存儲、計算、挖掘、資源調度等,下面就以核心的計算層和存儲層兩個維度介紹下有關技術路線和發展趨勢。
數據處理:
簡而言之,不管對何種應用,當數據量很大時就無法在一臺服務器上解決計算問題,此時分布式計算優勢就體現出來,而HadoopMapReduce的重要創新便是當處理一個大數據集時會將其任務分解并在運行的多個節點中處理,這種批處理框架常用于離線的復雜的非結構化數據處理,如ETL、數據挖掘等場景;與Hadoop的使用硬盤來存儲數據不同,Spark是基于內存的迭代計算框架,適用于需要多次操作特定數據集的應用場合;而Storm則是專門針對實時數據類型的流式計算分析框架,應用在低延遲的場景中,實現海量事件的實時分析、處理和決策。除此之外,為應對不斷增長的海量結構化數據的存儲和快速處理以及靈活的業務建模需求,數據庫系統必將引入分布式架構、MPP處理技術。
數據存儲:
上面提到了MapReduce將任務分發到多個服務器上處理大數據的能力。而對于分布式計算,每個服務器必須具備對數據的訪問能力,這就是HDFS所起到的作用,HDFS有著高容錯性、高吞吐量的特點,適合大數據集的應用。與此同時,業內也有許多其他類型的文件系統推出,不僅能解決了傳統存儲體系結構存在的難題,又能提高存儲利用率和數據讀寫性能,可以替代HDFS作為Hadoop架構的底層文件系統/數據存儲。
不同的技術思路各有偏重,由于公安業務種類繁多,大數據應用場景多樣化,除了建立各類基礎大數據資源庫之外,還需要做到事前預測警務研判、事中實時情報分析及事后案事件分析,及可視化查詢統計等,建議公安用戶基于智能融合的大數據架構構建上層應用,積極引入大數據領域的先進技術,推動公安工作邁入大數據發展階段。
三、公安大數據應用領域
(一)大數據與應急
借助大數據,既可以預測某一區域乃至全國的某種類型的犯罪趨勢,也可以預測某一時間某一具體地點某種類型的犯罪,還可以預測某一個體的犯罪概率。根據預測,我們可以制訂計劃,優化警力配置,提升行動效率。
(二)大數據之與社會維穩
互聯網成為人們日常交流、表達思想和宣泄情緒的重要平臺,也是相關內容安全保障的重要平臺。網絡輿論已成為社會輿論的重要組成部分,越來越多地引起全社會的高度重視。搜索引擎、微博、微信、論壇、貼吧等互聯網輿論集中的區域,搜集這些數據便獲取到了以往無法掌握的社會輿論動向,熱度輿論、以及輿論領袖。一些突發事件和熱點、敏感問題在網上被惡意炒作,形成強大的網上輿論氣候,各種負面信息通過互聯網的各種服務方式快速、廣泛傳播,嚴重影響社會穩定和政府單位形象?;ヂ摼W不僅是現實社會的虛擬映像,還是現實問題的聚焦鏡和放大器。
通過輿情機制,一方面可以加強互聯網信息監管,另一方面,對于及時應對網絡突發的公共事件和全面掌握社情民意,并對于及時發現社會蘊藏的潛在不穩定因素,提早預防起著重要作用。
總書記深刻指出,"要推動大數據技術產業創新發展""要運用大數據提升國家治理現代化水平"。李克強總理在今年的政府工作報告中提出,要"深化大數據、人工智能等研發應用"。公安機關必須積極推進公安大數據戰略,加快推動公安工作由信息化向智慧化升級轉型,在促進大數據與社會治理深入融合中提升社會治理能力和水平,讓打防管控的矛更利、盾更堅,切實筑牢維護國家政治安全、確保社會大局穩定、促進社會公平正義、保障人民安居樂業的堅強防線。
一、公安大數據建設要點
1.PB級數據存儲管理:信息化建設在推進,數據規模隨之飛速增長,為了滿足大規模數據的存儲和分析,大數據存儲系統應支持單一系統擴展至10PB以上規模,以滿足未來數據爆發的存儲需要
2.多種數據類型與協議支持:公安數據形式多樣,包含文檔、圖片、視頻、柵格、矢量等,因此該系統需要能夠支持結構化、半結構化、非結構化多種數據類型,提供NFS/CIFS/JDBC/ODBC等多種接口,以便業務對多種數據進行訪問和操作;
3.高質量的數據整合:好的數據質量是數據分析挖掘等有效應用的基本條件,面對公安行業交互復雜而繁多的系統,勢必需要將這些多源異構的數據進行抽取、轉換及裝載,實現數據的整合、消重,提供高質量的數據,在此基礎上進行關聯、建模,為實戰業務提供可用的數據;
4.高效的數據分析能力:百億條記錄的檢索、上千張表的碰撞、幾百個小時的視頻分析、大量的移動互聯網和社交媒體數據處理等應用,無不對大數據系統的數據分析能力提出更高的要求;
5.可管理和開放性:可管理、開放化、標準化的大數據技術體系架構,不僅可以為公安帶來更高的性價比、更出色的擴展性,更能為警務建設在大數據平臺上開展新探索、新應用解除后顧之憂;
6.安全可靠,自主可控:公安系統中很多數據關系著國家安全和人民生命財產安全,因此,要求該系統具備非常高的可靠性,同時,為進一步加強數據安全性,避免數據泄露,選用具備完全自主知識產權的國產設備和系統。
二、公安大數據的技術選型
大數據的實質是對數據的管理與開發利用,與當前以信息資源開發為核心的公安工作具有廣泛的共通性,如何借助大數據技術推動公安工作的發展和變革?技術選型非常重要。在各個企業和組織紛紛助推下,大數據領域的相關技術呈現百花齊放局面,涵蓋數據收集、存儲、計算、挖掘、資源調度等,下面就以核心的計算層和存儲層兩個維度介紹下有關技術路線和發展趨勢。
數據處理:
簡而言之,不管對何種應用,當數據量很大時就無法在一臺服務器上解決計算問題,此時分布式計算優勢就體現出來,而HadoopMapReduce的重要創新便是當處理一個大數據集時會將其任務分解并在運行的多個節點中處理,這種批處理框架常用于離線的復雜的非結構化數據處理,如ETL、數據挖掘等場景;與Hadoop的使用硬盤來存儲數據不同,Spark是基于內存的迭代計算框架,適用于需要多次操作特定數據集的應用場合;而Storm則是專門針對實時數據類型的流式計算分析框架,應用在低延遲的場景中,實現海量事件的實時分析、處理和決策。除此之外,為應對不斷增長的海量結構化數據的存儲和快速處理以及靈活的業務建模需求,數據庫系統必將引入分布式架構、MPP處理技術。
數據存儲:
上面提到了MapReduce將任務分發到多個服務器上處理大數據的能力。而對于分布式計算,每個服務器必須具備對數據的訪問能力,這就是HDFS所起到的作用,HDFS有著高容錯性、高吞吐量的特點,適合大數據集的應用。與此同時,業內也有許多其他類型的文件系統推出,不僅能解決了傳統存儲體系結構存在的難題,又能提高存儲利用率和數據讀寫性能,可以替代HDFS作為Hadoop架構的底層文件系統/數據存儲。
不同的技術思路各有偏重,由于公安業務種類繁多,大數據應用場景多樣化,除了建立各類基礎大數據資源庫之外,還需要做到事前預測警務研判、事中實時情報分析及事后案事件分析,及可視化查詢統計等,建議公安用戶基于智能融合的大數據架構構建上層應用,積極引入大數據領域的先進技術,推動公安工作邁入大數據發展階段。
三、公安大數據應用領域
(一)大數據與應急
借助大數據,既可以預測某一區域乃至全國的某種類型的犯罪趨勢,也可以預測某一時間某一具體地點某種類型的犯罪,還可以預測某一個體的犯罪概率。根據預測,我們可以制訂計劃,優化警力配置,提升行動效率。
(二)大數據之與社會維穩
互聯網成為人們日常交流、表達思想和宣泄情緒的重要平臺,也是相關內容安全保障的重要平臺。網絡輿論已成為社會輿論的重要組成部分,越來越多地引起全社會的高度重視。搜索引擎、微博、微信、論壇、貼吧等互聯網輿論集中的區域,搜集這些數據便獲取到了以往無法掌握的社會輿論動向,熱度輿論、以及輿論領袖。一些突發事件和熱點、敏感問題在網上被惡意炒作,形成強大的網上輿論氣候,各種負面信息通過互聯網的各種服務方式快速、廣泛傳播,嚴重影響社會穩定和政府單位形象?;ヂ摼W不僅是現實社會的虛擬映像,還是現實問題的聚焦鏡和放大器。
通過輿情機制,一方面可以加強互聯網信息監管,另一方面,對于及時應對網絡突發的公共事件和全面掌握社情民意,并對于及時發現社會蘊藏的潛在不穩定因素,提早預防起著重要作用。