台灣留學生出席國際會議補助

2008年7月31日 星期四

Natural Language Processing and e-Government: Crime Information Extraction from Heterogeneous Data Sources

論文發表人:顧值豪 (加州克萊爾蒙研究大學 資訊系統與科技博士班)
 
 
許多資訊可以用來幫助警方人員以阻止犯罪或是破案,但是過去這些資訊並沒有被完整的收集及利用。因為目前提供市民報案的方式有限,且並不是最佳的方式。警方人員沒有足夠的人力和時間來作完整的筆錄,再者受害者與目擊者擔心被報復或是暴露個人隱私,因此沒有到警局報案,這些都是資料無法完整收集的一些因素。我們目前利用自然語言處理和Cognitive interview (有關心理學的interview方式) 的技術來開發線上interview系統,提供市民報案。我們採用Open Source的工具GATE (General Architecture for Text Engineering)作為資料萃取的架構,並收集開發豐富的犯罪資訊相關的字彙,例如武器、交通工具、公司名稱、人體部位、衣服、個人物品…等資訊。我們開發了超過750條的資訊萃取規則,並加上自行開發的字串比對演算法來過濾重複的字串,並取得較佳的字串。為了要驗證和評估我們的演算法,我們從網路上收集了多樣化的犯罪報告。犯罪資料來源來自於新聞、警察公開資料、論壇、部落格和其他的來源。我們把資料分成警方的報告和見證人的報告。警方的資料一般是來自於警局和新聞內容,資料通常非常制式化,很多文法和拼字的錯誤都被更改,句子的架構也都重整過。至於見證者的報告是屬於最原始的資料,通常包含很多文法和拼字錯誤。我們利用precision和recall來評估整個系統的效能。我們並建立gold standard來加強評估的可信度。我們的系統處理警方的報告可以達到96%的precision和83%的recall。同時處理見證者的報告也可以達到93%的precision和77%的recall。為了改進系統處理見證者報告的效能,我們採用spell checker來矯正拼字錯誤,最後發現使用spell checker可以改進precision(從93%進步到94%)和recall(從77%進步到79%)。我們下一步將開始產生圖形和整理不同資料的來源,期望我們的系統可以取得更多資訊並幫助警方迅速的破案。
 
Much information that could help solve and prevent crimes is never gathered because the reporting methods available to citizens and law enforcement personnel are not optimal. Detectives do not have sufficient time to interview crime victims and witnesses. Moreover, many victims and witnesses are too scared or embarrassed to report incidents. We are developing an interviewing system that will help collect such information. We report here on one component, the crime information extraction module, which uses natural language processing to extract crime information from police reports, newspaper articles, and victims' and witnesses' crime narratives. We tested our approach with two types of document: police and witness narrative reports. Our algorithms extract crime-related information, namely weapons, vehicles, time, people, clothes, and locations. We achieved high precision (96%) and recall (83%) for police narrative reports and comparable precision (93%) but somewhat lower recall (77%) for witness narrative reports. The difference in recall was significant at p < .05. We then used a spell checker to evaluate if this would help with witness narrative processing. We found that both precision (94 %) and recall (79%) improved slightly.