近日,清華大學自動化系系統工程研究所副教授李力作為第一作者以及林懿倫,鄭南寧,王飛躍,劉躍虎,曹東璞,王坤峰,黃武陵等發表了一篇關于人工智能測試和無人車測試的英文論文《Artificial intelligence test: a case study of intelligent vehicles》,集中探討了人工智能應用領域中關于智能性的測試和設計方法。文章認為,智能性測試和機器學習的過程類似,兩者如同一個硬幣的兩面,“終生測試”將是一場持久戰。文章最后還提出了虛實結合的平行測試方法。
以下是人工智能測試與無人車測試的中文版介紹。
1. 概述
本篇文章主要是講述在人工智能應用領域對智能性的測試,基于場景和任務的測試體系的描述,以及介紹了如何設計智能性測試中基于仿真的測試及其測試指標,并在智能車這一典型人工智能領域舉例說明。
2. 無人駕駛和人工智能
人工智能(AI)通常是指機器表現出來的和人類類似的智能。現如今,人工智能已經極大的改變了我們的生活,大到自動駕駛汽車,小到掃地機器人,都是人工智能的應用領域。我們堅信,人工智能將會在未來的20年內進一步的改變我們生活包括健康,教育,娛樂,安全等各個領域。在享受人工智能的帶來的各種便利的同時,也帶來一些疑問:如何保證人工智能機器按照人類設計的思路來正確運行?無人駕駛車輛是否會在某些極端環境中失控照成事故?廚房機器人是否會把房子點燃?基于以上,我們迫切的需要對人工智能的可靠性進行規范的測試和衡量。
為了回答以上問題,我們需要思索一下人工智能的定義:維基百科對于人工智能的定義:機器所展現出來的智能;我們對其進行擴展,給出的定義:人工智能是指機器(在同樣的任務中)表現出(和人類似的、或一樣的、甚至是超過人類的)智能,明斯基(Minsky 1968)對人工智能給出過類似的定義“ [AI] is the science of making machines capable of performing tasks that would require intelligence if done by [humans]”. 明斯基的定義更加注重對完成任務的所需要的智能(原因導向),而本文的定義則更加傾向于所完成的任務所表現的智能(結果導向)。
同時必須注意到的是,為測試智能性所選擇的任務也是有特定針對性的,不同的任務測試不同方面的智能性,例如,一個文盲可能能成為一個很好的司機,但是一個眼盲的飽學之士卻無法開車。
圖靈測試是迄今為止我們所知的最早的針對智能性的測試。圖靈測試是圖靈對于人工智能的睿智思考,其核心思想是:要求計算機在沒有直接物理接觸的情況下,盡可能把自己偽裝成人類回答人類的詢問。但是,圖靈測試在無人車智能性測試方面也無法全盤套用。
當今,智能性測試有越來越多的應用領域,那么我們到底應該用何種方法來測試智能性呢?我們所提出的基于任務的智能性測試方法又有哪些優越性呢?接下來,我們將會列舉智能性測試的難點,以及我們提出測試方法如何解決這些難點,以及如何更好的設計基于“任務”的測試用例。
3. 無人駕駛智能的設計和測試
3.1. 智能性測試的困境
3.1.1. 任務的定義/描述
第一個困境是如何來更好的定義智能性測試中的任務:
圖靈測試中最大的短板就是任務的描述。需要指出的是,當今的無人駕駛車輛智能測試和中文屋等早期圖靈測試已經有了很大差別:其一,早期圖靈測試并未明確的規定測試任務以及何種答案可以視為正確,這導致一些試圖通過圖靈測試的機器經常采用摸棱兩可的方式來試圖避免直接回答。而當今的無人駕駛車輛智能測試都對任務進行了明確的界定;其二,早期圖靈測試有人來判定測試結果,而為了檢驗無人駕駛車輛的識別算法是否通過各種可能場景的測試,我們必須使用機器來幫助判定數以萬記的測試任務是否通過。
總之,我們需要建立一系列的可以量化的測試任務,這是智能性測試最根本的基礎。