應(yīng)用測試公司Applause最近推出了新的人工智能(AI)解決方案,承諾幫助解決算法偏見,同時提供AI訓(xùn)練所需的龐大數(shù)據(jù)。
Applause已經(jīng)為其應(yīng)用程序測試解決方案建立了龐大的全球測試社區(qū),該解決方案受到谷歌、Uber、PayPal等品牌的信任。現(xiàn)在,該公司正在利用這個相對獨特的地位,來幫助克服AI發(fā)展面臨的某些最大障礙。
11月底,Applause公司產(chǎn)品副總裁克里斯汀·西莫尼尼(Kristin Simonini)在北美AI博覽會上發(fā)表主題演講之前曾接受采訪,談到了該公司最新解決方案及其對行業(yè)的重要意義。
西莫尼尼解釋稱:“我們的客戶始終需要我們在數(shù)據(jù)收集領(lǐng)域提供額外的支持,以支持他們的AI開發(fā),培訓(xùn)他們的系統(tǒng),然后測試功能,而后半部分更符合他們傳統(tǒng)上對我們的期望。”
Applause主要與語音領(lǐng)域的公司合作,但他們也越來越多地擴展到收集和標(biāo)注圖像以及通過OCR(優(yōu)化字符識別)運行文檔等領(lǐng)域。
在當(dāng)今AI最常用的領(lǐng)域中,這種現(xiàn)有的經(jīng)驗廣度使Applause及其測試人員處于非常有利的位置,能夠就哪些方面可以做出改進提供真正有用的反饋。
具體地說,Applause的新解決方案跨越五種獨特的AI活動類型:
語音:源發(fā)聲以訓(xùn)練支持語音的設(shè)備,并對這些設(shè)備進行測試,以確保它們能夠準(zhǔn)確地理解和響應(yīng);
OCR:提供文檔和對應(yīng)的文本來訓(xùn)練識別文本的算法,并比較打印文檔和識別文本的準(zhǔn)確性;
圖像識別:交付預(yù)定義對象和位置的照片,并確保正確識別圖片和識別對象;
生物識別:獲取生物特征輸入,如人臉和指紋,并測試這些輸入是否會產(chǎn)生易于使用且實際有效的體驗;
聊天機器人:給出樣本問題和不同的意圖讓聊天機器人回答,并與聊天機器人互動,以確保它們能像人類那樣準(zhǔn)確地理解和響應(yīng)。
西莫尼尼說:“我們有準(zhǔn)備充分的全球社區(qū),能夠大規(guī)模地把某個組織可能在尋找的任何信息匯集起來,并以這種廣度和深度相結(jié)合的方式進行,這使得引入截然不同的數(shù)據(jù)來訓(xùn)練AI系統(tǒng)成為可能。”
西莫尼尼提供了部分例證,其中包括語音話語、特定文檔和符合設(shè)定標(biāo)準(zhǔn)的圖像(如“街角”或“貓”),這些數(shù)據(jù)類型是由Appleause的全球測試員提供的。缺乏這樣具有多樣性的數(shù)據(jù)集是當(dāng)今面臨的最大障礙之一,也是Applause希望幫助克服的一個障礙。
重大責(zé)任
參與開發(fā)新興技術(shù)的每個人都負(fù)有重大責(zé)任。AI特別敏感,因為每個人都知道它將對世界上大多數(shù)社會都能產(chǎn)生巨大影響,但沒有人能真正預(yù)測如何產(chǎn)生影響。
AI將取代多少工作崗位?它會被用于殺人機器人嗎?它會不會決定是否發(fā)射導(dǎo)彈?面部識別將在多大程度上應(yīng)用于整個社會?這些都是重要的問題,沒有人能給出完全肯定的答案,但圍繞著《一九八四》和《終結(jié)者》這樣的電影肯定影響公眾的想法。
關(guān)于AI的主要問題之一是偏見。算法正義聯(lián)盟等機構(gòu)所做的工作,揭示了面部識別算法的有效性取決于每個人的種族和性別之間的巨大差異。例如,IBM的面部識別算法在用于淺色皮膚的男性時,準(zhǔn)確率為99.7%,而對于深色皮膚的女性,準(zhǔn)確率僅為65.3%。
西莫尼尼強調(diào)了她最近讀到的另一項研究,其中算法識別白人男性的語音準(zhǔn)確率超過90%。然而,對于非裔美國女性來說,這一比例剛剛接近30%。
解決這種差異至關(guān)重要,不僅可以防止諸如無意中自動化種族定性或給予社會的某些部分相對于其他部分的優(yōu)勢等事情,而且也是為了讓AI充分發(fā)揮其潛力。
雖然有很多顧慮,但只要是以負(fù)責(zé)人的態(tài)度進行開發(fā),AI就擁有巨大的力量。AI可以提高效率,減少對環(huán)境的影響,讓人騰出更多時間與親人在一起,并從根本上改善殘疾人的生活。
公司不能對自己的發(fā)展承擔(dān)責(zé)任將導(dǎo)致過度監(jiān)管,而過度監(jiān)管又會導(dǎo)致創(chuàng)新減少。在被問及是否相信穩(wěn)健的測試將減少過度監(jiān)管的可能性時,西莫尼尼稱:“在某些情況下,人們可能會試圖進行監(jiān)管,但如果你真的能證明已經(jīng)做出了努力,以達到高水平的準(zhǔn)確性和深度,那么我認(rèn)為這種可能性就會降低。”
人類測試仍必不可少
Applause并不是唯一一家致力于減少算法中偏見的公司。例如,IBM有個名為Fairness 360的工具,它本質(zhì)上是一種AI系統(tǒng),用于掃描其他算法以尋找偏見存在的跡象。
在被問及為何Applause認(rèn)為人類試驗仍然必不可少時,西莫尼尼評論說:“人類在他們將如何對某事做出反應(yīng)、他們將以何種方式去做、他們?nèi)绾芜x擇與這些設(shè)備和應(yīng)用程序進行互動方面是不可預(yù)測的。我們還沒有看到在沒有人為因素的情況下能夠有效地做到這一點的跡象。”
語音識別經(jīng)常遇到的一大挑戰(zhàn)是,所說的各種語言及其地區(qū)方言。許多美國語音識別系統(tǒng)甚至在識別英格蘭西南部的口音方面存在問題。
西莫尼尼補充了關(guān)于俚語的另一個考慮因素,以及語音服務(wù)需要與不斷變化的詞匯表保持同步。她解釋說:“現(xiàn)在的青少年喜歡某些熱門或炫酷東西的時候,喜歡用‘Fire’(火)這樣的詞匯。我們能夠?qū)⑦@些設(shè)備帶入家庭,并真正試圖理解其中一些細微差別。”
西莫尼尼隨后進一步解釋了理解這些細微差別的背景所面臨的挑戰(zhàn)。在她的“Fire”例子中,顯然需要理解什么時候根據(jù)字面意思進行解釋,什么時候有人是在稱贊某些東西很酷。西莫尼尼說:“你如何區(qū)分火災(zāi)等緊急情況?音調(diào)、語氣以及其他關(guān)于如何使用相同的語音命令的東西都會有所不同。”
AI應(yīng)用和服務(wù)增長
Applause在傳統(tǒng)的應(yīng)用程序測試領(lǐng)域建立了自己的業(yè)務(wù)。考慮到AI應(yīng)用和服務(wù)的預(yù)期增長,西莫尼尼被問及是否相信其AI測試解決方案將變得與其目前的應(yīng)用測試業(yè)務(wù)一樣龐大,甚至可能更大。
對此,她回應(yīng)稱:“我們確實談到了這一點。你知道,這會以多快的速度增長?我不想一直談?wù)撜Z音,但如果你從統(tǒng)計數(shù)據(jù)上看,相對于移動設(shè)備的增長和采用,語音市場的增長正在以快得多的速度發(fā)生。我認(rèn)為它將在我們的業(yè)務(wù)中占據(jù)越來越大的份額,但我不認(rèn)為它肯定會取代任何東西,因為這些渠道(如移動和桌面應(yīng)用)仍將存在,并相互補充。”
西莫尼尼還表示:“我們選擇談?wù)摰慕嵌葘嶋H上是人類和AI之間的交集,以及為何我們不相信它會成為替代品,而是它如何發(fā)揮作用并相互補充。基本上,從測試的角度來看,以人為中心的需求仍然非常高。”
來源 |網(wǎng)易智能