語音識別語音采集工作指導書
語音識別&語音喚醒處理是語音學與數字信號處理技術相結合的交叉學科,首先我們將語音當做一種特殊的信號,即一種“復雜向量”來看待。也就是說語音識別更多的還是體現了數字信號處理技術。
客戶希望將語音識別技術應用于某一實際領域,并對語音做語音喚醒&語音識別處理。我們需要在實際語音與數字信號的理論之間搭了一座橋。
語音識別采集工作內容及任務:
采集150---300人的語音樣本
語音識別采集工具:
元趣便攜式語音識別采集卡
語音識別采集環境要求:
1:安靜環境
2:非空曠房間 3:非全玻璃隔斷環境
每錄制二三十個人,{zh0}切換一下錄制環境,
比如不同的房間,或者同一個房間不同的方位
語音識別采集人群要求:
1:男女比例盡量達到 1:1
2:人群年齡在18---60歲之間,盡量均勻分布,20~50歲可以多一點
3:人群地域來源盡可能廣泛
語音識別采集標準規范:
語音識別錄制的時候必須兩塊錄音板同時進行,
一方面可以增加語音識別數據,
另外一方面可以防止一塊錄制的數據出問題。
語音識別采集步驟:
語音識別采集人麥距離:1米,3米,5米
{dy}步: 采樣人在確認元趣便攜式語音識別采集卡在正常上電工作的前提下,要求說話人在距離語音識別采樣設備1米距離,用普通話,以正常語速,正常的語音語調,按照提供的喚醒詞及指令詞清單,說出清單上的所有文字,要求每個詞說完后,停頓1秒以上。
第二步: 要求說話人在距離語音識別采樣設備1米距離,用普通話,以稍快一點的語速,正常的語音語調,按照提供的喚醒詞及指令詞清單,說出清單上的所有文字,要求每個詞說完后,停頓1秒以上。
第三步:
要求說話人在距離語音識別采樣設備1米距離,用普通話,以稍慢一點的語速,正常的語音語調,按照提供的喚醒詞及指令詞清單,說出清單上的所有文字,要求每個詞說完后,停頓1秒以上。
第四步: 要求說話人在距離語音識別采樣設備3米距離,重復以上{dy},第二,第三步。
第五步: 要求說話人在距離語音識別采樣設備5米距離,重復以上{dy},第二,第三步。
第六步:
語音采集人將采集到的語音文件,命名并標注好說話人性別及年齡,籍貫信息
第七步:
開始采集下一個人員聲音樣本。
第八步:
匯總語音提供者的信息,生成EXCEL表。將所有采集到的語音樣本,以***格式保存成包文件,上交給上海元趣
技術部評估采樣的樣本質量是否符合要求。
附文:語音識別采集原理
在進行模擬/數字信號的轉換過程中,
當采樣頻率fs.max大于信號中{zg}頻率fmax的2倍時,
即:fs.max>=2fmax,
則采樣之后的數字信號完整地保留了原始信號中的信息,
一般實際應用中保證采樣頻率為信號{zg}頻率的5~10倍;
采樣定理又稱奈奎斯特定理。
語音識別采樣頻率
語音識別采樣頻率,也稱為采樣速度或者采樣率,
定義了每秒從連續信號中提取并組成離散信號的采樣個數,
它用赫茲(Hz)來表示。
采樣頻率的數是采樣周期或者叫作采樣時間,
它是采樣之間的時間間隔。
通俗的講采樣頻率是指計算機每秒鐘采集多少個聲音樣本,
是描述聲音文件的音質、音調,衡量聲卡、聲音文件的質量標準。
語音識別采樣頻率只能用于周期性采樣的采樣器,
對于非周期性采樣的采樣器沒有規則限制。
采樣頻率的常用的表示符號是 fs。
語音識別采樣頻率越高,即采樣的間隔時間越短,
則在單位時間內計算機得到的聲音樣本數據就越多,
對聲音波形的表示也越jq。
語音識別采樣頻率與聲音頻率之間有一定的關系,根據采樣定理,
只有采樣頻率高于聲音信號{zg}頻率的兩倍時,
才能把數字信號表示的聲音還原成為原來的聲音。
這就是說采樣頻率是衡量聲卡采集、記錄
和還原聲音文件的質量標準。
語音識別采樣位數和采樣率對于音頻接口來說是最為重要的兩個指標,也是選擇音頻接口的兩個重要標準。
無論語音識別采樣頻率如何,
理論上來說語音識別采樣的位數決定了音頻數據{zd0}的力度范圍。
每增加一個語音識別采樣位數相當于力度范圍增加了6dB。
語音識別采樣位數越多則捕捉到的信號越jq。
對于語音識別采樣率來說你可以想象它類似于一個照相機,
16KHz意味著音頻流進入計算機時計算機每秒
會對其拍照達16000次。
顯然語音識別采樣率越高,計算機攝取的圖片越多,
對于原始音頻的還原也越加jq .
不同需求,不同市場,總有一款
高xjb芯片方案適合您!
http:///
肖先生 微信:dao91123