
We propose a VAD using long-term 200 ms Mel frequency band statistics, auditory masking, and pre-trained two level decision tree ensemble based classifier, which allows capturing syllable level structure of speech and discriminating it from com-mon noises. Proposed algorithm demonstrates almost 100% acceptance of clear voice for English, Chinese, Russian, and Polish speech and 100% rejection of sta-tionary noises independently of loudness
Язык оригиналаанглийский
Название основной публикацииProceedings of the 7th Tutorial and Research Workshop on Experimental Linguistics ExLing 2016
Место публикацииAthens
ИздательNational and Kapodistrian University of Athens
ISBN (печатное издание)2529-1092; 978-960-466-161-9
СостояниеОпубликовано - 2016
Событие7th Tutorial and Research Workshop on Experimental Linguistics: ExLing 2016 - Санкт-Петербург, Российская Федерация
Продолжительность: 27 июн 20162 июл 2016
Номер конференции: 7


конференция7th Tutorial and Research Workshop on Experimental Linguistics
Сокращенное названиеExLing 2016
Страна/TерриторияРоссийская Федерация
Сайт в сети Internet

    Предметные области Scopus

  • Обработка сигналов

ID: 7595383