Warszawski Hackerspace

This is an old revision of the document!

GlaDOS-HS

Główną ideą projektu jest stworzenie wirtualnego asystenta “wbudowanego” w HS, który potrafił by rozpoznawać mowę i odpowiadać syntezowanym głosem.

Nad nazwą jeszcze można się zastanowić, w zależności od uzyskanej “inteligencji” :)

Główne funkcje

Rozpoznawanie poleceń głosowych
Analiza poleceń i przekazanie do odpowiedniego modułu wykonawczego
- Zestaw predefiniowanych funkcji
  - Memo
  - Voice-mail
  - Wszystko to co @Maciora
- Chatterbot w trybie “freestyle” tzn uczący się od zera na podstawie tego co usłyszy od użytkowników
- Sterowanie urządzeniami w HS
- Sterowanie czymkolwiek ?
Synteza głosu

Realizacja

* Język
  * Polski czy angielski ?
    * Do angielskiego jest więcej softu  
* Rozpoznawanie mowy
  * Google ma API do rozpoznawania mowy, tu jest jakiś przykład: 
    * http://mikepultz.com/2011/03/accessing-google-speech-api-chrome-11/
* Synteza mowy
  * Z tym chyba nie ma problemu, coś się znajdzie
* Analiza mowy
  * Funkcje predefiniowane
     * Mozna "ręcznie" wykrywać konkretne frazy ale może istnieje jakiś soft do uogólniania zwrotów   
     * Memo i voice-mail wymaga wykrywania obecności użytkowników
       * Można zastosować obecny sytem at.hackerspace.pl 
   * Trzeba przejzeć istniejące chatterboty i zastanowić się, który bedzie najlepszy do naszych potrzeb  
   * Chatterbot(y) i funkcje predefiniowane muszą działać równolegle potrzebny jest zatem soft "multipleksujący" zwroty do poszczególnych analizatorów i wybierający ten najbardziej odpowiedni w danej sytuacji
* Rejestracja mowy
   * Mikrofony rozlokowane w HS
     * Wielowejściowa karta dzwiękowa 
   * Mikrofony w laptopach + plugin dla każdego
   * System musi wykrywać zwroty "wywoławcze", żeby było wiadomo od kiedy analizować mowę

Potencjalne problemy

rejestracja mowy → jak rejestrować dzwiek w kilku pomieszczeniach, tak żeby sygnał miał odpowednią jakość
wielogłosowość → jezeli mowi wiecej niz jedna osoba to robi sie szum