DEV Community

Konrad Chmielecki
Konrad Chmielecki

Posted on • Updated on

nie umiem w azure

cloud
Przyszedł mi do głowy pomysł aby stworzyć narzędzie które będzie tworzyło automatycznie napisy do polskojęzycznych filmików. Takie napisy byłyby od razu przetłumaczone na angielski.

Pierwszym etapem jest rozeznanie w dostępnych usługach zamieniające mowę na tekst.
Z racji tego że potrzebowałem rozpoznawanie polskiej mowy. Miałem zawężony dostęp do usług tego typu. Znalazłem dwóch dostawców którzy spełniali moje wymagania. Microsoft i Google.
Zacząłem od Azure Microsoftu, ze względu na więcej darmowych minut.

I tu się zaczęła moja przygoda. Miałem już wcześniej styczność z chmurą AWS jak i RouterOS. Te dwie różne rzeczy łączy jedna wspólna cecha, a mianowicie mnogość ustawień i możliwości.
Nie inaczej jest z Azure czy Google Cloud. W gąszczu opcji i usług można przepaść na kilka dobrych dni.

Więc zacząłem od dokumentacji i przykładów. Miło że jest API dostępne dla kilka języków, jak i również bezpośredni dostęp do REST API. Ja na początku wybrałem Pytona. Udało mi się wygenerować odpowiednie klucze i zacząłem eksperymentowanie.

Jednak już na początku napotkałem na ścianę która okazała się nie do przejścia. Za cholerę nie mogłem prawidłowo połączyć się z usługą. Z początku myślałem że podałem złe klucze. Potem próbowałem inne języki. Node, .Net Core zwracały mi te same błędy połączenia. Potem Pyton sypał błędami z bibliotek a Node się zawieszał. Parę godzin mi zajęła walka. Sprawdziłem również usługę zamiany tekstu na mowę. Tu miałem mały sukces bo przy pomocy curl udało mi się skomunikować z usługą przez REST API. Jeszcze próbowałem lokalny serwer usługi przez dokera. Ale mój CPU w stacji roboczej nie posiadał odpowiednich instrukcji do działania. Udało mi się uruchomić na laptopie ale z mizernym efektem.

Zazwyczaj takie rzeczy powodują że zaczynam wątpić czy jestem do tego stworzony. Wiem że jeżeli będę wystarczająco wytrwały to w końcu to ogarnę. Ale nie miałem już siły walczyć z Azure i postanowiłem spróbować z Google.
I tu o dziwo sukces. Ogarnąłem wszystko co było potrzebne. Czyli biblioteki, klucze, odpowiedni format pliku dźwiękowego.
Udało mi się na początku z kilku sekundowym nagraniem. Potem z 10 minutowym. Tylko w tym przypadku musiałem przygotować plik z ścieżką mono i wgrać go na serwer plików od Google.

Pół dnia i jedną drzemkę na to poświęciłem, ale udało się osiągnąć pierwszy etap rozpoznania terenu pod moją aplikację.
Ale wciąż się zastanawiam. Czy ja nie ogarniam, czy to może złośliwość rzeczy martwych. No bo z Google mi się udało.

Discussion (0)