Create archive extractor
- typowa usługa ws.clarin-pl.eu
- mająca na wejściu plik zip
- tworząca katalog z plikami txt/dźwiękowymi
- tworząca w katalogu docelowym plik z metainformacjami
Plik zip po załadowaniu będzie podlegał automatycznej analizie
-
1. rozpakowanie -
2. sprawdzenie kodowania -
3. detekcja typu plików i eliminacja exe, ukrytych plików i folderów -
4. walidacja rozszerzeń plików z listy wspieranych [pdf, txt, doc, docx, rtf??, ???] -
5. w przypadku tekstu - konwersja do txt -
6. usunięcie pustych plików -
7. zliczanie rozmiarów -
8. wykrycie rodzaju korpusu (tekstowy, mowa (wav, au, mp3)) -
9. budowa statyski korpusu - (ile i jakie rozmiary - do cennika, raport - jakie błędne pliki) -
10. Sprawdzanie plików po konwersji (mogę być puste) -
11. Poprawienie informacji o konwersji -
12. Minimalny rozmiar pliku -
13. Usuwanie pustych (pusty folder ma też jakiś rozmiar ale go nie liczyć), ukrytych folderów -
14. W przypadku błędu, czy generować raport i jaki (błędy w różnych momentach) ??