⌁
Cookie3 Silniki zbierania danych
Zestaw skalowalnych scraperów zasilających ekosystem danych firmy treściami z YouTube, Telegrama i serwisów informacyjnych.
W czym to robiłem
.NETMongoDBDockerGitHub Actions
01
Co zrobiłem
- Zbudowałem odporne na błędy potoki danych dla wielu różnych źródeł.
- Normalizowałem różnorodne formaty do jednego, spójnego modelu.
- Zautomatyzowałem wdrożenia i utrzymanie przez Docker i GitHub Actions.
02
Czego się nauczyłem
- Pracy z różnymi API oraz radzenia sobie z limitami zapytań (rate limiting).
- Budowy pipeline'ów, które przeżywają awarię pojedynczego źródła.
- Myślenia o danych jako produkcie — od surowego strumienia po gotowy insight.
03
Trudności
- Źródła często zmieniały strukturę — scrapery musiały być elastyczne i łatwe w naprawie.
- Utrzymanie świeżości danych przy ograniczeniach po stronie zewnętrznych API.
- Skala — to, co działało dla jednego źródła, trzeba było uogólnić na dziesiątki.