← Wszystkie projekty

⌁

Cookie3

Silniki zbierania danych

Zestaw skalowalnych scraperów zasilających ekosystem danych firmy treściami z YouTube, Telegrama i serwisów informacyjnych.

W czym to robiłem

.NETMongoDBDockerGitHub Actions

01

Co zrobiłem

Zbudowałem odporne na błędy potoki danych dla wielu różnych źródeł.
Normalizowałem różnorodne formaty do jednego, spójnego modelu.
Zautomatyzowałem wdrożenia i utrzymanie przez Docker i GitHub Actions.

02

Czego się nauczyłem

Pracy z różnymi API oraz radzenia sobie z limitami zapytań (rate limiting).
Budowy pipeline'ów, które przeżywają awarię pojedynczego źródła.
Myślenia o danych jako produkcie — od surowego strumienia po gotowy insight.

03

Trudności

Źródła często zmieniały strukturę — scrapery musiały być elastyczne i łatwe w naprawie.
Utrzymanie świeżości danych przy ograniczeniach po stronie zewnętrznych API.
Skala — to, co działało dla jednego źródła, trzeba było uogólnić na dziesiątki.

Zobacz wszystkie projekty →