PG
Wszystkie projekty
Cookie3

Silniki zbierania danych

Zestaw skalowalnych scraperów zasilających ekosystem danych firmy treściami z YouTube, Telegrama i serwisów informacyjnych.

W czym to robiłem
.NETMongoDBDockerGitHub Actions
01

Co zrobiłem

  • Zbudowałem odporne na błędy potoki danych dla wielu różnych źródeł.
  • Normalizowałem różnorodne formaty do jednego, spójnego modelu.
  • Zautomatyzowałem wdrożenia i utrzymanie przez Docker i GitHub Actions.
02

Czego się nauczyłem

  • Pracy z różnymi API oraz radzenia sobie z limitami zapytań (rate limiting).
  • Budowy pipeline'ów, które przeżywają awarię pojedynczego źródła.
  • Myślenia o danych jako produkcie — od surowego strumienia po gotowy insight.
03

Trudności

  • Źródła często zmieniały strukturę — scrapery musiały być elastyczne i łatwe w naprawie.
  • Utrzymanie świeżości danych przy ograniczeniach po stronie zewnętrznych API.
  • Skala — to, co działało dla jednego źródła, trzeba było uogólnić na dziesiątki.
Zobacz wszystkie projekty