Autor Wątek: Web Scrapping  (Przeczytany 3386 razy)

Offline komorra

  • Użytkownik
    • Blog naszego teamu (o grze Voxelfield)

# Grudzień 09, 2015, 09:17:13
Czy jeżeli napiszę aplikację, która umożliwia parsowanie (web scrapping) różnych stron web, to będzie to legalna aplikacja? Czy też będzie ona naruszać prawa tych stron?

Chodzi mi po głowie apka, która z różnych stron (np. sklepy internetowe) pobierała by info o produktach (ceny, parametry produktów), poprównywała je, robiła jakieś charty i zestawienia - czy taki "proceder" jest legalny :P ?

Offline Mr. Spam

  • Miłośnik przetworów mięsnych

Offline Xion

  • Redaktor
    • xion.log

  • +1
# Grudzień 09, 2015, 09:27:05
Cytuj
web scrapping
Web scraping. Chyba że sugerujesz, aby Internet rozebrać na kawałki i wywieźć na wysypisko ;P

Co do pytania, to są tu dwie osobne sprawy. Po pierwsze, ToS samych stron; wiele będzie miało przynajmniej zapis o "termination/suspension of service" który może być zastosowany "at their own discretion", więc chociażby na tej podstawie mogą zawsze cię zbanować. Oczywiście pozostaje możliwość obejścia filtrów typu IP czy User-Agent, ale pytanie brzmi czy chcesz pozostawać w takiej antagonistycznej relacji ze źródłem biznesu dla swojej apki czy strony.

W hipotetycznej sytuacji, jeśli twoja apka/strona stanie się popularna i wyjdzie, że scrape'ujesz dane z jakiejś innej strony bez zgody jej autorów, to będzie to raczej kiepski PR.

Druga sprawa to potencjalne prawa autorskie do contentu, który w ten sposób uzyskasz. Tutaj raczej nie ma znaczenia, czy pobrałeś go ręcznie czy automatycznie.

Oczywiście wszystko powyżej obarczone jest tradycyjnym disclaimerem IANAL.

Offline Xender

  • Użytkownik

  • +1
# Grudzień 09, 2015, 09:39:21
W hipotetycznej sytuacji, jeśli twoja apka/strona stanie się popularna i wyjdzie, że scrape'ujesz dane z jakiejś innej strony bez zgody jej autorów, to będzie to raczej kiepski PR.

Pomijając kwestie prawne:

Jeśli aplikacja ma służyć do porównywania ceny w różnych konkurencyjnych sklepach, to kwestia czy sklepy się na to zgadzają PR-owo (powtórzę: pomijając kwestie prawne) schodzi na dalszy plan.


Ja na przykład jako użytkownik uBlocka śmieję się, że reklamodawcy mogą się "nie chcieć zgadzać".
Psychologicznie - podobna przyczyna.


Jakby ktoś nie zrozumiał, to napiszę jeszcze raz, że moja odpowiedź odnosi się do tylko jednego aspektu ("jak to będzie postrzegane") i pomija kwestie prawne.
Żeby zaraz ktoś nie zacytował mojej odpowiedzi, odpisując, że "ale cośtam prawnie cośtam". ;P
« Ostatnia zmiana: Grudzień 09, 2015, 09:45:20 wysłana przez Xender »

Offline 10log

  • Użytkownik

  • +1
# Grudzień 09, 2015, 09:41:13
Powinieneś zrobić raczej odwrotnie. Nie ty powinieneś zbierać informacje ze sklepów tylko sklepy powinny te informacje udostępniać dla Ciebie. Tak działają chyba wszystkie porównywarki (np. Ceneo, Nokaut). Po stronie sklepu generuje się XMLa z danymi o produktach i wtedy Twoja porównywarka zbiera te informacje i wyświetla zestawienia.
To właścicielom sklepów internetowych powinno zależeć na tym aby się znaleźć na takiej liście. A jeśli sami wystawiają informacje o produktach to wtedy raczej nie ma problemów z prawami autorskimi.
Tobie też odpada żmudne wyłuskiwanie danych ze stron.
No chyba że zależy Ci na innych danych niż informacje o produktach np. adresy e-mail ;)

Offline Kos

  • Użytkownik
    • kos.gd

  • +2
# Grudzień 09, 2015, 09:42:35
A jeśli sami wystawiają informacje o produktach to wtedy raczej nie ma problemów z prawami autorskimi.

I tak sami wystawiają. Nie ma z prawnego punktu widzenia różnicy czy wystawiają jako HTML czy jako XML/JSON.

Offline 10log

  • Użytkownik

# Grudzień 09, 2015, 09:50:54
I tak sami wystawiają. Nie ma z prawnego punktu widzenia różnicy czy wystawiają jako HTML czy jako XML/JSON.

Nie chodzi o format zapisu tylko o cel w jakim właściciel wystawia takiego XMLa. Jeśli sprzedawca generuje taki plik dla porównywarki to zgadza się na pobieranie tych danych.

Offline Kos

  • Użytkownik
    • kos.gd

  • +1
# Grudzień 09, 2015, 09:55:58
Jeśli sprzedawca generuje taki plik dla porównywarki to zgadza się na pobieranie tych danych.

Samo wystawienie pliku nie jest równoważne zgodzie na cokolwiek. Możesz to robić i o tym nawet nie wiedzieć (bo zainstalowałeś sobie skrypt do sklepu który ma to domyślnie włączone).

Inna sprawa, czy zgoda jest potrzebna. Automatyczne agregowanie, indeksowanie i zestawianie danych z internetu chyba nie wymaga jakiegoś szczególnego pozwolenia od autora strony lub właściciela sklepu? Gdyby wymagało, to takie np. wyszukiwarki miałyby strasznie pod górkę...

Offline 10log

  • Użytkownik

# Grudzień 09, 2015, 13:21:11
Dlatego napisałem, że o ile chodzi o takie coś jak porównywarka to działa to w drugą stronę. Nie my szukamy po sieci co można porównać tylko Ci co chcą być porównywani dodają swoje produkty do porównywarki.
Wtedy na 100% nie ma problemów z prawami autorskimi. W ogóle w porównywarkach to plik XML generujemy i jawnie link wklejamy na swoim koncie w porównywarce w celu skasowania nas za kliknięcie. W sumie mało ma to wspólnego ze scrapingiem :).

Offline komorra

  • Użytkownik
    • Blog naszego teamu (o grze Voxelfield)

# Grudzień 09, 2015, 15:28:07
Hmm.. no bo z punktu widzenia klienta, to wystawiają już te dane w HTML. Program jedynie automatyzuje czynność żmudną, jaką jest wejście na 50 sklepów/portalów aukcyjnych i wybranie sobie dobrej oferty. Rozum podpowiada że można bezpiecznie pójść w napisanie takiego "automatu".

btw ale zastanawiające jest dla mnie dlaczego spora rzesza usług webscrapingowych to nie jakieś cloudowe apki, tylko wtyczki na przeglądarki. Czy to chodzi o duży demand obliczeniowy czy też może znak że "umywamy rączki jakby co" ?

Offline Kos

  • Użytkownik
    • kos.gd

  • +1
# Grudzień 09, 2015, 15:34:26
btw ale zastanawiające jest dla mnie dlaczego spora rzesza usług webscrapingowych to nie jakieś cloudowe apki, tylko wtyczki na przeglądarki. Czy to chodzi o duży demand obliczeniowy czy też może znak że "umywamy rączki jakby co" ?

Bo to po prostu narzędzia, a nie 'X as a service'. Jak msz ściągać połowę internetu, to na swoim łączu, a nie na ichnim.

Chociaż są też takie rzeczy jak import.io - podkładasz stronę i Ci generują API restowe. :)

Offline Zarejestruj

  • Użytkownik

# Grudzień 10, 2015, 09:19:57
Przecież parsowanie html to jest wyciąganie różnych danych ze źródła strony. Czy jak otworzysz źródło strony to będzie to nielegalne? Nigdzie nie jest przesyłana informacja, że sobie coś kopiujesz z tego źródła albo przerabiasz w poszukiwaniu jakichś zwrotów jakimś programem.
« Ostatnia zmiana: Grudzień 10, 2015, 09:22:56 wysłana przez Zarejestruj »

Offline Krzysiek K.

  • Redaktor
    • DevKK.net

# Grudzień 10, 2015, 16:12:07
Cytuj
Czy jeżeli napiszę aplikację, która umożliwia parsowanie (web scrapping) różnych stron web, to będzie to legalna aplikacja? Czy też będzie ona naruszać prawa tych stron?
Nazwij to wyszukiwarką, tylko poprawnie obsłuż robots.txt. ;)

Offline koirat

  • Użytkownik

# Grudzień 10, 2015, 18:02:49
@komora Skąd w ogóle wytrzasnąłeś to Web Scrapping ?
Zakładam że chodzi ci o Web Crawler.

Offline komorra

  • Użytkownik
    • Blog naszego teamu (o grze Voxelfield)

# Grudzień 10, 2015, 18:05:38
@koirat: w trakcie "researchu" parę razy obiło mi się o oczy, później zobaczyłem że jest takie pojęcie również w wiki: https://en.wikipedia.org/wiki/Web_scraping

Offline Xion

  • Redaktor
    • xion.log

# Grudzień 10, 2015, 18:45:12
Przecież parsowanie html to jest wyciąganie różnych danych ze źródła strony. Czy jak otworzysz źródło strony to będzie to nielegalne? Nigdzie nie jest przesyłana informacja, że sobie coś kopiujesz z tego źródła albo przerabiasz w poszukiwaniu jakichś zwrotów jakimś programem.
Może być. Patrz moja wcześniejsza uwaga o prawie autorskim.