Petr Hejl: Měl bych být asi o 10 procent lepší, než Google.

Petr Hejl: Měl bych být asi o 10 procent lepší, než Google.

Petr Hejl, toto jméno proletělo českým internetem jako blesk. Pořádné zahřmění jsme mohli sledovat hlavně po jeho vystoupení v investorském pořadu České televize Den D. Jeho nápadem je vytvoření projektu zvaného „Nový hledač„. Ten má údajně podat lepší výsledky vyhledávání, než světoví giganti, jako například Google. Pan Hejl hledá investory, kteří mu pomohou získat jeden milion korun. Jeho postava se však stala velmi sledovanou, pro někoho je tento „vynálezce“ bláznem, pro někoho však mužem na pravém místě. My jsme se s ním rozhodli udělat textový rozhovor.

Pan Hejl vystudoval ČVUT Praha, obor počítače. Vymyslel a realizoval programovací jazyk Visual Pascal. Internetovými seznamy a vyhledávači se zabývá přes 10 let. Přes 5 let pracoval pro kanadskou firmu zajišťující spojení mezi počítači a mobilními telefony. Nyní na internetu provozuje podle jeho informací 21 webových stránek, zabývá se nejen internetem, ale i  například turistikou.

Jeho projekt „Nový hledač“ je dodnes středem internetových diskuzí. Kolem něj se vyskytuje několik otazníků, které vznikly například díky utajovanému kouzlu „jiných objektů„. Zároveň však projekt obsahuje vykřičník v podobě varování, zdali je vůbec možné podobný projekt realizovat, je-li vůbec možné vymyslet lepší algoritmus, než má například světový velikán Google a mnoho dalších. Odpovědi pana Hejla na naše otázky si můžete přečíst právě v tomto rozhovoru.

Petře, Vy jste se pravděpodobně nejvíce proslavil díky svému projektu s názvem „Nový hledač“. Ten jste prezentoval nejen na internetu, ale také třeba v investorském pořadu Den D. Můžete nám tento Váš projekt vlastními slovy popsat?
Existující hledače hodnotí jednotlivé webové stránky zvlášť. Já místo toho hodnotím jiné objekty a to tematicky spojené množiny komponent internetu (webové stránky, dokumenty, obrázky, audio, video…). Tyto množiny jsou větší než webové stránky a vzájemně se více liší. Proto je pro můj algoritmus jednodušší stanovit „objektivní“ pořadí.
Sekundární změnou je Rank. Jak víte, Rank (PageRank, SRank apod.) je ve stávajících hledačích statický, tedy nezávisí na hledaném klíčovém slově. Reindexace webu se provádí tak jednou za měsíc. Já používám dynamický Rank, který závisí na hledaném klíčovém slově, tudíž je v tomto kontextu přesnější.

Uvádíte, že webové stránky hodnotíte pomocí „jiných objektů“. Bohužel právě tuto informaci nechcete více rozvádět. Můžete nám i přesto trošku více přiblížit, co se například pod těmito objekty skrývá? Co přesněji indexujete?
Já přiznávám, že hodnotím množiny, akorát neříkám, jak přesně je konstruuji a v tom je to kouzlo. Jinak si to můžete představit tak, že klasický algoritmus hledání natáhnete do Wordu a tam dáte příkaz „Nahraď WWW stránky“ za „jiné objekty“, tedy množiny. Aplikuji podobná kriteria, jako stávající hledače, ale nikoli na stránky, ale na množiny.

Kolik jste nad tímto projektem strávil času?
Nyní už přes 4 roky.

Jak Vás napadlo přemýšlet nad podobným projektem? Myslíte si, že vyhledávače v tuto chvíli zobrazují výsledky špatně? Můžete nám nějak popsat vývoj Vaší práce a Vašeho přemýšlení?
Ta historie je docela zajímavá. Před několika lety jsem po návratu z Kanady přemýšlel, co dál. Napadlo mě dělat web o turistice se zaměřením na jih Moravy , jelikož jsem Moravu docela dobře znal. Když rozjíždíte nějaký business, nejdřív se obvykle podíváte na potenciální zákazníky a konkurenty , tudíž potřebujete hledat na internetu. Zkoušel jsem různá hledání podle regionálních a turistických klíčových slov a byl jsem překvapen, jaké množství linků je při hledání špatně umístěno. Do té doby jsem považoval hledání Googlem za vyřešené. Udělal jsem si soukromou statistiku (odhad) a vyšlo mi, že špatně je umístěno zhruba 30 procent linků. Tento můj odhad potvrdila o 3 roky později studie City Group. Začal jsem přemýšlet, proč jsou ty linky tak špatně umístěné a jak by se to dalo zlepšit. Nejprve jsem trochu studoval dokumenty ke stávajícím hledačům, ale na nic jsem nepřišel. Poté jsem asi 3 roky sledoval chování cca stovky klíčových slov na 6ti hledačích, ale také jsem na nic nepřišel. Situace je totiž taková, že na klasickém algoritmu hledání, který hodnotí jednotlivé webové stránky, není už co zlepšovat. A pak mne, částečné náhodou, napadlo podívat se na věc z jiného úhlu pohledu, tedy „pod pokličku“ a sledovat místo webových stránek množiny. Domyslet to už byla otázka více méně týdne. Čtvrtý rok jsem vymýšlel algoritmus hledání a metodu porovnání výsledků různých hledačů. Také jsem udělal dokumentaci a webové stránky. Pak jsem začal hledat investory.

V čem podle Vás dnešní vyhledávače dělají největší chybu?
V principu hledání, nikoli v algoritmu. Hodnocením jednotlivých webových stránek si hodně zužují rozlišovací prostor a tím snižují kvalitu hledání. Pokud je principem hledání „rozlišování webových stránek“, má to algoritmus stanovující pořadí webových stránek obtížné. Většina webových stránek má podobnou velikost, počet výskytů hledaného klíčového slova, počet linků a zpětných linků, které se dají koupit nebo vyměnit a to dnes již dokonce systémově a podobně. Jak má pak algoritmus takové stránky dobře rozlišit? Hodnota lineárního rozlišovacího výrazu je velmi nahuštěná, takže často rozhoduje i náhoda, třeba pořadí klíčových slov v textu na stránce.
Můj princip hledání dělá jejich rozlišování o hodně snazší. Hodnoty mého lineárního rozlišovacího výrazu jsou cca 10x větší než u stávajících hledačů, tyto výrazy jsou pro moje jiné objekty roztaženy v cca 10x delším intervalu. Takže je to v podstatě prosté. Stačí tento princip vložit do algoritmu.

Jak jste otestoval, že právě Vaše výsledky jsou relevantnější, než aktuální výsledky vyhledávačů?
Tady přiznávám, že prostým odhadem. Nikdo totiž nedokáže spočítat jedno z kriterií hledání a to Rank, ani v ruce, ani na kalkulačce. Takže jsem si vzal pořadí stránek na Google podle zvoleného klíčového slova, koukal na stránky a jejich vlastnosti a odhadoval změny v pořadí při použití mého algoritmu. Vyšlo mi to asi o 10 procent lepší, než je pořadí v Google. Tedy podstatné je to, že je to lepší pořadí, byť jen „o chlup“. Ale rozdíl v kvalitě hledání mezi Googlem a Bingem je 20 procent (dle studie CityGroup) a tento rozdíl primárně způsobuje propastný rozdíl v návštěvnosti obou hledačů. Ve světě je poměr návštěvnosti Google:Bing 30:1, v USA je to 10:1 (dle StatCounter).

V pořadu Den D jste vystoupil před více než rokem. Co se za tu dobu změnilo? Vylepšil jste nějak svůj nápad? Povedlo se Vám najít nějaké investory?
Nápad samotný o moc ne. Jen jsem přidal vylepšení ve výpočtu Ranku, tedy můj dynamický Rank, který závisí na hledaném klíčovém slově. O dost jsem zlepšil dokumentaci (souhrn, business plán apod.) a webové stránky projektu. Také dovedu moji technologii lépe vysvětlit. Zatím mám investováno nebo reálně přislíbeno několik set tisíc korun. Navíc jednám s velkým investorem.

Jak hodnotíte ohlasy na Váš projekt? Přeci jen myšlenka takřka přemoci největší vyhledávače na světě je trošku odvážná. Neurazila Vás tato kritika?
Já tu nedůvěru chápu. Googláci hledali investora 3 roky a to žili v zemi neomezených možností. Silicon Valley měli za bukem a poslední rok měli dokonce k dispozici „prototyp“. Taky jim nikdo nevěřil. Docela si představuji ty odpovědi, kterých se jim v hojné míře dostávalo: „Zpětné linky? Ale pánové, vždyť ty už se používají a jak se chcete prosadit proti takovým kolosům, jako jsou Yahoo, Lycos, AltaVista nebo Netscape?“.
Jak asi víte, účastnil jsem se několika diskuzí na internetu o mém projektu. Na kritiku jsem byl připraven, ale dost mne zarazila míra závisti a nenávisti, která se v příspěvcích objevila. Já ty přispěvatele nazval šťouraly. Měl jsem dvě možnosti.Buďto se tiše vytratit nebo tu rukavici zvednout. A já hned tak z boje neutíkám a postupuji tak trochu podle hesla „oko za oko“. Pak jsem to musel převést mírně do humorné polohy, tedy ty diskuze. Zajímavá byla návštěvnost těch vláken – trhala historické rekordy. Ale na druhé straně jsem pochopil, že v těchto diskuzích investora nenajdu.

Co jste říkal na výsledek Vašeho vystoupení v pořadu Den D? Překvapily Vás názory jednotlivých investorů? Dana Bérová dokonce poukázala na to, že Vaše myšlenka je „extrémně šílená“.
Den D mě hodně naštval. Investici získal zhruba každý pátý, takže pravděpodobnost byla tak asi 1:5, na to jsem byl připraven. Ale nečekal jsem tak neodborné a nepřátelské jednání investorů. Na to jsem nebyl připraven. Klidně si to pusťte ještě jednou: přerušili mě (v rozporu s pravidly pořadu) asi tak po minutě, řeč tam vůbec nešla o mé technologii, nepadl tam na to jediný dotaz. Jen velmi málo se dotkla mého business modelu. O to více padaly otázky na vinné sklepy a hezké ženy nebo se vedly přihlouplé řeči na téma mé inteligence. Jak mohla paní Bérová moji myšlenku (tedy princip hledání) označit za šílenou, když ji neznala a ani se na ni nezeptala. Souhrnně: byla to daleko více reality show, než seriozní diskuze s potenciálními investory.

Myslíte si, že by investory zaujalo, pokud byste měl vytvořené nějaké demo a případně uvedl více informací? Přeci jen vložit investici do pouhé, dovoluji si říci, bláznivé myšlenky s mnoha otázkami, které nemůžete zodpovědět, je trošku riskantní.
Tou myšlenkou rozhodně není měřit se s Googlem, tedy s jejich stovkami funkcí a podobně, to by bylo bláhové, já se soustředím čistě na pořadí linků, kde jsem vymyslel nový princip hledání . Tento princip se snažím co nejlépe vysvětlit, samozřejmě ale nemohu prozradit ten klíč, tedy jak ty množiny konstruuji. Potenciálním investorům dokonce při osobní schůzce ukazuji, jak počítám Rank, tedy jedno z důležitých kriterií hledání.
Ale abych tu myšlenku dokázal v praxi, potřebuji realizovat ten prototyp (minihledač) a na to potřebuji tu investici 1 milion Kč. Jedná se o práci pro cca 3 lidi na 1 rok, plus servery, velké diskové pole, superrychlé připojení apod. Nejsou v tom žádné náklady na firmu, kanceláře, auta, počítače, mobily apod. Bude potřeba stáhnout a zpracovat skoro celý český internet a určitý výsek světového internetu (tam několik klíčových slov). V menším rozsahu se nedá tento prototyp realizovat, a to z důvodu zpětných linků, tedy linků, které míří
z jiných webových stránek na hodnocené webové stránky. Sorry, přemýšlel jsem nad tím, nepůjdu do nějakého parciálního řešení, menší prototyp se nedá zrealizovat, pro prototyp je potřeba celková investice 1 milion Kč. Věřím, že investora najdu, pokud ne, tak to za další 2 roky vzdám.

Jaká je podle Vás naděje na úspěch, pokud se investor skutečně najde?
Podle mě je rozdělení pravděpodobností takové:

  • Pravděpodobnost 70 procent: moje hledání bude srovnatelné nebo lepší než hledání na Google, algoritmus se prodá Microsoftu pro Bing nebo jinému vhodnému zájemci.
  • Pravděpodobnost 20 procent: moje hledání bude srovnatelné nebo lepší než hledání na Seznamu, zrealizuje se a bude se provozovat „Nový český hledač“.
  • Pravděpodobnost 5 procent: budu pokračovat ve vývoji algoritmu, zejména v optimalizaci vah kriterií a následně se řešení vrátí do jedné z výše uvedených variant.
  • Pravděpodobnost 5 procent: nevyjde ani jedna z výše uvedených variant, projekt se ukončí.

Samozřejmě se jedná pouze o můj odhad.

Neuvažoval jste o kontaktování samotného Googlu? Možná by pro Vás znamenalo i větší úspěch, pokud byste vylepšil jejich vyhledávač.
Koketuji s tou myšlenkou. Ale Vy byste koupil cizí myšlenku, když vedete nad konkurencí poměrem 30:1? Takže si myslím, že to je zatím bezpředmětné. Musel by je začít dohánět Bing a to nehrozí ani náhodou, tedy dokud nebude mít Bing můj algoritmus. (směje se) Pokud na prototypu prokážu, že moje pořadí je lepší než pořadí Google, je prodej mého algoritmu Microsoftu pro Bing daleko pravděpodobnější, tím spíše, že se mnou na toto téma již komunikovali.

Na světě je určitě řada dalších lidí, kteří hledají cesty jak vylepšit stávající vyhledávače. Proč si myslíte, že zrovna ten Váš je nejlepší?
Máte pravdu, na světě je nyní cca 100 alternativních search engines. Ale nezaznamenal jsem žádnou zmínku, že by některý z nich používal množiny místo webových stránek. Několik jsem jich zkoušel. Třeba Cuil.com byl horší Google, WolframAlfa je vysloveně propadák. S tím WolframAlfa je to pro mne docela vtipná historka. To by totiž měl být první hledač, který používá umělou inteligenci. A já jsem přesvědčen, že umělé inteligenci patří budoucnost, jen to bude ještě tak 10-20 let trvat, protože počítače se musí naučit myslet podobně jako lidé. Ale když padly zmínky, že první sémantický hledač je hotov, měl jsem z toho málem kopřivku, bál jsem se, že všechny stávající hledače včetně mého přebije. Ale když byl spuštěn a já ho vyzkoušel, musel jsem se smát. Zkusil jsem klíčové slovo „Morava“. Google dá asi 5 milionů WWW odkazů. WolframAlfa dá jedinou odpověď: river, length 278 km. Oddechl jsem si a přišlo mi to úsměvné.

Jak by si Váš vyhledávač poradil se spamem, MFA weby a podobně?
Tady můj algoritmus jednoznačně vede. Jednak Black SEO spammeři nebudou dlouho vědět, co vlastně mají „optimalizovat“, nebudou vědět, co jsou to ty jiné objekty. A až to vytuší, konstruovat „umělé“ množiny komponent internetu je daleko obtížnější, než dělat jednotlivé „umělé“ WWW (MFAčka apod.). A když už si někdo dá tu práci a takovou množinu zkonstruuje, tak to bude spíše White SEO než Black SEO, čili takové množiny budou objektivně patřit do popředí.

Nenapadlo Vás si na tento projekt půjčit například od banky?
Nikoli, a to z následujících důvodů. Jednak by to musela být půjčka 1 milion Kč a já bych v podstatě neměl čím ručit (vlastním pouze jednu polovinu bytu). Jednak z čeho bych tu půjčku splácel, pokud bych po dobu 1 roku neměl žádné příjmy? A dále, pokud bych si půjčil a projekt by nevyšel, stal by se bezdomovec nejen ze mne, ale i z dalších 2 lidí, o které se starám. Prostě, pokud má investor k dispozici řekněme 10 milionů Kč a ten milion si se mnou riskne (s vidinou fantastického a rychlého zisku), potom za těchto předpokladů případnou ztrátu (o které ví předem včetně odhadu její pravděpodobnosti) unese, nezničí ho. Mne,a nejen mne, by tato ztráta zničila. Podle mě, je nabídka investorovi na jednu polovinu projektu za jeden milion, tedy fifty:fifty, fér.

Děkuji Vám za rozhovor a držím Vám s Vaším projektem palce.
I já díky, jsem vděčný, že se mnou Objevit.cz udělalo rozhovor. Pokud by se mi skrze tento rozhovor povedl najít potenciální investor, prosím, ať zašle mail na adresu: phejl@lednice.org a můžeme si o projektu promluvit.

[poll id="54"]

Komentáře

Nahoru