In Soviet Russia, QA systems ask YOU
Poslední dobou dělám samé meniální práce. V jistém smyslu mi to i vyhovuje, ale blbě se tím vytahuje. Teď jsem musel ručně zpracovat 542 otázek. Přišlo mi vtipné, že se tentokrát ptal systém mě.
YodaQA ke každé otázce vygeneruje několik clues (předmět otázky, sousloví) a pokusí se v databázi najít k nim náležící koncepty. Například když se ptáte na "Who directed X-Men: Days of Future Past", tak mimo jiné najde koncept "X-Men: Days of Future Past". Nebo nenajde. A pak to je průser. Mým nejnovějším úkolem (zahrnutým v pojmu entity linking) bylo projít nějaký dataset (který jsem předtím vytvořil..) a tam ručně přiřadit koncepty. Občas to bylo lehký, protože ty koncepty vybral správně. Jindy jich namatchoval tucet, protože na jména bez příjmení to najde spoustu mrdek. Nejhorší bylo, když to nenašlo nic, protože ručně hledat koncepty je docela peklo. Musel jsem kvůli tomu pracovat s jazykem SPARQL, který slušně řečeno nedává smysl.
Zpočátku jsem to dělal v textovém editoru rychlostí cca 1 otázka za minutu. Mentor mi navrhl udělat webové rozhraní, kde by se klikalo. Docela jsem se tomu bránil, protože nemusím html, ale po 3 hodinách jsem v pythonu slepil něco základního. Samozřejmě jsem kvůli tomu musel udělat několik dalších skriptů a díky tomu se to protáhlo na dva dny místo jednoho odpoledne, ale zvládl jsem nakonec udělat otázku za 30s.
To je fajn, když musíte naprogramovat nástroje pro levnou pracovní sílu jenom, abyste ty samé nástroje museli používat. Dost mě to motivovalo si s tím hrát, aby to bylo pohodlnější.
YodaQA ke každé otázce vygeneruje několik clues (předmět otázky, sousloví) a pokusí se v databázi najít k nim náležící koncepty. Například když se ptáte na "Who directed X-Men: Days of Future Past", tak mimo jiné najde koncept "X-Men: Days of Future Past". Nebo nenajde. A pak to je průser. Mým nejnovějším úkolem (zahrnutým v pojmu entity linking) bylo projít nějaký dataset (který jsem předtím vytvořil..) a tam ručně přiřadit koncepty. Občas to bylo lehký, protože ty koncepty vybral správně. Jindy jich namatchoval tucet, protože na jména bez příjmení to najde spoustu mrdek. Nejhorší bylo, když to nenašlo nic, protože ručně hledat koncepty je docela peklo. Musel jsem kvůli tomu pracovat s jazykem SPARQL, který slušně řečeno nedává smysl.
Zpočátku jsem to dělal v textovém editoru rychlostí cca 1 otázka za minutu. Mentor mi navrhl udělat webové rozhraní, kde by se klikalo. Docela jsem se tomu bránil, protože nemusím html, ale po 3 hodinách jsem v pythonu slepil něco základního. Samozřejmě jsem kvůli tomu musel udělat několik dalších skriptů a díky tomu se to protáhlo na dva dny místo jednoho odpoledne, ale zvládl jsem nakonec udělat otázku za 30s.
To je fajn, když musíte naprogramovat nástroje pro levnou pracovní sílu jenom, abyste ty samé nástroje museli používat. Dost mě to motivovalo si s tím hrát, aby to bylo pohodlnější.
Komentáře
Okomentovat