Jak student složí zkoušku, lze předpovědět podle jeho příspěvků na VKontakte

Každé slovo v analýze má své vlastní hodnocení. Diskuse na vědecká a kulturní témata, využití angličtiny

slova, stejně jako delší slova a zprávymají velký význam a slouží jako indikátory dobrých studijních výsledků. Množství emotikonů, slov nebo celých frází psaných velkými písmeny, stejně jako diskuse o horoskopech, řízení a vojenské službě, svědčí o nižších třídách ve škole.

Studie byla podpořena grantem Ruské vědecké nadace.

Smirnovova studie použitareprezentativní vzorek dat z longitudinální kohortové panelové studie HSE „Educational and Career Trajectories“ (TrEC). Studie sleduje kariérní rozvoj 4 400 studentů ze 42 regionů Ruska z univerzit účastnících se programu PISA (Program pro mezinárodní hodnocení studentů). Součástí studijních dat byla i data o studentských účtech VK (3 483 studentských účastníků souhlasilo s poskytnutím těchto informací).

"Od těchto dat v kombinaci s digitálními."stopy je obtížné získat, téměř nikdy se nepoužívají, “vysvětluje Smirnov. Mezitím takový datový soubor umožňuje vývoj robustního modelu, který lze použít na další parametry. A výsledky lze extrapolovat na všechny ostatní studenty - studenty středních a středních škol.

Jako tréninkový vzorek jsme použilizprávy z veřejných stránek VKontakte - celkem 130 575 zpráv od 2 468 lidí, kteří v roce 2012 prošli testem PISA. Test umožnil výzkumníkovi posoudit akademické schopnosti studenta i jeho schopnost prokázat své znalosti v praxi. Studie zahrnovala pouze veřejně dostupné zprávy VKontakte od dohodnutých účastníků.

Během studie bylo v postkorpusu VKontakte prováděno strojové učení bez dozoru s vektorovou reprezentací slov (celkem 1,9 miliardy slov s 2,5 miliony jedinečných slov). 

"Každý příspěvek jsme představili jako 300rozměrný."vektor zprůměrováním vektorových reprezentací všech jeho základních slov, “vysvětluje Smirnov. „Tato zobrazení příspěvků byla použita k trénování modelu lineární regrese k předpovědi hodnocení autorů příspěvků PISA.“

„Předpovědí“ výzkumníkaneznamená předpovídání budoucnosti, ale korelaci mezi vypočtenými výsledky a skutečnými výsledky dosaženými studenty u zkoušky PISA a také výsledky jejich Jednotné státní zkoušky (které jsou veřejně dostupné na internetu v agregované podobě – tj. průměrné skóre ve škole). V předběžné fázi se model naučil předpovídat data PISA. Ve výsledném modelu byly výpočty porovnány s výsledky Jednotné státní zkoušky absolventů středních škol a uchazečů o studium.

Konečný model měl být schopenspolehlivě rozpoznat, zda silný nebo slabý student napsal konkrétní příspěvek na sociální síti, nebo jinými slovy rozlišit předměty podle jejich akademického výkonu. Po období tréninku byl model schopen rozlišit mezi zprávami napsanými studenty, kteří dosáhli vysokého nebo nízkého skóre PISA (úrovně 5-6 a úrovně 0-1) s přesností 93,7%. Pokud jde o srovnatelnost PISA a USE, ačkoli se tyto dva testy liší, výzkum ukázal, že výkon studentů v těchto dvou testech silně koreluje.

Ukázalo se, že „předpokládaný akademický výkon je blízkýsouvisí s výsledky zkoušky, “- říká Smirnov. „Korelační koeficient je mezi 0,49 a 0,6. A v případě vysokých škol, kdy byly porovnány předpokládané studijní výsledky a skóre USE (informace dostupné v aktuální studii, Monitorování kvality přijímacích řízení na univerzity), výsledky také ukázaly silný vztah. Korelační koeficient je 0,83, což je výrazně vyšší než u střední školy, protože více údajů. “

Výsledek

Smirnov zdůraznil společné textové funkcepříspěvky v souvislosti s pokrokem jejich autorů. Bylo zjištěno, že použití klíčových slov (-0,08), emotikonů (-0,06) a výkřiků (-0,04) negativně koreluje s akademickým výkonem. Na druhé straně použití latinských znaků, průměrná délka zprávy a slova, velikost slovníku a entropie uživatelských textů pozitivně korelují s akademickým výkonem (od 0,07 do 0,16).

Také se potvrdilo, že žáci s různou úrovní prospěchu mají různou slovní zásobu. 

Vysoce výkonní studenti použili:

  • Anglická slova;
  • Slova související s literaturou (Bradbury, Fahrenheit, Orwell, Huxley, Faulkner, Nabokov, Brodsky, Camus, Mann);
  • Koncepty čtení (čtení, publikování, kniha, svazek);
  • Pojmy a názvy související s fyzikou (vesmír, kvantum, teorie, Einstein, Newton, Hawking);
  • Slova související s myšlenkovými procesy (myšlení, memorování).

Studenti s nízkým skóre použili slova schyby, názvy populárních počítačových her, pojmy související s vojenskou službou (armáda, přísaha atd.), termíny horoskopu (Beran, Střelec) a slova týkající se řidičských a automobilových nehod (kolize, dopravní policie, kola, tuning).

Tematické klastry: Představující slova s ​​nejvyšším a nejnižším skóre z datové sady školení

Smirnov vypočítal koeficienty pro všech 2,5 milionuslova vektorového modelu a poskytl je k dalšímu studiu. Je zajímavé, že i slova, která jsou v sadě tréninkových dat vzácná, mohou předpovídat akademický výkon. Například, i když se jméno "Newt" (jako postava z Harryho Pottera Newt Scamander) nikdy neobjeví v tréninkových datech, model může přiřadit vyšší hodnocení zprávám, které jej obsahují. To se stane, pokud se modelka dozví, že slova z románové série používají studenti, kteří dosahují dobrých výsledků, a díky učení bez dozoru modelka „intuitivně“ pochopí, že do této kategorie spadá jméno „Mlok“.

Přečtěte si také

Roční mise v Arktidě skončila a data jsou zklamáním. Co čeká lidstvo?

Sledujte, jak nový Hummer překonává překážky na silnici a pohybuje se jako krab

Ve 3. dni nemoci většina pacientů COVID-19 ztratí čich a často trpí rýmou.