nyest.hu
Kövessen, kérem!
Legutolsó hozzászólások
A nyelvész majd megmondja
A legnépszerűbb anyagok
Írjon! Nekünk!
nyest.hu
nyest.hu
 
Csomagolhatnak az újságírók...
Már robotok írják a sportösszefoglalókat

Egy amerikai vállalkozás sportújságírói szoftvert fejlesztett ki, ami a meccsek statisztikája alapján másodpercek alatt megír egy nyelvtanilag helyes – és izgalmas – összefoglalót.

nyest.hu | 2011. szeptember 14.
|  

Talán még a nagy sportrajongók is bevallanák, hogy az azonos sporthoz tartozó meccsek összefoglalói nagyfokú hasonlóságokat tartalmaznak. Ebből a felismerésből indult ki a Narrative Science vállalkozás is. Már tíz éve tökéletesítgetik szoftverjüket, és ma már szakértők is elfogadhatóan működőképesnek ítélik meg a cég automatikusan generált sportösszefoglalóit, mely szolgáltatásnak már legalább húsz előfizetője is akad.

A program sportstatisztikára alapozva írja meg a cikket, korábbi eredményekre és összefoglalókra építve azt. Még a cikk fókuszát is maga dönti el. Meg tud különböztetni olyan fogalmakat, mint „csapatteljesítmény”, „váltakozva”, „a szezon legjobbja” és „csapat rangsorolása”. Ezekből a szoftver választja ki, hogy melyik a legrelevánsabb, és e köré építi fel az összefoglalót. Ha nagy a gólkülönbség, akkor nem egyszerűen „győzelemnek” fogja nevezni, hanem mondjuk „elsöprő sikernek”. A cikk pár másodperccel a meccs vége után már készen is áll, és azonnal olvasható az interneten. Egyelőre még csak helyi vagy egyetemi meccsek összefoglalására használják fel a megrendelők.

Következő meccs: újságírók robotok ellen...
Következő meccs: újságírók robotok ellen...

Nemcsak a sportösszefoglalók felépítése modellezhető ennyire jól. A cég ipari termelési kimutatókat és más adathalmazok feldolgozását és narratív formába ültetését is vállalja. A szoftver pontos hangolásában a megrendelők is részt vesznek. Egy építőipari híreket közlő cég is szerepel a Narrative Science kliensei között. Egy 500 szavas ilyen cikk jelenlegi költsége 10$, ami már most lényegesen kevesebb, mint amit egy újságírónak kellene fizetni.

A mesterséges intelligencia egyik guruja szerint húsz éven belül egy számítógépprogram nyerheti meg a Pulitzer Díjat újságírásban. A Narrative Science egyik alapítója inkább úgy gondolja, hogy már öt éven belül sor kerülhet erre a csodára.

A cég logója.
A cég logója.

Forrás:

The New York Times: In Case You Wondered, a Real Human Wrote This Column

Követem a cikkhozzászólásokat (RSS)
Hozzászóláshoz lépjen be vagy regisztráljon.
6 Fejes László (nyest.hu) 2011. szeptember 15. 08:58

@Nước mắm ngon quá!: Hát jó, ha neked ez fél kézzel megy, akkor csináljuk meg a Sport és Tudományt...

5 Nước mắm ngon quá! 2011. szeptember 14. 22:13

@Fejes László (nyest.hu):

Az "historikus" adatok, amennyiben azokat pl. a hivatalos labdarúgó-szövetség honlapján nem lehet megtalálni, valóban heterogén forrásokból szerezhetők csak be, bár nem volt előzetes fogalmam arról, van-e labdarúgó III. liga Dél-Koreában, de a Wikipédia szerint igen ;)

Az első osztálynak van némi komolyabbnak tűnő statisztikája:

www.kleague.com/record/record_fixture_eng.aspx

Mondjuk a Korea-dolog nem volt komoly, magyarul természetesen magyar meccsekről olvasna a közönség, az MLSZ-nek van egy adatbázisa, ami a honlapszerkesztő szerint átalakítás alatt van:

www.mlsz.info/00_base_program.asp?p_step=0&p_main_menu=1&p_sub_menu=

vagy legalábbis nálam mintha nem jelennének meg az adatok. Az adatok szerkezete, strukturáltsága mellett inkább az adatokra vonatkozó szerzői jogok jelentenek kérdést. Az MLSZ-ről jogi előtanulmányok után sem tudnám pontosan megmondani, hogy mint országos sportági szakszövetség milyen jogi személyként működik, de mivel állami finanszírozású szerv valószínűleg nem tagadhatná meg gonosz módon szerzői jogokra hivatkozva a statisztikai adatok kiadását. A honlapon az elnökségi tagokat elnézegetve, szép kis "vattaemberekkel" rendelkeznek.

A www.mlsz.hu/robots.txt szerint nem zárnak ki semmilyen crawlert, így ha sikerülne kideríteni, hogy pontosan a sok kattintgatás után (lehet, hogy csak Linuxon nem megy az alkalmazás?), hogy is érhetők el a statisztikák a 468 ezer mérkőzésről, akkor némi elemzés után vidáman le lehetne szedni mindent egy kis szkripttel. Az adatokat megtisztítva, már nem lenne nehéz egy adatbázis-modellt rajzolni és a táblákat feltölteni.

Ahogy elnézem még a Wikipédiáról is hamarabb juthatnánk hozzá az elmúlt 100 év bajnokságainak adataihoz, vagy külső gyűjteményekből: www.rsssf.com/tablesh/honghist.html

A nagyobb kihívás természetesen a mondatok "generálása" lenne, nem tudok Creative Commons vagy hasonló jogállású sporthíreket is tartalmazó híroldalról, ahonnan leszedegethetnénk egy kisebb korpuszra való cikkgyűjteményt, így a sablonokat valószínűleg sokáig kellene gyűjtögetni. Persze le lehetne szedni a Nemzet Sport honlapjáról is sutyiban egy pár ezer cikket, arra gondolva, hogy az egyes mondatfordulatok, amiket egy "sporthírgenerálóba" "táplálunk", mint a magyar nyelv részei mégsem állhatnak szerzői jogvédelem alatt, de tilosban mégsem cseresznyézünk.

Összességében azonban érdekes kihívás lenne.

4 Fejes László (nyest.hu) 2011. szeptember 14. 20:52

@Nước mắm ngon quá!: Persze, de a legnagyobb kihívás egy ekkora adatbázis megépítése lenne... Még ha csak mondjuk a nemzetközi mérkőzéseket nézzük akkor is, nem hogy a dél-koreai III. liga...

3 Nước mắm ngon quá! 2011. szeptember 14. 16:38

@Fejes László (nyest.hu):

Egy adatbázis megoldhatja ezt a kérdést is, plusz a lekérdezések, azok szerint a szempontok szerint, amelyek általában megjelennek a statisztikákban, pl. legtöbb pontot szerző játékos, leghosszabb ideje veretlen csapat, legfiatalabban pontot szerző játékos, legtöbbet eltiltott játékos, stb. Van esetleg nyilvánosan hozzáférhető weboldal, amelyeken rendszeresen és aktualizálva közzéteszik az NB I, NB II fordulóinak statisztikáit? A wikipéidán is rengeteg sportstatisztika van. Vizsgák után visszatérek a kérdésre. Legérdekesebb lenne külföldi adatokat feldolgozni, pl. reggel a vajas kifli és kávé mellett magyar nyelven olvasni, hogy mit játszottak tegnap az örmény vagy a dél-koreai III. ligában ;)

2 Fejes László (nyest.hu) 2011. szeptember 14. 14:04

@Nước mắm ngon quá!: Itt nem csak az adott meccs eredményeiről van szó, hanem a háttéradatokról is (l. a Sporthírekgenerátor c. cikket!)

1 Nước mắm ngon quá! 2011. szeptember 14. 08:56

Van ugyanilyen magyar nyelvre kifejlesztett szoftver? Ha nincs írok egyet. A Nemzeti Sportra vajon mennyiért lehetne rátukmálni? ;)

Kell egy kis sportriporter-bikkfanyelv-korpusz, amiből a sablonokat pl. egy xml-fájlba tesszük, pl. "[X] az [Y] otthonába látogatott" vagy "[A] góljával a [Z] a [n.].-dik percben kiegyenlített." Meg egy modul, amelyik a statisztika alapján eldönti, melyik mondatokba lehet azokat beilleszteni.

A poén szerintem amúgy az, hogy kell lennie valakinek, aki elmegy a mérkőzésre és felírja, ki melyik percben mit csinált, mennyire végződött a találkozó, melyik játékos produkálta a legjobb helyzeteket, gólpasszt stb. Ennyire erővel meg akár már a cikket is megírhatná. :)

Információ
X