Słownik języka polskiego

2 mi­nut(y)

Słow­nik ję­zy­ka pol­skie­go zbu­do­wa­ny na ba­zie tre­ści udo­stęp­nio­nych w ser­wi­sie sjp.​pl. Dar­mo­wy, le­gal­ny i wy­star­cza­ją­co so­lid­ny.

Ist­niej no­wa wer­sja słow­ni­ka opu­bli­ko­wa­na dn. 4.09.2019 w Słow­nik ję­zy­ka pol­skie­go 2019

Statystyki

Ce­cha War­tość
Roz­miar: 7,6 MiB (7 940 080)
Ilość słów: 140 891
Od­mia­ny: Tak (tak­że z sjp.​pl)
Okład­ka: Tak (au­tor: aleks)
Wer­sja: 0.99 (fi­nal be­ta)
Ak­tu­ali­za­cja ba­zy: 21 XII 2017

Link do po­bra­nia: SJP.​mobi

Przygotowanie słownika

Źró­dłem słów i od­mian w ca­ło­ści jest ser­wis sjp.​pl. Wy­se­lek­cjo­no­wa­nie słów to żad­na fi­lo­zo­fia – po­bra­łem pod­stro­ny ze sło­wa­mi i przy uży­ciu pro­stych na­rzę­dzi (głów­nie grepsed) zbu­do­wa­łem ba­zę w for­ma­cie Star­Dict TAB. Po­tem, przy uży­ciu zmo­dy­fi­ko­wa­nej wer­sji skryp­tu tab2opf.py, po­łą­czy­łem tę ba­zę z ba­zą od­mian. Sam plik z od­mia­na­mi zmo­dy­fi­ko­wa­łem je­dy­nie za­stę­pu­jąc znak koń­ca li­nii z DOS-owe­go na UNIX-owy. Tym ra­zem przyj­rza­łem się efek­tom pra­cy te­go skryp­tu i już wiem, że uży­łem go po raz ostat­ni. Go­to­wy OPF kon­wer­tu­ję do MO­BI kin­dle­ge­nem.

Po­bra­nie ha­seł do lo­kal­nej ob­rób­ki za­ję­ło 24 go­dzi­ny, zaś sa­ma pra­ca kin­dle­ge­na to ko­lej­na go­dzi­na. War­to­ści te do­ty­czą łą­cza 150 Mbps i ca­łej pra­cy w ram­dy­sku o roz­mia­rze prze­kra­cza­ją­cym 3-krot­nie wy­ma­ga­ne mi­ni­mum. „Ha­mul­co­we” to ser­wer sjp.​pl i spo­sób dzia­ła­nia kin­dle­ge­na – przy­spie­sze­nie te­go pro­ce­su jest nie­re­al­ne, na­wet przy uży­ciu znacz­nie wy­daj­niej­sze­go kom­pu­te­ra.

Testy

Na początek obrazki…

SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL

…i trochę komentarza:

  • od­mia­ny z dy­wi­zem (i in­ne) ob­słu­gi­wa­ne bez pro­ble­mów;
  • „la­skę” słow­nik roz­po­znał po­praw­nie, ale już „ła­skę” (przy od­mia­nie) po­my­lił; ta­kie po­mył­ki zda­rza­ją się jed­nak nie tyl­ko ma­szy­nom…
  • „le­ki” i „lę­ki” dzia­ła­ją lo­so­wo – naj­chęt­niej, dla obu ha­seł w od­mia­nach, Kin­dle przy­ta­cza de­fi­ni­cję al­bań­skiej jed­nost­ki mo­ne­tar­nej;
  • „bak” i „bąk” to ko­lej­na pro­ble­ma­tycz­na pa­ra – me­cha­nizm Kin­dle’a cza­sem tra­fi cel­nie, ale czę­ściej chy­bi;
  • „żo­ny” to dla Kin­dle to sa­mo co „zo­ny”, mi­mo że sa­ma „żo­na” (w pod­sta­wo­wej wer­sji) jest obec­na w słow­ni­ku i po­praw­nie wy­szu­ki­wa­na;
  • „tu­rzy­cę” i „pu­lar­dę” zna­la­zło pra­wi­dło­wo;
  • „tar­ni­na” zaś jest nie­obec­na; po­mi­mo te­go, że jest na stro­nach sjp.​pl i by­ła w po­przed­nich wer­sjach słow­ni­ka – pi­sząc ma­ło dy­plo­ma­tycz­nie: coś tu się spie*;

Co jest nie tak?

Po dro­dze „zgu­bi­ło się” kil­ka ha­seł. Wg wstęp­nych ob­li­czeń jest to 76 934 lub – w in­nym ze­sta­wie­niu (po­mi­ja­ją­cym po­wta­rza­ją­ce się ha­sła z róż­ny­mi de­fi­ni­cja­mi) – 69 146. Bra­ki te wy­ni­ka­ją naj­pew­niej z ja­kie­goś błę­du na ser­we­rze pod­czas po­bie­ra­nia ha­seł. Po­mi­mo te­go ak­tu­al­na wer­sja ma o po­nad 2000 wię­cej zi­dek­so­wa­nych słów, niż wer­sja sprzed dwóch mie­się­cy.

W chwi­li pu­bli­ka­cji te­go tek­stu ba­za słów jest już nie­ak­tu­al­na – za­nim kin­dle­gen skoń­czył pra­cę, na stro­nach sjp.​pl zmie­nio­no bli­sko 300 ha­seł i do­da­no 2 no­we.

Kil­ka od­mian jest źle roz­po­zna­wal­nych – w znacz­nej czę­ści to za­gad­nie­nie nie­roz­wią­zy­wal­ne, za­leż­ne od me­cha­ni­zmów dzia­ła­nia słow­ni­ków w for­ma­cie MO­BI. Część moż­na jed­nak po­pra­wić.

I naj­więk­szy błąd. Część ha­seł wy­stę­pu­je pod dwo­ma (lub wię­cej) róż­ny­mi po­zy­cja­mi (np. ha­sło „ży­wy”). Te ha­sła, choć brzmią (w mo­wie i pi­sow­ni) tak sa­mo, to ma­ją jed­nak róż­ne od­mia­ny. Skrypt tab2opf.py kom­plet­nie so­bie z tym nie ra­dzi. Stąd wer­sja fi­nal be­ta, czy­li ostat­nia nie w peł­ni kon­tro­lo­wa­na. W przy­szłej wer­sji (1.0) pla­nu­ję uży­cie in­ne­go me­cha­ni­zmu, któ­ry uwzględ­ni m.​in. ta­kie sub­tel­no­ści.

Alternatywa

W po­ło­wie 2016 ro­ku, San Za­moy­ski przy­go­to­wał hy­bry­dę SJP.​PL z Wi­ki­słow­ni­kiem – SJP Sa­na.

Sam po­sta­no­wi­łem w tym słow­ni­ku nie pro­fa­no­wać (pó­ki co) źró­deł z sjp.​pl, ale w pry­wat­nym słow­ni­ku sto­su­ję hy­bry­dę PWN + Wi­ki + SJP.​PL. Z uwa­gi na ten pierw­szy skład­nik po­zo­sta­je on jed­nak pry­wat­ny.

Nie­wy­klu­czo­ne, że w przy­szło­ści po­wsta­nie tu hy­bry­da ta­ka jak u Sa­na, ale z ak­tu­al­ny­mi tre­ścia­mi – oba te źró­dła są „ży­we” (sta­le ak­tu­ali­zo­wa­ne).