8.1.19.1.1. cltk.tokenizers.lat package

8.1.19.1.1.1. Submodules

8.1.19.1.1.2. cltk.tokenizers.lat.lat module

Latin word tokenization - handles enclitics and abbreviations.

class cltk.tokenizers.lat.lat.LatinLanguageVars[source]

Bases: PunktLanguageVars

class cltk.tokenizers.lat.lat.LatinWordTokenizer[source]

Bases: WordTokenizer

Tokenize according to rules specific to a given language.

ENCLITICS = ['que', 'n', 'ne', 'ue', 've', 'st']
EXCEPTIONS = ['semen', 'utraeque', 'legione', 'memnone', 'nonne', 'utcumque', 'niue', 'continue', 'vive', 'peropportune', 'quandocumque', 'fine', 'an', 'impoene', 'impone', 'fue', 'uesane', 'christiane', 'orphne', 'lacedaemone', 'inurbane', 'exin', 'non', 'quin', 'remove', 'corone', 'lumine', 'plerarumque', 'serene', 'omine', 'epitheton', 'inest', 'conseque', 'sue', 'catone', 'praegraue', 'taprobane', 'sicine', 'cupidine', 'perbene', 'carmen', 'abusque', 'cyllene', 'pallene', 'novatian', 'pelion', 'lascive', 'mone', 'myrmidone', 'inane', 'digne', 'inique', 'erigone', 'ubique', 'uterque', 'uimine', 'calve', 'faune', 'maligne', 'roxane', 'immane', 'troiane', 'alsine', 'lene', 'tamen', 'utique', 'hedone', 'quacumque', 'istucine', 'sophene', 'pleione', 'hodierne', 'quaecumque', 'ferrugine', 'seditione', 'iasone', 'tantine', 'hunccine', 'imagine', 'semine', 'quemcumque', 'simulatque', 'prospicue', 'summove', 'usquequaque', 'bene', 'oenone', 'consone', 'daphne', 'attamen', 'ascanione', 'zone', 'propone', 'uiue', 'cardine', 'regione', 'bove', 'turbine', 'ratione', 'incongrue', 'torone', 'quisque', 'crine', 'heroine', 'clymene', 'nullane', 'post', 'unoquoque', 'cuique', 'alcuin', 'grave', 'quocumque', 'tegmine', 'susiane', 'praecipue', 'amne', 'prasiane', 'robigine', 'cacumine', 'proditione', 'suppone', 'pan', 'homine', 'uirgine', 'tertullian', 'acrisione', 'caen', 'babylone', 'messene', 'aspargine', 'quomodocumque', 'tyrrhene', 'leue', 'mnemosyne', 'epidamne', 'unguine', 'torque', 'deucalion', 'germane', 'nave', 'quinque', 'curve', 'stamine', 'obsidione', 'latine', 'assidue', 'melpomene', 'namque', 'opportune', 'pulmone', 'helene', 'remoue', 'retine', 'hicne', 'persephone', 'asine', 'procne', 'albane', 'insigne', 'solane', 'deest', 'paene', 'ingenue', 'chronicon', 'barine', 'aesone', 'inguine', 'serrane', 'amasene', 'quodcumque', 'adsuetudine', 'condigne', 'tirone', 'crimen', 'plene', 'bizone', 'calymne', 'patalene', 'transitione', 'carcine', 'utrobique', 'quemque', 'châtillon', 'pene', 'flumen', 'saeue', 'erinyn', 'perexigue', 'carmine', 'sperne', 'saturne', 'theophane', 'orion', 'titan', 'aquilone', 'aniene', 'asiane', 'superflue', 'utroque', 'utrarumque', 'gradive', 'peraeque', 'unamquamque', 'subtemine', 'utrosque', 'nuncine', 'subpone', 'desine', 'euadne', 'aue', 'quique', 'elephantine', 'ambitione', 'harundine', 'boue', 'formidine', 'sepone', 'supine', 'uulcane', 'priuigne', 'almone', 'agmen', 'salue', 'circumundique', 'curue', 'rhene', 'caue', 'prodest', 'huncine', 'libidine', 'selene', 'ubicumque', 'condicione', 'crimine', 'python', 'indigne', 'quarumque', 'inconcinne', 'labiene', 'alcyone', 'uoragine', 'utrimque', 'cyane', 'hymen', 'inpone', 'neve', 'euphrone', 'culmen', 'inseque', 'quicque', 'arachne', 'ordine', 'nerine', 'utraque', 'munimine', 'praefiscine', 'promiscue', 'quomque', 'euphrosyne', 'usque', 'inpune', 'origine', 'rubigine', 'nomine', 'summoue', 'abest', 'john', 'plerorumque', 'utrique', 'dein', 'agamemnone', 'feminine', 'uniuscuiusque', 'apolline', 'grandine', 'siccine', 'sin', 'hucine', 'elleborine', 'lanugine', 'antigone', 'unicuique', 'lucan', 'romane', 'gorgone', 'quascumque', 'phaethon', 'mane', 'quandoque', 'contigue', 'quaeque', 'quibusque', 'certamen', 'chamaemyrsine', 'faue', 'quorumque', 'quoscumque', 'germine', 'praegrave', 'donique', 'limen', 'umbone', 'specimen', 'depone', 'perspicue', 'flamine', 'hucusque', 'chione', 'moue', 'neptune', 'medicamine', 'catacecaumene', 'plerosque', 'nouatian', 'aparine', 'perenne', 'congrue', 'adaeque', 'aenean', 'quicumque', 'magne', 'indagine', 'bubone', 'temne', 'tenue', 've', 'amoene', 'lasciue', 'hicine', 'unaquaeque', 'bone', 'ciue', 'fatue', 'plerasque', 'cognomine', 'hesione', 'somne', 'sulmone', 'unaquaque', 'christian', 'quarumcumque', 'commagene', 'hippocrene', 'fave', 'en', 'phryne', 'atque', 'pitane', 'bipenne', 'in', 'iasione', 'crastine', 'quibuscumque', 'chaone', 'fune', 'cacumen', 'quousque', 'numen', 'progne', 'spiramine', 'nyctimene', 'mitylene', 'compone', 'quamque', 'exue', 'bellone', 'mesene', 'gradiue', 'plane', 'pirene', 'st', 'plerisque', 'cunque', 'n', 'utrorumque', 'adusque', 'quidcumque', 'immune', 'nequene', 'quodque', 'tene', 'solue', 'hispane', 'chamaedaphne', 'exigue', 'utramque', 'certamine', 'salve', 'importune', 'quotacumque', 'furtiue', 'nomen', 'pleroque', 'utrisque', 'amymone', 'lumen', 'agmine', 'potest', 'hominesne', 'mytilene', 'stephane', 'inhumane', 'naue', 'arne', 'justin', 'confine', 'uertigine', 'quaque', 'tiburne', 'utercumque', 'sollemne', 'undique', 'leve', 'quantuluscumque', 'praecoque', 'bulbine', 'acumine', 'quotusquisque', 'ismene', 'fulmen', 'strenue', 'superne', 'cave', 'est', 'culmine', 'proterue', 'alioquin', 'perbenigne', 'uelamine', 'tiberine', 'prospicve', 'examine', 'discrimen', 'interest', 'pyrene', 'commune', 'necne', 'quotienscumque', 'sane', 'quantumcumque', 'remane', 'plerumque', 'peremne', 'resolue', 'temone', 'tisiphone', 'innocue', 'hermione', 'denique', 'saeve', 'oxymyrsine', 'ignaue', 'pone', 'quasque', 'itaque', 'unumquidque', 'rhododaphne', 'aeque', 'furtive', 'pelagine', 'uane', 'agave', 'insane', 'pane', 'pleraque', 'pythone', 'perindigne', 'ue', 'chalbane', 'iove', 'quotiensque', 'moderamine', 'utrubique', 'ungue', 'urbane', 'telamone', 'paean', 'cydne', 'tantane', 'adest', 'absone', 'therone', 'martin', 'anemone', 'sermone', 'aeschynomene', 'statione', 'pingue', 'neque', 'forsan', 'paraetacene', 'quidque', 'ignave', 'margine', 'masculine', 'hierabotane', 'femine', 'cuicumque', 'plerique', 'sabine', 'arundine', 'discrimine', 'itone', 'unumquodque', 'quantuscumque', 'unumquemque', 'syene', 'diutine', 'breve', 'fragmine', 'caligine', 'inferne', 'semiplene', 'humane', 'gramine', 'qualiscumque', 'deque', 'acharne', 'anadyomene', 'calue', 'superest', 'sterne', 'pylene', 'utriusque', 'unusquisque', 'priene', 'segne', 'subtegmine', 'pectine', 'quamcumque', 'lat', 'roman', 'ave', 'thyone', 'supplicue', 'moene', 'numine', 'quosque', 'move', 'resolve', 'themin', 'cive', 'omne', 'pellene', 'proterve', 'hortamine', 'cone', 'ambigue', 'belone', 'hammone', 'mutue', 'utrumque', 'dine', 'dione', 'religione', 'sithone', 'fraterne', 'helxine', 'uolumine', 'liquamen', 'subest', 'quorumcumque', 'plerusque', 'nive', 'stramine', 'aeetine', 'clymenen', 'iason', 'mortaline', 'vove', 'anne', 'dicione', 'ne', 'obscene', 'undecumque', 'testudine', 'siue', 'halcyone', 'concinne', 'elatine', 'misene', 'relinque', 'omen', 'propinque', 'cerne', 'impune', 'lenone', 'sanguine', 'cuiuscumque', 'agaue', 'graue', 'cuiusque', 'claudian', 'uoue', 'nocturne', 'iuuene', 'tibicine', 'cane', 'geryone', 'limine', 'igne', 'quoque', 'forsitan', 'quintilian', 'pleramque', 'cumque', 'dulcedine', 'haecine', 'karthagine', 'sive', 'benigne', 'fulmine', 'turne', 'crepidine', 'cognomen', 'oblique', 'quotcumque', 'dracone', 'cyrene', 'prone', 'sene', 'adhucine', 'neue', 'marone', 'mucrone', 'longinque', 'flumine', 'matutine', 'breue', 'solve', 'absque', 'pleraeque', 'antique', 'ioue', 'ast', 'sine', 'oppone', 'andrachne', 'gramen', 'que', 'utrasque', 'limone']
tokenize(text, replacements=[('\\\\bmecum\\\\b', 'cum me'), ('\\\\btecum\\\\b', 'cum te'), ('\\\\bsecum\\\\b', 'cum se'), ('\\\\bnobiscum\\\\b', 'cum nobis'), ('\\\\bvobiscum\\\\b', 'cum vobis'), ('\\\\buobiscum\\\\b', 'cum uobis'), ('\\\\bquocum\\\\b', 'cum quo'), ('\\\\bquacum\\\\b', 'cum qua'), ('\\\\bquicum\\\\b', 'cum qui'), ('\\\\bquibuscum\\\\b', 'cum quibus'), ('\\\\bsodes\\\\b', 'si audes'), ('\\\\bsatin\\\\b', 'satis ne'), ('\\\\bscin\\\\b', 'scis ne'), ('\\\\bsultis\\\\b', 'si vultis'), ('\\\\bsimilist\\\\b', 'similis est'), ('\\\\bqualist\\\\b', 'qualis est')], enclitics_exceptions=['semen', 'utraeque', 'legione', 'memnone', 'nonne', 'utcumque', 'niue', 'continue', 'vive', 'peropportune', 'quandocumque', 'fine', 'an', 'impoene', 'impone', 'fue', 'uesane', 'christiane', 'orphne', 'lacedaemone', 'inurbane', 'exin', 'non', 'quin', 'remove', 'corone', 'lumine', 'plerarumque', 'serene', 'omine', 'epitheton', 'inest', 'conseque', 'sue', 'catone', 'praegraue', 'taprobane', 'sicine', 'cupidine', 'perbene', 'carmen', 'abusque', 'cyllene', 'pallene', 'novatian', 'pelion', 'lascive', 'mone', 'myrmidone', 'inane', 'digne', 'inique', 'erigone', 'ubique', 'uterque', 'uimine', 'calve', 'faune', 'maligne', 'roxane', 'immane', 'troiane', 'alsine', 'lene', 'tamen', 'utique', 'hedone', 'quacumque', 'istucine', 'sophene', 'pleione', 'hodierne', 'quaecumque', 'ferrugine', 'seditione', 'iasone', 'tantine', 'hunccine', 'imagine', 'semine', 'quemcumque', 'simulatque', 'prospicue', 'summove', 'usquequaque', 'bene', 'oenone', 'consone', 'daphne', 'attamen', 'ascanione', 'zone', 'propone', 'uiue', 'cardine', 'regione', 'bove', 'turbine', 'ratione', 'incongrue', 'torone', 'quisque', 'crine', 'heroine', 'clymene', 'nullane', 'post', 'unoquoque', 'cuique', 'alcuin', 'grave', 'quocumque', 'tegmine', 'susiane', 'praecipue', 'amne', 'prasiane', 'robigine', 'cacumine', 'proditione', 'suppone', 'pan', 'homine', 'uirgine', 'tertullian', 'acrisione', 'caen', 'babylone', 'messene', 'aspargine', 'quomodocumque', 'tyrrhene', 'leue', 'mnemosyne', 'epidamne', 'unguine', 'torque', 'deucalion', 'germane', 'nave', 'quinque', 'curve', 'stamine', 'obsidione', 'latine', 'assidue', 'melpomene', 'namque', 'opportune', 'pulmone', 'helene', 'remoue', 'retine', 'hicne', 'persephone', 'asine', 'procne', 'albane', 'insigne', 'solane', 'deest', 'paene', 'ingenue', 'chronicon', 'barine', 'aesone', 'inguine', 'serrane', 'amasene', 'quodcumque', 'adsuetudine', 'condigne', 'tirone', 'crimen', 'plene', 'bizone', 'calymne', 'patalene', 'transitione', 'carcine', 'utrobique', 'quemque', 'châtillon', 'pene', 'flumen', 'saeue', 'erinyn', 'perexigue', 'carmine', 'sperne', 'saturne', 'theophane', 'orion', 'titan', 'aquilone', 'aniene', 'asiane', 'superflue', 'utroque', 'utrarumque', 'gradive', 'peraeque', 'unamquamque', 'subtemine', 'utrosque', 'nuncine', 'subpone', 'desine', 'euadne', 'aue', 'quique', 'elephantine', 'ambitione', 'harundine', 'boue', 'formidine', 'sepone', 'supine', 'uulcane', 'priuigne', 'almone', 'agmen', 'salue', 'circumundique', 'curue', 'rhene', 'caue', 'prodest', 'huncine', 'libidine', 'selene', 'ubicumque', 'condicione', 'crimine', 'python', 'indigne', 'quarumque', 'inconcinne', 'labiene', 'alcyone', 'uoragine', 'utrimque', 'cyane', 'hymen', 'inpone', 'neve', 'euphrone', 'culmen', 'inseque', 'quicque', 'arachne', 'ordine', 'nerine', 'utraque', 'munimine', 'praefiscine', 'promiscue', 'quomque', 'euphrosyne', 'usque', 'inpune', 'origine', 'rubigine', 'nomine', 'summoue', 'abest', 'john', 'plerorumque', 'utrique', 'dein', 'agamemnone', 'feminine', 'uniuscuiusque', 'apolline', 'grandine', 'siccine', 'sin', 'hucine', 'elleborine', 'lanugine', 'antigone', 'unicuique', 'lucan', 'romane', 'gorgone', 'quascumque', 'phaethon', 'mane', 'quandoque', 'contigue', 'quaeque', 'quibusque', 'certamen', 'chamaemyrsine', 'faue', 'quorumque', 'quoscumque', 'germine', 'praegrave', 'donique', 'limen', 'umbone', 'specimen', 'depone', 'perspicue', 'flamine', 'hucusque', 'chione', 'moue', 'neptune', 'medicamine', 'catacecaumene', 'plerosque', 'nouatian', 'aparine', 'perenne', 'congrue', 'adaeque', 'aenean', 'quicumque', 'magne', 'indagine', 'bubone', 'temne', 'tenue', 've', 'amoene', 'lasciue', 'hicine', 'unaquaeque', 'bone', 'ciue', 'fatue', 'plerasque', 'cognomine', 'hesione', 'somne', 'sulmone', 'unaquaque', 'christian', 'quarumcumque', 'commagene', 'hippocrene', 'fave', 'en', 'phryne', 'atque', 'pitane', 'bipenne', 'in', 'iasione', 'crastine', 'quibuscumque', 'chaone', 'fune', 'cacumen', 'quousque', 'numen', 'progne', 'spiramine', 'nyctimene', 'mitylene', 'compone', 'quamque', 'exue', 'bellone', 'mesene', 'gradiue', 'plane', 'pirene', 'st', 'plerisque', 'cunque', 'n', 'utrorumque', 'adusque', 'quidcumque', 'immune', 'nequene', 'quodque', 'tene', 'solue', 'hispane', 'chamaedaphne', 'exigue', 'utramque', 'certamine', 'salve', 'importune', 'quotacumque', 'furtiue', 'nomen', 'pleroque', 'utrisque', 'amymone', 'lumen', 'agmine', 'potest', 'hominesne', 'mytilene', 'stephane', 'inhumane', 'naue', 'arne', 'justin', 'confine', 'uertigine', 'quaque', 'tiburne', 'utercumque', 'sollemne', 'undique', 'leve', 'quantuluscumque', 'praecoque', 'bulbine', 'acumine', 'quotusquisque', 'ismene', 'fulmen', 'strenue', 'superne', 'cave', 'est', 'culmine', 'proterue', 'alioquin', 'perbenigne', 'uelamine', 'tiberine', 'prospicve', 'examine', 'discrimen', 'interest', 'pyrene', 'commune', 'necne', 'quotienscumque', 'sane', 'quantumcumque', 'remane', 'plerumque', 'peremne', 'resolue', 'temone', 'tisiphone', 'innocue', 'hermione', 'denique', 'saeve', 'oxymyrsine', 'ignaue', 'pone', 'quasque', 'itaque', 'unumquidque', 'rhododaphne', 'aeque', 'furtive', 'pelagine', 'uane', 'agave', 'insane', 'pane', 'pleraque', 'pythone', 'perindigne', 'ue', 'chalbane', 'iove', 'quotiensque', 'moderamine', 'utrubique', 'ungue', 'urbane', 'telamone', 'paean', 'cydne', 'tantane', 'adest', 'absone', 'therone', 'martin', 'anemone', 'sermone', 'aeschynomene', 'statione', 'pingue', 'neque', 'forsan', 'paraetacene', 'quidque', 'ignave', 'margine', 'masculine', 'hierabotane', 'femine', 'cuicumque', 'plerique', 'sabine', 'arundine', 'discrimine', 'itone', 'unumquodque', 'quantuscumque', 'unumquemque', 'syene', 'diutine', 'breve', 'fragmine', 'caligine', 'inferne', 'semiplene', 'humane', 'gramine', 'qualiscumque', 'deque', 'acharne', 'anadyomene', 'calue', 'superest', 'sterne', 'pylene', 'utriusque', 'unusquisque', 'priene', 'segne', 'subtegmine', 'pectine', 'quamcumque', 'lat', 'roman', 'ave', 'thyone', 'supplicue', 'moene', 'numine', 'quosque', 'move', 'resolve', 'themin', 'cive', 'omne', 'pellene', 'proterve', 'hortamine', 'cone', 'ambigue', 'belone', 'hammone', 'mutue', 'utrumque', 'dine', 'dione', 'religione', 'sithone', 'fraterne', 'helxine', 'uolumine', 'liquamen', 'subest', 'quorumcumque', 'plerusque', 'nive', 'stramine', 'aeetine', 'clymenen', 'iason', 'mortaline', 'vove', 'anne', 'dicione', 'ne', 'obscene', 'undecumque', 'testudine', 'siue', 'halcyone', 'concinne', 'elatine', 'misene', 'relinque', 'omen', 'propinque', 'cerne', 'impune', 'lenone', 'sanguine', 'cuiuscumque', 'agaue', 'graue', 'cuiusque', 'claudian', 'uoue', 'nocturne', 'iuuene', 'tibicine', 'cane', 'geryone', 'limine', 'igne', 'quoque', 'forsitan', 'quintilian', 'pleramque', 'cumque', 'dulcedine', 'haecine', 'karthagine', 'sive', 'benigne', 'fulmine', 'turne', 'crepidine', 'cognomen', 'oblique', 'quotcumque', 'dracone', 'cyrene', 'prone', 'sene', 'adhucine', 'neue', 'marone', 'mucrone', 'longinque', 'flumine', 'matutine', 'breue', 'solve', 'absque', 'pleraeque', 'antique', 'ioue', 'ast', 'sine', 'oppone', 'andrachne', 'gramen', 'que', 'utrasque', 'limone'], enclitics=['que', 'n', 'ne', 'ue', 've', 'st'])[source]

Tokenizer divides the text into a list of substrings

Parameters:
  • text (str) – This accepts the string value that needs to be tokenized

  • replacements (List[Tuple[str, str]]) – List of replacements to apply to tokens such as “mecum” -> [“cum”, “me”]

  • enclitics_exceptions (List[str]) – List of words that look likes they end with an enclitic but are not.

  • enclitics (List[str]) – List of enclitics to check for in tokenization

Return type:

List[str]

Returns:

A list of substrings extracted from the text

>>> toker = LatinWordTokenizer()
>>> text = 'atque haec abuterque puerve paterne nihil'
>>> toker.tokenize(text)
['atque', 'haec', 'abuter', '-que', 'puer', '-ve', 'pater', '-ne', 'nihil']
>>> toker.tokenize('Cicero dixit orationem pro Sex. Roscio')
['Cicero', 'dixit', 'orationem', 'pro', 'Sex.', 'Roscio']
>>> toker.tokenize('nihilne te nocturnum praesidium Palati')
['nihil', '-ne', 'te', 'nocturnum', 'praesidium', 'Palati']
>>> toker.tokenize('Cenavin ego heri in navi in portu Persico?')
['Cenavi', '-ne', 'ego', 'heri', 'in', 'navi', 'in', 'portu', 'Persico', '?']
>>> toker.tokenize('Dic si audes mihi, bellan videtur specie mulier?')
['Dic', 'si', 'audes', 'mihi', ',', 'bella', '-ne', 'videtur', 'specie', 'mulier', '?']
>>> toker.tokenize("mecum")
['cum', 'me']

You can specify how replacements are made using replacements

>>> toker.tokenize("mecum", replacements=[(r"mecum", "me cum")])
['me', 'cum']

Or change enclitics and enclitics exception: >>> toker.tokenize(“atque haec abuterque puerve paterne nihil”, enclitics=[“que”]) [‘atque’, ‘haec’, ‘abuter’, ‘-que’, ‘puerve’, ‘paterne’, ‘nihil’]

>>> toker.tokenize("atque haec abuterque puerve paterne nihil", enclitics=["que", "ve", "ne"],
...    enclitics_exceptions=('paterne', 'atque'))
['atque', 'haec', 'abuter', '-que', 'puer', '-ve', 'paterne', 'nihil']
static compute_indices(text, tokens)[source]

8.1.19.1.1.3. cltk.tokenizers.lat.params module

Parameters for Latin Word Tokenization and Exceptions.

8.1.19.1.1.4. cltk.tokenizers.lat.utils module

Tokenization utilities: Latin

class cltk.tokenizers.lat.utils.LatinSentenceTokenizerTrainer(strict=False)[source]

Bases: SentenceTokenizerTrainer