Es una técnica para tratar documentos que no tienen alguna categorización, y asume que cada documento es una mezcla aleatorias de categorías o tópicos
Un tópico en el contexto de modelado de tópicos es una distribución de probabilidades de palabras para un conjunto, e indica la probabilidad que una palabra aparezca en un documento sobre un tópico en particular
El modelado de tópicos asume que las palabras que comprende el texto fueron generadas aleatoriamente, y no tiene relación la secuencia en la que aparecen las palabras
Importante es saber que luego de cada ejecución, siempre arrojará resultados diferentes ya que Mallet utiliza Gibbs sampling por defecto, para calcular la probabilidad a posteriori. Por ende la comparación entre modelos no es muy práctica.
La cantidad de tópicos recomendada no existe por ende se debe realizar una gran cantidad de iteraciones para observar cual se ajusta mejor a la data. Usualmente mientras más general menor cantidad de tópicos mientras más especifico cada tópico tendrá menor cantidad de diarios.