Dataspaning

#5 Amaru Cuba Gyllensten - Natural language processing och maskininlärning inom språk

av Dataspaning | Publicerades 10/10/2018

Detta avsnitt gästas av doktoranden Amaru Cuba Gyllensten. Vi pratar om hans forskning inom Natural Language Processing (NLP) på RISE (Research Institutes of Sweden) och vad området kan användas till. Vi diskuterar även användningen av maskininlärning inom NLP och språkforskning, samt mer generellt kring maskininlärning och AI. Amarus artikel som nämns i avsnittet (24:00):Distributional Term Set Expansion - https://arxiv.org/pdf/1802.05014.pdfWord vector-artikel som nämns vid 47:30:Efficient Estimation of Word Representations in Vector Space - https://arxiv.org/pdf/1301.3781.pdf Bloggar inom NLP:Aylien - http://blog.aylien.com/Rare Technologies - https://rare-technologies.com/blog/ConceptNet - http://blog.conceptnet.io/ Intressanta inlägg inom NLP:Om bias i språkmodeller - http://blog.conceptnet.io/posts/2017/how-to-make-a-racist-ai-without-really-trying/Den hisotoriska utvecklingen av NLP - http://blog.aylien.com/a-review-of-the-recent-history-of-natural-language-processing/Om word embeddings - http://blog.aylien.com/overview-word-embeddings-history-word2vec-cbow-glove/En tutorial för att använda fasttext (en utveckling av word2vec som används av Facebook) - https://fasttext.cc/docs/en/unsupervised-tutorial.htmlKoreanska bokstäver i NLP - http://www.lrec-conf.org/proceedings/lrec2018/pdf/133.pdf Medverkande i avsnittet:- Amaru Cuba Gyllensten, doktorand i Natural Language Processing på RISE SICS- Henning Hammar, doktorand i fysik på Uppsala Universitet, driver även tjänsten Börslabbet, @investerarfys- Daniel Constanda, IT-konsult i finansbranchen på Clara Financial Consulting- Martin Nordgren, jobbar på Tobii, tidigare på Dirac, @martinjnordgren Kontakta oss:dataspaning.se@dataspaning @ Twitterdataspaning@gmail.com

Om Podcasten

Data, teknik och företagande