文檔結(jié)構(gòu)化處理
知識(shí)的挖掘來源于數(shù)據(jù)分析,而數(shù)據(jù)分析的基礎(chǔ)是數(shù)學(xué)模型和結(jié)構(gòu)化的特征數(shù)據(jù)。如何將價(jià)值稀疏的非結(jié)構(gòu)化數(shù)據(jù)整理轉(zhuǎn)化為結(jié)構(gòu)化數(shù)庫或知識(shí)圖譜?這一直是智能思創(chuàng)矢志不渝的追求。智能思創(chuàng)“文檔結(jié)構(gòu)化處理“充分利用機(jī)器學(xué)習(xí)、自然語言處理、信息抽取等技術(shù),把網(wǎng)頁、PDF、Office 文檔、文檔掃描文件等各種文件解析成文本結(jié)構(gòu),再通過閱讀格式文本抽取、融合、校驗(yàn)形成目標(biāo)維度的結(jié)構(gòu)化數(shù)據(jù)。