依托于人工智能技术,利用深度神经网络强大的学习能力,我们在古文字和古籍的检测识别分割技术、智能检索技术、版面分析技术,以及语义校正技术上,均取得了阶段性的研究成果。
甲骨文检测、识别和分割
甲骨拓片图片作为甲骨文的重要研究载体,由于噪声影响严重,背景干扰、文字粘连、文字残缺等情况普通存在,故文字识别难度相对较高。我们运用人工智能技术,通过改进深度神经网络算法,实现了高准确率的甲骨文检测、识别和分割。
古籍OCR检测、识别、版面分析和语义校正
对于古籍来说,仅仅得到图像上单个文字的检测识别结果,还远远不够,生成整篇有序的文字结果,实现古籍从数字化到文档化的过渡,是提高古籍利用率的有效手段。我们在实现了古籍文字检测和识别的基础上,对文字检测结果进行版面分析,得到有上下文语义的整篇有序文字。再对文字识别结果进行语义校正,进一步提升识别准确率,最终得到高质量的古籍文档化结果。
古籍数字化平台
依托古文字和古籍中的众多先进技术,我们打造了一套古籍数字化平台,涵盖了古文字和古籍的数据管理、数据标注、数据校对、文字OCR等全流程业务体系,极大地提高了古文字和古籍的识读研究效率,提升了资源利用率,为普及利用提供了内容来源。