许多邮政部门、铁路局、军事收藏和电报公司的档案中都保存着布满灰尘的日志,其中记录着手写的电报号码——这些账簿曾经是重要的通信记录。这些文件通常包含用户号码、站号、发送方和接收方姓名、时间戳,甚至路由指令。保存和数字化这些信息是了解早期通信网络和基础设施的关键一步。然而,与印刷目录不同,手写电报日志对数字化提出了独特而复杂的挑战。这时,光学字符识别 (OCR) ——尤其是人工智能增强型 OCR——便应运而生。传统的 OCR 工具是为印刷文本设计的,由于字体差异、墨水褪色或文档损坏,经常难以识别手写内容。但在过去十年中,深度学习、计算机视觉和自然语言处理领域的进步极大地提高了我们从历史记录中自动识别、提取和构建手写信息的能力。如今,通过结合使用先进的 OCR 引擎、自定义训练数据和后处理脚本,组织可以解锁这些遗留文档中隐藏的信息,并使其可供全球受众搜索、分析和访问。
现代手写电报日志的 OCR 流程涉及多阶段过程。首先,必须使用高分辨率扫描仪将物理文档数字化,最好使用高架或平板设置,以免损坏易碎的装订。扫描完成后,使用去倾斜、对比度增强、去噪和二值化等技术对图像进行预处理,以提高可读性。之后,使用专门的手写 OCR 引擎 - 例如Google Cloud Vision OCR、Microsoft Azure 的 Read API、Transkribus或带有 LSTM 模型的 Tesseract。多米尼加共和国电报数据库 Transkribus尤其受到历史学家的欢迎,因为它能够针对特定的笔迹样本训练模型,即使是对 19 世纪的特殊脚本也能达到非常高的准确率。用户可以上传他们的文档样本,手动抄写几页,然后训练一个自定义的 AI 模型来学习这些日志中发现的独特笔迹风格。字符识别完成后,结构化数据将被提取为 CSV 或 JSON 等格式,并相应地标记数字、名称、日期和位置等字段。后处理步骤通常包括人工审核、数据验证,以及越来越多基于机器学习的校正工具,这些工具可以分析不一致之处或使用上下文数据填充可能缺失的字符。
但仅有 OCR 是不够的——解释和理解这些数字的语境也同样重要。许多手写电报号码日志使用速记、缩写和非标准日期或位置格式,有时甚至在同一账本中也有所不同。为了解决这个问题,研究人员结合了NLP(自然语言处理)和在历史数据集上训练的实体识别模型。这些工具有助于解码模棱两可或特定领域的缩写(例如,“Stn. #045 NYC-EMR”可能被自动标记为“Station 45 – New York City East Mail Route”)并检测数据点之间的关系(例如发送方-接收方对)。与外部数据库(例如历史地图、人口普查记录或城市目录)集成,可以通过地理空间或传记背景丰富 OCR 输出。这不仅创建了数字化的历史资产,而且创建了交互式和可搜索的历史资产。输出结果可以输入到可视化、时间轴或地理信息系统 (GIS) 中,为历史学家、系谱学家、教育工作者和数字人文学者提供支持。总而言之,手写电报号码日志的 OCR 识别不再是遥不可及的未来梦想,而是如今已成现实。