5.1.2. Loại dữ liệu được sử dụng

Các dữ liệu trong văn bản sẽ là các thông tin về ô dữ liệu đó. Với mỗi loại tài liệu, các thông tin, gọi chung là Data, sẽ được chia thành các loại cấp bậc dữ liệu khác nhau dựa theo đặc điểm của tài liệu đó. Các cấp bậc được này được chia thành 4 kiểu lần lược là Section, Table, RowDatapoint.

Datapoint là dạng dữ liệu thấp nhất của từng dữ liệu đọc được trong tài liệu. Datapoint sẽ chứa các thông tin chi tiết về kết quả OCR và gía trị của các ô dữ liệu đó. Section sẽ gồm nhiều Datapoint có liên quan đến nhau được nhóm lại tùy theo từng loại tài liệu. (Ví dụ như 1 tài liệu hóa đơn sẽ có những thông tin như ngày hóa đơn, mẫu số, số ký hiệu, số hóa đơn, … Mỗi thông tin sẽ là 1 Datapoint và được gom lại với nhau thành Section Thông tin hóa đơn).

Table là kiểu dữ liệu dạng bảng. Table sẽ chứa nhiều hàng (row) và mỗi ô trong giá trị trong từng hàng sẽ được tính là 1 Datapoint. (Ví dụ: Bảng hóa đơn sẽ gồm các cột như tên hàng hóa, đơn vị tính, số lượng,… và gồm nhiều dòng dữ liệu. Mỗi ngăn trong bảng sẽ là một datapoint chứa thông tin và giá trị của dữ liệu đó).