Nhận dạng ký tự quang học (OCR) đề cập đến phần mềm tạo phiên bản kỹ thuật số của tài liệu in, đánh máy hoặc viết tay mà máy tính có thể đọc mà không cần nhập hoặc nhập văn bản theo cách thủ công. OCR thường được sử dụng trên các tài liệu được quét ở định dạng PDF, nhưng cũng có thể tạo phiên bản văn bản mà máy tính có thể đọc được trong tệp hình ảnh.
OCR Là gì
OCR, còn được gọi là nhận dạng văn bản, là công nghệ phần mềm chuyển đổi các ký tự như số, chữ cái và dấu câu (còn được gọi là glyphs) từ tài liệu in hoặc viết sang dạng điện tử được máy tính nhận dạng và đọc dễ dàng hơn và các chương trình phần mềm khác. Một số chương trình OCR thực hiện điều này khi tài liệu được quét hoặc chụp ảnh bằng máy ảnh kỹ thuật số và những chương trình khác có thể áp dụng quy trình này cho các tài liệu đã được quét hoặc chụp ảnh trước đó mà không có OCR. OCR cho phép người dùng tìm kiếm trong tài liệu PDF, chỉnh sửa văn bản và định dạng lại tài liệu.
Getty Images
OCR được sử dụng để làm gì?
Đối với nhu cầu quét hàng ngày, nhanh chóng, OCR có thể không phải là vấn đề lớn. Nếu bạn quét một lượng lớn, có thể tìm kiếm trong các tệp PDF để tìm chính xác tệp bạn cần có thể tiết kiệm kha khá thời gian và làm cho chức năng OCR trong chương trình máy quét của bạn trở nên quan trọng hơn. Dưới đây là một số điều khác mà OCR hỗ trợ:
- Xử lý dữ liệu tự động và nhập dữ liệu (Ví dụ: Hệ thống theo dõi hồ sơ ứng viên xin việc).
- Giúp sách đã quét có thể tìm kiếm được.
- Chuyển đổi bản quét viết tay thành văn bản có thể đọc được trên máy tính.
- Làm cho tài liệu dễ sử dụng hơn bằng các chương trình đọc hỗ trợ người dùng khiếm thị.
- Bảo quản các tài liệu lịch sử và báo chí, đồng thời giúp chúng có thể tìm kiếm được.
- Trích xuất và chuyển dữ liệu sang chương trình kế toán (Ví dụ: Phiếu thu và hóa đơn).
- Lập chỉ mục tài liệu để các công cụ tìm kiếm sử dụng.
- Nhận dạng biển số lái xe bằng camera bắn tốc độ và phần mềm camera vượt đèn đỏ.
- Trình tổng hợp giọng nói dành cho những người không thể nói - nhà vật lý lý thuyết, Stephen Hawking, có lẽ là người sử dụng chương trình tổng hợp giọng nói nổi tiếng nhất.
Bottom Line
Tại sao không chỉ chụp một bức ảnh, phải không? Bởi vì bạn sẽ không thể chỉnh sửa bất cứ thứ gì hoặc tìm kiếm văn bản vì nó sẽ chỉ là một hình ảnh. Quét tài liệu và chạy phần mềm OCR có thể biến tệp đó thành thứ mà bạn có thể chỉnh sửa và có thể tìm kiếm.
Lịch sử của OCR
Mặc dù việc sử dụng nhận dạng văn bản sớm nhất là từ năm 1914, nhưng sự phát triển và sử dụng rộng rãi các công nghệ liên quan đến OCR đã bắt đầu nghiêm túc vào những năm 1950, đặc biệt với việc tạo ra các phông chữ rất đơn giản, dễ chuyển đổi sang kỹ thuật số- văn bản có thể đọc được. Phông chữ đơn giản đầu tiên được tạo ra bởi David Shepard và thường được gọi là OCR-7B. OCR-7B ngày nay vẫn được sử dụng trong ngành tài chính cho phông chữ tiêu chuẩn được sử dụng trên thẻ tín dụng và thẻ ghi nợ. Vào những năm 1960, các dịch vụ bưu chính ở một số quốc gia bắt đầu sử dụng công nghệ OCR để tăng tốc độ phân loại thư, bao gồm Hoa Kỳ, Anh, Canada và Đức. OCR vẫn là công nghệ cốt lõi được sử dụng để phân loại thư cho các dịch vụ bưu chính trên khắp thế giới. Vào năm 2000, kiến thức chính về các giới hạn và khả năng của công nghệ OCR đã được sử dụng để phát triển các chương trình CAPTCHA được sử dụng để ngăn chặn bot và người gửi thư rác.
Qua nhiều thập kỷ, OCR đã phát triển chính xác hơn và tinh vi hơn do những tiến bộ trong các lĩnh vực công nghệ liên quan như trí tuệ nhân tạo, máy học và thị giác máy tính. Ngày nay, phần mềm OCR sử dụng tính năng nhận dạng mẫu, phát hiện tính năng và khai thác văn bản để chuyển đổi tài liệu nhanh hơn và chính xác hơn bao giờ hết.
FAQ
Làm cách nào để quét tài liệu bằng điện thoại hoặc máy tính bảng?
Trên iOS, mở ứng dụng Ghi chú và tạo ghi chú mới. Mở máy ảnh, sau đó chạm vào Quét tài liệu. Trên Android, mở Google Drive và chọn Plus(+), sau đó nhấn Scanđể quét tài liệu bằng điện thoại của bạn.
Làm cách nào để sử dụng OCR trong Adobe Acrobat?
Mở tệp PDF có chứa hình ảnh được quét, sau đó chọn Tools> Edit PDF. Acrobat sẽ tự động áp dụng OCR để bạn có thể chỉnh sửa văn bản. Chỉ cần chọn nơi bạn muốn chỉnh sửa và bắt đầu nhập.
Sự khác biệt giữa OCR và OMR là gì?
Nhận dạng dấu quang học (OMR) là phần mềm phát hiện dấu vết trên giấy, thường là tờ bong bóng. OMR được sử dụng để xử lý kết quả của các kỳ thi, khảo sát, bảng câu hỏi và thậm chí cả các cuộc bầu cử. Không giống như OCR, OMR không thể giải mã các dấu trên trang mà chỉ xác minh rằng các dấu ở đó.